你是如何被“大数据”洗脑的？_网络营销_运营教程

1 547 你是如何被“大数据”洗脑的？

正文开始之前，请大家先看1个案例：

1家公司希望了解自家产品的用户画像，因而他们在产品包装上印上自家小程序的2维码，然后想办法促使用户去扫码（比如扫码查真伪、扫码学习食用方法等）。1旦用户扫描2维码，公司就可以从后台了解他们的基本信息，比以下图就是对用户年龄散布的统计结果：

1 189 你是如何被“大数据”洗脑的？

（PS，出于保密需要，这里暂且放1张P过的图来示意）

现在请问：哪一个年龄段的人材是该产品的典型用户？

对这个问题，我1共听到过3种答案。

第1种认为是30—39岁。如果你问他为何，很明显，由于那部份柱子最高…

第2种认为是25—29岁。由于虽然它高度只是第2，但它的年龄跨度只有5岁，仅仅是30—39岁跨度的1半。

第3种则认为18—29岁都是，道理跟第2条类似，不再多解释。

那末，究竟哪一种答案才更加正确呢？

我估计大部份人都会选第2种或第3种吧？

最开始我也是这样解读的，认为该产品的典型用户就是“年轻人”。（若依照国家统计局的标准，也就是15—34岁的人）

不过说实话，这个结论还真挺让我惊讶。由于若根据我的常识来判断的话，它的典型用户应当是年纪稍大点的中年人材对。

该产品属于健康食品，主打“排毒”“减肥”“降3高”“治便秘”“抗酸”的功效（你先别笑它卖点太多不够聚焦，又不是走电视广告的门路），而这些功能属性，除“减肥”之外，我相信很多人都会跟我1样——若用常识来判断，它们应当更偏向中年人。

但是，数据结果却与常识判断相互矛盾…这时候候，你到底该相信数据还是相信常识呢？

这是我最近在1个项目中遇到的1个问题，这个问题也的确让我纠结了1段时间。由于1方面有人说“数据是不会撒谎的”，而另外一方面又有人说“做调研，常识才更加重要”…

不过，当我想起之前看到过的1段故事以后，问题就变得相对明朗了。

1.2战的故事

在2战期间，盟军的战役机在战役中损失惨痛，因而盟军总部秘密召集了1批物理学家、数学家来专门研究“如何减少空军被击落的几率”。

当时军方统计了所有返航飞机的中弹位置，发现机翼部份中弹比较密集，而机身和机尾的中弹比较稀疏，因此当时普遍的建议便是：应加强机翼部份的防护。

但是，统计学家沃德却提出了1个完全相反的观点，他认为应加强机身和机尾部份。

沃德教授说：“所有的样本都是成功返航的飞机，也就是可能正是由于机翼遭到攻击，机身和机尾没有遭到密集的攻击，所以才使得这些飞性能够成功返航。”

后来又经过1系列有力的论证后，军方果真采取了他的建议。事后也证明这的确是非常正确的决策，有效下降了空军被击落的几率。

1 264 你是如何被“大数据”洗脑的？

这个故事讲的就是所谓的「幸存者偏差」（Survivorship bias）

幸存者偏差是指：当获得资讯的渠道仅来自于幸存者时，此资讯可能会存在与实际情况不同的偏差。（由于死人不会说话）

那它跟之前用户画像的例子有甚么关系呢？

关系很大。

虽然数据是不会撒谎的，但它只能展现出有数据（幸存者）的那部份信息，而没法展现没有数据（阵亡者）的那部份信息，它是片面的。

翻译到之前那个案例：如果仅凭扫过码的用户数据来判断产品的用户特点，实际上是疏忽了那些使用了产品但没有扫码的用户的数据。毕竟，不是所有用了产品的人都1定会扫码。

而这里有很多可能的因素会影响结果，比如：

1）不同年龄段的人具有不同的扫码习惯——可能年轻人更愿意扫码，而中、老年人大部份都没有扫码习惯。

2）扫码的人不1定是产品的用户——或许是年轻人买了该产品送给尊长，然后自己去扫了码。

3）说服人们扫码的文案也会有影响——假设你说“扫码享优惠”，那终究扫码的可能就更偏向于那些“精打细算”的用户，而不是所有用户。

总之，永久不可能得到完全的数据样本。

因此，回到文章最开始的问题——哪一个年龄段的人材是该产品的典型用户？

准确的答案应当是：没法仅通过该数据就得出结论。

是的，到目前为止，我仍然更偏向于相信常识——认为中年人材是它的典型用户。（估摸着最少也是30岁以上）

2.洞穴之喻

柏拉图曾在《理想国》的第7篇中，讲了1个著名的比喻——洞穴之喻（Allegory of the Cave）

假想有个很深的洞穴，洞里有1些囚徒，他们生来就被锁链束缚在洞穴当中，他们背向洞口，头不能转动，眼睛只能看着洞壁。

在他们后面砌有1道矮墙，墙和洞口之间燃烧着1堆火，1些人举着各种器物沿着墙来往走动，犹如木偶戏的屏风。当人们扛着各种用具走过墙后的小道，火光便把那些器物的影象投射到眼前的洞壁上。

由于这些影象是洞中囚徒们唯1能见的事物，他们便以为这些影象就是这个世界真实的事物。

1 356 你是如何被“大数据”洗脑的？

在现实生活中，数据就像该比喻中印在壁洞上的影象——它试图利用低维的事物，去给人们描绘1个高维的东西。如果将洞壁的影象进行数据化处理，哪怕技术再先进，搜集的数据再多，都难以让洞穴人感知到1个真实的世界，由于他们看到的世界都被“降维处理”了。

而另外一方面，常识又是甚么？

不可否认的是：常识跟数据1样，都是片面的。并且每一个人的常识都不尽相同，质量良莠不齐。

不过这里想说的重点是：相比于数据，常识能从更多很多的角度去分析1个事物。

由于人类的大脑很奇妙，它能把很多看似无关的事物联系在1起。而这1点，是任何计算机都很难以数据的情势做到的。

举个最简单的例子：人们可通过视察“1根筷子折得断，10根筷子折不断”的现象，悟出1个与之绝不相干的道理——团结就是气力。而同1个现象如果交给计算机去处理，那最后的结果就肯定只能与“材料”“扭矩”和“力度”等相干…

1 453 你是如何被“大数据”洗脑的？

再比如迈克·亚当斯曾做过的1项研究，他发现：美国大学生期中考试邻近时，奶奶去世的可能性是平时的10倍，而期末考试时是平时的19倍。（数据来自各高校收到的请假邮件和推延交论文的申请）

若单看数据，你或许会认为学生的学术压力会对奶奶的健康造成影响（的确有科学家对此做过研究…）；但如果用常识去思考，那就很简单了——为躲避考试，学生们编造了“奶奶去世”的请假借口。

这就是常识与数据的区分——常识是多维的，数据是单维的。

3.数据不骗人，但它会坑人

数据真实的价值其实不在于其统计或计算结果，而在于人们能对其做出正确的解读。不过这很困难，特别当你面对的是残缺的数据。

就像我之前举过的1个例子：

据《2017社会大学英雄榜》显示，国内登上胡润百富榜的2000多位资产超210亿的富豪中，有1半的人都是低学历。（PS，低学历是指本科以下的学历）

请问：从这条新闻中你能读出甚么结论？

我想肯定有很多人会认为：学历的高低跟收入的确没甚么关系。

但是，这类解读是错的。

正确的解读方式是甚么呢？

应当是：中国在2016年末大约有13.8亿人口，其中本科及以上的只有3800万，本科以下则有13.42亿——低学历的人本来就比高学历的人多很多（35倍），而它们进入榜单的人数基本相同。因此，具有高学历的人进入百富榜的几率，是低学历的35倍。

在这个例子中，所有的数据都是真实的。但如果你只看到1部份数据，而没有看到其他数据，那就很容易被数据给坑了，得出毛病的结论。

固然，要想得出更加准确的结论，这里还需发掘更多的数据。比如：

富豪们的年龄散布。毕竟不同年龄段人群的学历散布是不1样的；

所属行业的散布。毕竟不同行业对学历的要求与相干程度是不1样的；

在这些富豪中，高学历的收入与低学历的收入的整体对照情况…

嗯，如果你不是专门学统计的，相信在加入这么多因素以后，1定会崩溃掉…不过你也不用慌，由于大部份情况下，你根本就没有机会能知道这么详实的数据。

包括以数据著称的新零售。为何大部份新零售项目依然在亏钱？其实就是由于它们的范围还没有到达1定的量，数据的维度仍然比较单1，“算”出来的东西仍然不够精准，所以效力的提升也就很有限了。

4小结1下

文章读到这里，你或许会在心里嘀咕：小云兄你写这篇文章，是否是想告知我们数据是没有用的呢？如果数据的结果都不够准确，那甚么才是准确的呢？

首先，这里其实不是说数据没有用，即便它是片面的。

所谓的要客观看问题，其实不是指你1定要掌握了所有数据以后才能下定论，而是要在下定论之前，尽可能多方面了解1些数据和信息，不管它们本身多片面。

多了解1点，出错的概率就会小1点，多看到1面，你离客观的真相就更接近1点，这就是进步。

千万不要试图1下子解决所有的问题，或以为1下子就得到准确的答案，由于这本身就是1种毛病的价值观，或说痴人说梦。（所以你也不用纠结“甚么才是准确的”了，根本就不存在）

知道自己还有不知道的，并在问题中不断前进，这才是真正科学发展的思想。

相反的，如果仅凭单方面数据就果断得出结论，并且笃定得不行，那不管数据样本有多大，你的结论和真实情况都极可能是天差地别的。

原创：小云兄

来源：品牌圈圈