大数据就是很多数据？NO！

来源：互联网作者：张玉宏

2015/7/28 17:17:53

自2011年以来，大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑，大数据已然成为继云计算、物联网之后新一轮的技术变革热潮，不仅是信息领域，经济、政治、社会等诸多领域都“磨刀霍霍”向大数据，准备在其中逐得一席之地。

故事07：啤酒和尿布：经典故事是伪造的，你知道吗？

这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后，研究人员突然发现：跟尿布一起搭配购买最多的商品，竟是啤酒！
尿布和啤酒，听起来风马牛不相及，但这是对历史数据进行挖掘的结果，反映的是数据层面的规律。这种关系令人费解，但经过跟踪调查，研究人员发现，一些年轻的爸爸常到超市去购买婴儿尿布，有30％~40％的新爸爸，会顺便买点啤酒犒劳自己。随后，沃尔玛对啤酒和尿布进行了捆绑销售，不出意料，销售量双双增加。

上面这个案例，出自于涂子沛先生的所著的大数据畅销书《数据之巅》，在这个案例中，要情节有情节，要数据，有数据，誓言旦旦，不容你置疑。但是，这个故事虽经典，但是让你意想不到的是：

案例是编造的

这个经典的“啤酒和尿布” (Beer and Diapers)的案例，不仅是《大数据》类图书的常客，事实上，它更是无数次流连于“数据挖掘”之类的书籍中，特别是用来解释“关联规则（Association Rule）”的概念，更是“居家旅行，必备之良药（周星驰语）”。当前，基本上所有讲大数据应用，都会捎带讲上这个经典案例，要求大家多研究“相关性”，少研究因果关系！但实在扫兴的是，这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽，但信不得！

实践是检验真理的唯一标准。如果这个故事是真的，按理说，应该给超级市场以无限启发才对，可实际上，不管是中国，还是在美国，在超市里面观察一下，就会发现，根本没有类似的物品摆放，相近的都很少。
故事性强，事出有因。据吴甘沙先生透露，它是Teradata公司一位经理编出来的“故事”，目的是让数据分析看起来更有力，更有趣，而在历史上从没有发生过，感兴趣的读者可以自己参阅文献。但公平地讲，这个故事对数据挖掘的普及意义重大，仅从教育意义上看，仍不失为一个好故事。

2.相关性并非什么大事

即便真的有这个案例，也不说明数据分析出来的“相关性”，有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是：趾高气扬的因果关系光芒不再，卑微的相关关系将被“翻身做主人”，知道“是什么”就够了，没必要知道“为什么”。但需要我们更为深入了解的事实是：

“要相关，不要因果”，这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》（Wired）主编Chris Anderson ，2008年他在题为 “理论的终结：数据洪流让科学方法依然过时（End of Theory: the Data Deluge Makes the Scientific Method Obsolete）【9】” 文章中，率先提出：在PB时代，我们可以说，有相关性足够了（Petabytes allow us to say: "Correlation is enough）"。

图6 连线杂志：理论的终结

“要相关，不要因果”的观点，并不受学术界待见。甚至，《大数据时代》的中文版翻译者周涛亦在序言里说，“放弃对因果关系的追求，是人类的堕落”。对于这个观点，李国杰院士认为【10】：在大数据中，看起来毫不相关的两件事同时或相继出现的现象比比皆是，相关性本身并没有多大价值，关键是找对了“相关性”背后的理由，才是新知识或新发现。

大数据分析的第二个功能，或者说更为的核心功能在于，预测。预测主要用于对未来进行筹划，大到产业的布局，小到流感的预警，均可用预测。但是对未来的预测，能准吗？

故事08：谷歌流感预测：预测是如何失效的？

2009年2月，谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文【11】：《利用搜索引擎查询数据检测禽流感流行趋势》，并设计了大名鼎鼎的流感预测系统（Google Flu Trends，GFT，访问网址为：www.google.org/flutrends/）。
GFT预测H1N1流感的原理非常朴素：如果在某一个区域某一个时间段，有大量的有关流感的搜索指令，那么，就可能存在一种潜在的关联：在这个地区，就有很大可能性存在对应的流感人群，相关部门就值得发布流感预警信息。
GFT监测并预测流感趋势的过程仅需一天，有时甚至可缩短至数个小时。相比而言，美国疾病控制与预防中心（Center for Disease Control and Prevention，CDC）同样也能利用采集来的流感数据，发布预警信息。但CDC的流感预测结果，通常需要滞后两周左右才能得以发布。但对于一种飞速传播的疾病（如禽流感等），疫情预警滞后发布，后果可能是致命的。

GFT一度被认为是大数据预测未来的经典案例，给很多人打开了一扇未来的窗口。根据这个故事，大数据的布道者们给出了4个令自己满意的结论：

由于所有数据点都被捕捉到，故传统的抽样统计的方法完全可以被淘汰。换句话说，做到了“n=All”；
无需再寻找现象背后的原因，只需要知道某两者之间的统计相关性就够用了。针对这个案例，只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。
不再需要统计学模型，只要有大量的数据就能完成分析目的，印证了《连线》主编Chris Anderson 提出的“理论终结”的论调。
大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。

但据英国《财经时报》（FT）援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3]，这四条 “完全是胡说八道（complete bollocks. Absolute nonsense）”。

针对前3条观点的不足之处，前文故事已经涉及到了，不再赘言。针对第4条，我们有必要再解析一下——GFT预测是如何失效的？

谷歌工程师们开发的GFT，可谓轰动一时，但好景不长，相关论文发表4年后，2013年2月13日，《自然》发文指出【12】，在最近（2012年12月）的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重，然而疾控中心（CDC）在汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍，如图7所示。

图7 GFT流感预测失准（图片来源：自然期刊）

研究人员发现，问题的根源在于，谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联，也没有试图去搞清楚关联背后的原因，只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性，谷歌工程师们不断地微调预测算法，但GFT每一次算法微调，都是为了修补之前的测不准，但每次修补又都造成了另外的误差。

谷歌疫情之所以会误报，还因为大数据分析中存在“预测即干涉”的问题。量子物理创始人之一维尔纳海森堡（Werner Heisenberg），曾在1927年的一篇论文中指出，在量子世界中，测量粒子位置，必然会影响粒子的速度，即存在“测不准原理”。也就是说，在量子尺度的微距世界中，“测量即干涉”。如今，在媒体热炒的“大数据”世界中，类似于“测不准原理”，即存在“预测即干涉”悖论。

这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处：当年的大白菜卖价不错（历史数据），预计明年的卖价也不错（预测），于是众多菜农在这个预测的指导下，第二年都去种大白菜（采取行动），结果是，菜多价贱伤农（预测失败）。

进一步分析就可发现，GFT预测失准在很大程度上是因为，一旦GFT提到了有疫情，立刻会有媒体报道，就会引发更多相关信息搜索，反过来强化了GFT对疫情的判定。这样下去，算法无论怎么修补，都无法改变其愈发不准确的命运。

对GFT预测更猛烈的攻击，来自著名期刊《科学》【13】。2014年3月，该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌流感的寓言：大数据分析中的陷阱（The parable of Google Flu: traps in big data analysis）”，他们对谷歌疫情预测不准的问题做了更为深入地调查，也讨论了大数据的“陷阱”本质。《科学》一文作者认为：大数据的分析是很复杂的，但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密，难免会出现失准的情况，作者以谷歌流感趋势失准为例，指出“大数据傲慢(Big Data Hubris)”是问题的根源。

《科学》一文还认为，“大数据傲慢(Big Data Hubris)”还体现在，存在一种错误的思维方式，即误认为大数据模式分析出的“统计学相关性”，可以直接取代事物之间真实的因果和联系，从而过度应用这种技术。这就对那些过度推崇“要相关，不要因果”人群，提出了很及时的警告。毕竟，在某个时间很多人搜索“流感”，不一定代表流感真的暴发，完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。

果壳网有一篇对《科学》一文深度解读的文章：“数据并非越大越好：谷歌流感趋势错在哪儿了？”，感兴趣的读者可以前去围观。

苏萌、柏林森和周涛等人合著的《个性化：商业的未来》【14】，他们强调，“个人化”服务是未来最有前途的商业模式。可这里有个问题，提供“个人化”服务，就需要了解顾客的“个性化信息”，如果顾客许可使用个人信息的，那么这种个性化服务是贴心的，如果没有许可呢？

下面这个故事就是一则有关商品个性化推荐的，但它体现出来的是数据分析的智慧，还是愚蠢呢？

故事09：Target超市预测女孩怀孕：“大数据”智慧，还是愚蠢？

2012年2月16日，《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》（How Companies Learn Your Secrets）的报道【15】。文中介绍了这样一个故事：

一天，一位男性顾客怒气冲冲地来到一家折扣连锁店Target（中文常译作“塔吉特”，为仅次于沃尔玛的全美第二大零售商），向经理投诉，因为该店竟然给他还在读高中的的女儿，邮寄婴儿服装和孕妇服装的优惠券。

但随后，这位父亲与女儿进一步沟通发现，自己女儿真的已经怀孕了。于是致电Target道歉，说他误解商店了，女儿的预产期是8月份。

图8 《纽约时报》：这些公司是如何知道您的秘密的

一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢？这里就需要用到“关联规则+预测推荐”技术。

事实上，每位顾客初次到Target刷卡消费时，都会自动获得一个唯一顾客识别编号（ID）。以后，顾客再次光临Target消费时，计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料，Target便能形成一个庞大数据库，运用于分析顾客的喜好与需求。

有了数据，特别是有了“大”容量的数据，后面的问题就简单了。Target的数据分析师，开发了很多预测模型，其中怀孕预测模型（pregnancy-prediction model）就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品，就预测到了这为女顾客可能怀孕了，而怀孕了，未来就有可能需要购置婴儿服装和孕妇服装，多么贴心的商店啊。但是需要我们注意的是：

共4页:上一页 [1] [2]3 [4] 下一页

责编：胡雪妍

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

大数据就是很多数据？NO！

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。