|
大数据就是很多数据?NO!自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。 故事07:啤酒和尿布:经典故事是伪造的,你知道吗?
这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!
上面这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》,在这个案例中,要情节有情节,要数据,有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:
这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则(Association Rule)”的概念,更是“居家旅行,必备之良药(周星驰语)”。当前,基本上所有讲大数据应用,都会捎带讲上这个经典案例,要求大家多研究“相关性”,少研究因果关系!但实在扫兴的是,这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽,但信不得!
2.相关性并非什么大事
即便真的有这个案例,也不说明数据分析出来的“相关性”,有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是:趾高气扬的因果关系光芒不再,卑微的相关关系将被“翻身做主人”,知道“是什么”就够了,没必要知道“为什么”。但需要我们更为深入了解的事实是:
图6 连线杂志:理论的终结
大数据分析的第二个功能,或者说更为的核心功能在于,预测。预测主要用于对未来进行筹划,大到产业的布局,小到流感的预警,均可用预测。但是对未来的预测,能准吗?
故事08:谷歌流感预测:预测是如何失效的?
2009年2月,谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文【11】:《利用搜索引擎查询数据检测禽流感流行趋势》,并设计了大名鼎鼎的流感预测系统(Google Flu Trends,GFT,访问网址为:www.google.org/flutrends/)。
GFT一度被认为是大数据预测未来的经典案例,给很多人打开了一扇未来的窗口。根据这个故事,大数据的布道者们给出了4个令自己满意的结论:
但据英国《财经时报》(FT)援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3],这四条 “完全是胡说八道(complete bollocks. Absolute nonsense)”。
针对前3条观点的不足之处,前文故事已经涉及到了,不再赘言。针对第4条,我们有必要再解析一下——GFT预测是如何失效的?
谷歌工程师们开发的GFT,可谓轰动一时,但好景不长,相关论文发表4年后,2013年2月13日,《自然》发文指出【12】,在最近(2012年12月)的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重,然而疾控中心(CDC)在汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍,如图7所示。
图7 GFT流感预测失准 (图片来源:自然期刊)
研究人员发现,问题的根源在于,谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联,也没有试图去搞清楚关联背后的原因,只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性,谷歌工程师们不断地微调预测算法,但GFT每一次算法微调,都是为了修补之前的测不准,但每次修补又都造成了另外的误差。
谷歌疫情之所以会误报,还因为大数据分析中存在“预测即干涉”的问题。量子物理创始人之一维尔纳海森堡(Werner Heisenberg),曾在1927年的一篇论文中指出,在量子世界中,测量粒子位置,必然会影响粒子的速度,即存在“测不准原理”。也就是说,在量子尺度的微距世界中,“测量即干涉”。如今,在媒体热炒的“大数据”世界中,类似于“测不准原理”,即存在“预测即干涉”悖论。
这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处:当年的大白菜卖价不错(历史数据),预计明年的卖价也不错(预测),于是众多菜农在这个预测的指导下,第二年都去种大白菜(采取行动),结果是,菜多价贱伤农(预测失败)。
进一步分析就可发现,GFT预测失准在很大程度上是因为,一旦GFT提到了有疫情,立刻会有媒体报道,就会引发更多相关信息搜索,反过来强化了GFT对疫情的判定。这样下去,算法无论怎么修补,都无法改变其愈发不准确的命运。
对GFT预测更猛烈的攻击,来自著名期刊《科学》【13】。2014年3月,该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌流感的寓言:大数据分析中的陷阱(The parable of Google Flu: traps in big data analysis)”,他们对谷歌疫情预测不准的问题做了更为深入地调查,也讨论了大数据的“陷阱”本质。《科学》一文作者认为:大数据的分析是很复杂的,但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密,难免会出现失准的情况,作者以谷歌流感趋势失准为例,指出“大数据傲慢(Big Data Hubris)”是问题的根源。
《科学》一文还认为,“大数据傲慢(Big Data Hubris)”还体现在,存在一种错误的思维方式,即误认为大数据模式分析出的“统计学相关性”,可以直接取代事物之间真实的因果和联系,从而过度应用这种技术。这就对那些过度推崇“要相关,不要因果”人群,提出了很及时的警告。毕竟,在某个时间很多人搜索“流感”,不一定代表流感真的暴发,完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。
果壳网有一篇对《科学》一文深度解读的文章:“数据并非越大越好:谷歌流感趋势错在哪儿了?”,感兴趣的读者可以前去围观。
苏萌、柏林森和周涛等人合著的《个性化:商业的未来》【14】,他们强调,“个人化”服务是未来最有前途的商业模式。可这里有个问题,提供“个人化”服务,就需要了解顾客的“个性化信息”,如果顾客许可使用个人信息的,那么这种个性化服务是贴心的,如果没有许可呢? 下面这个故事就是一则有关商品个性化推荐的,但它体现出来的是数据分析的智慧,还是愚蠢呢?
故事09:Target超市预测女孩怀孕:“大数据”智慧,还是愚蠢?
2012年2月16日,《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》(How Companies Learn Your Secrets)的报道【15】。文中介绍了这样一个故事:
一天,一位男性顾客怒气冲冲地来到一家折扣连锁店Target(中文常译作“塔吉特”,为仅次于沃尔玛的全美第二大零售商),向经理投诉,因为该店竟然给他还在读高中的的女儿,邮寄婴儿服装和孕妇服装的优惠券。
图8 《纽约时报》:这些公司是如何知道您的秘密的
一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?这里就需要用到“关联规则+预测推荐”技术。
事实上,每位顾客初次到Target刷卡消费时,都会自动获得一个唯一顾客识别编号(ID)。以后,顾客再次光临Target消费时,计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料,Target便能形成一个庞大数据库,运用于分析顾客的喜好与需求。
有了数据,特别是有了“大”容量的数据,后面的问题就简单了。Target的数据分析师,开发了很多预测模型,其中怀孕预测模型(pregnancy-prediction model)就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品,就预测到了这为女顾客可能怀孕了,而怀孕了,未来就有可能需要购置婴儿服装和孕妇服装,多么贴心的商店啊。但是需要我们注意的是: 责编:胡雪妍 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|