从大数据到小数据，数据之坑与美

来源：CIO时代网中国大数据作者：畅享网

2015/8/13 9:41:39

“技术是总是配“套”而来的，但这个“套”有大有小(Technology comes in packages, big and small)”。

本文关键字：大数据

美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg)，曾提出过大名鼎鼎的科技六定律，其中第三条定律是这样的[1]：“技术是总是配“套”而来的，但这个“套”有大有小(Technology comes in packages, big and small)”。

这个定律用在当下，是非常应景的。因为，我们正步入一个“大数据(big data)”时代，但对于以往的“小数据(small data)”，我们能做到“事了拂衣去，深藏身与名”吗?答案显然不是。目前，大数据的前途似乎“星光灿烂”，但小数据的价值依然“风采无限”。克兰兹伯格的第三定律是告诉我们，新技术和老技术的自我革新演变，是交织在一起的。大数据和小数据，他们“配套而来”，共同勾画数据技术(Data Technology，DT)时代的未来。

对大数据的“溢美之词”，已被舍恩伯格教授、涂子沛先生等先行者及其追随者夸得泛滥成灾。但正如您所知，任何事情都有两面性。在众人都赞大数据很好的时候，我们也需说道说道大数据可能面临的陷阱，只是为了让大数据能走得更稳。在大数据的光晕下，当渐行渐远渐无小数据时，我们也聊聊小数据之美，为的是“大小并行，不可偏废”。大有大的好，小有小的妙，如同一桌菜，哪道才是你的爱?思量三番再下筷。

下文部分就是供读者“思量”的材料，主要分为4个部分：(1)哪个V才是大数据最重要的特征?在这一部分里，我们聊聊大数据的4V特征中，哪个V才是大数据最贴切的特征，这是整个文章的行文基础。(2)大数据的力量与陷阱。在这一部分，我们聊聊大数据整体的力量之美及可能面临的3个陷阱。(3)今日王谢堂前燕，暂未飞入百姓家，在这一部分，我们要说明，大数据虽然很火，但我们用数据发声，用事实说话，大数据真的没有那么普及，小数据目前还是主流。(4)你若安好，便是晴天。在这一部分，我们说说的小数据之美，如果用“n=all”来代表大数据，那么就可以用“n=me”来说明小数据(这里n表示数据大小)，我们将会看到，小数据更是关系到我们的切身利益。

1.哪个V才是大数据最重要的特征?

在谈及大数据时，人们通常用4V来描述其特征，即4个以V为首字母的英文：Volume(大量)、Variety(多样)、Velocity(速快)及Value(价值)。如果 “闲来无事”，我们非要对这4个V在“兵器谱”上排排名，哪个才是大数据的贴切的特征呢?下面我们简要地说道说道，力图说出点新意，分析的结果或许会出乎您的意料之外。

1.1 “大”有不同——Volume(大量)

首先我们来说说大数据的第一个V——Volume(大量)。虽然数据规模巨大且持续保持高速增长，通常作为大数据的第一个特征。但事实上，早在20年前，在当时的IT环境下，天文、气象、高能物理、基因工程等领域的科研数据量，已是这些领域无法承受的“体积”之痛，当时实时计算的难度不比现在小，因为那时的存储计算能力差，亦没有成熟的云计算架构和充分的计算资源。

况且，“大”本身就是一个相对的概念，数据的大与小，通常都打着很强的时代烙印。为了说明这个观点，让我们先回顾一下比尔?盖茨的经典“错误”预测。

图1 比尔·盖茨于1981年对内存大小的预测

早在1981年，作为当时的IT精英，比尔?盖茨曾预测说，“640KB的内存对每个人都应该足够了(640KB ought to be enough for anybody)”。但30多年后的今天，很多人都会笑话盖茨，这么聪明的人，怎么会预测地如此不靠谱，现在随便一个智能手机(或笔记本电脑)的内存的大小都是4GB、8GB的。

但是，需要注意的事实是，在1981年，当时的个人计算机(PC)是基于英特尔CPU 8088芯片的，这种CPU是基于8/16位(bit)混合构架的处理器，因此，640KB已经是这类CPU所能支持的寻址空间的理论极限(64KB)的10倍[2]，换句话说，640K在当时是非常非常地庞大了!再回到现在，当前PC机的CPU基本都是64bit的，其理论支持的寻址空间是2^64，而现在的4G内存，仅仅是理论极限的(2^32)/(2^64)= 1/(2^32)而已!。

在这里，讲这个小故事的原因在于，衡量数据大小，不能脱离时代背景，不能脱离行业特征。此外，大数据布道者舍恩伯格教授在其著作《大数据时代》中指出[3]，大数据在某种程度上，可理解为“全数据(即n=all)”。有时，一个所谓的“全”数据库，并不需要有以TB/PB计的数据。在有些案例中，某个“全”数据库大小，可能还不如一张普通的仅有几个兆字节(MB)数码照片大，但相对于以前的“部分”数据，这个只有几个兆字节(MB)大小的“全”数据，就是大数据。故此，大数据之“大”，取义为相对意义，而非绝对意义。

这样看来，互联网巨头的PB级数据，可算是大数据，几个MB的全数据也可算是大数据，如此一来，大数据之“大”——“大”有不同，可大可小，如此不“靠谱”，反而不能算作大数据最贴切的特征。

1.2 数据共征——“Velocity(快速)”与“Value(价值)”

英特尔中国研究院院长吴甘沙先生曾指出，大数据的特征“Velocity(快速)”，犹如“天下武功，唯快不破”一样，要讲究个“快”字。为什么要“快”?因为时间就是金钱。如果说价值是分子，那么时间就是分母，分母越小，单位价值就越大。面临同样大的数据“矿山”，“挖矿”效率是竞争优势。

不过，青年学者周涛教授却认为[4]，1秒钟算出来根本就不是大数据的特征，因为“算得越快越好”，人类自打有计算这件事情以来，这个诉求就没有变化过，而现在，却把它作为一个新时代的主要特征，完全是无稽之谈。笔者也更倾向于这个说法，把一个计算上的“通识”要求，算作一个新生事物的特征，确实欠妥。

类似不妥的还有大数据的另外一个特征——Value(价值)。事实上，“数据即价值”的价值观古来有之。例如，在《孙子兵法?始计篇》中，早就有这样的论断“多算胜，少算不胜，而况于无算乎?”此处 “算”，乃算筹也，也就是计数用的筹码，它讲得就是，如何利用数字，来估计各种因素，从而做出决策。

在马陵之战中，孙膑通过编造“齐军入魏地为十万灶，明日为五万灶，又明日为三万灶(史记·孙子吴起列传)”的数据，利用庞涓的数据分析习惯，反其道而用之，对庞涓实施诱杀。

话说还有一个关于林彪将军的段子(真假不可考)，在辽沈战役中，林大将军通过分析缴获的短枪与长枪比例、缴获和击毁小车与大车比例，以及俘虏和击毙的军官与士兵的比例“异常”，因此得出结论，敌人的指挥所就在附近!果不其然，通过追击从胡家窝棚逃走的那部分敌人，活捉国民党主帅新六军军长廖耀湘。

在战场上，数据的价值——就是辅助决策来获胜。还有一点值得注意的是，在上面的案例中，战场上的数据，神机妙算的军师们，都能“掐指一算”——这显然属于十足的小数据!但网上却流传有很多诸如“林彪也玩大数据”、“跟着林彪学习大数据”等类似的文章，这就纯属扯淡了。如果凡是有点数据分析思维的案例，都归属于大数据的话，那大数据的案例，古往今来，可真是数不胜数了。

因此，Value(价值)实在不能算是大数据专享的特征，“小数据”也是有价值的。在下文第4节的分析中，我们可以看到，小数据对个人而言，“价值”更是不容小觑。这样一来，如果大、小数据都有价值，何以“价值”成为大数据的特征呢? 事实上，睿智的IBM，在对大数据的特征概括中，压根就没有“Value”这个V(如图2所示)。

图2 IBM公司给出的大数据3V特征(图片来源：disquscdn.com)

我们知道，所谓“特征”者，乃事物异于它物之特点”。打个比方，如果我们说“有鼻子有眼是男人的特征”，您可能就会觉得不妥：“难道女人就没有鼻子没有眼睛吗?”是的，“有鼻子有眼”是男人和女人的“共征”，而非“特征”。同样的道理，Velocity 和Value这两个V字头词汇，是大、小数据都能有的“共征”，实在也不算不上是大数据最贴切的特征。

1.3五彩缤“纷”——Variety(多样)

通常认为，大数据的多样性(Variety)，是指数据种类多样。其最简单的种类划分，莫过于分为两大类：结构化的数据和非结构化数据，现在“非结构化数据”占到整个数据比例的70%~80%。早期的非结构化数据，在企业数据的语境里，可以包括诸如电子邮件、文档、健康、医疗记录等非结构化文本。随着互联网和物联网(Internet of things，IoT)的快速发展，现在的非结构化数据又扩展到诸如网页、社交媒体、音频、视频、图片、感知数据等，这诠释了数据的形式多样性。

但倘若深究下去，就会发现，“非结构化”未必是个成立的概念。在信息中，“结构化”是永存的。而所谓的“非结构化”，不过是某些结构尚未被人清晰的描述出来而已。IT咨询公司Alta Plana的高级数据分析师Seth Grimes曾在IT领域著名刊物《信息周刊》(Information Week)撰文指出：不存在所谓的非结构化，现在所说的“非结构化”，应该是非模型化(unmodeled)，结构本在，只是人们处理数据的功力未到，未建模而已(Most unstructured data is merely unmodeled)[5](如图3所示)。

图3 Seth Grimes：非结构化乎，不!应是非建模

大数据的多样性(Variety)，还体现在数据质量的参差不齐上。换句话说，这个语境下的多样性就是混杂性(Messy)，即数据里混有杂质(或称噪音)。大数据的混杂性，基本上是不可避免的，既可能是数据产生者在产生数据过程出现了问题，也可能是采集或存储过程存在问题。如果这些数据噪音是偶然的，那么在大数据中，它一定会被更多的正确数据淹没掉，这样就使得大数据具备一定的容错性;如果噪音存在规律性，那么在具备足够多的数据后，就有机会发现这个规律，从而可有规律的“清洗数据”，把噪音过滤掉。吴甘沙先生认为[15]，多元抑制的数据，能够过滤噪声、去伪存真，即为辩讹。更多有关混杂性的精彩描述，读者还可批判性地参阅舍恩伯格教授的大著《大数据时代》[3]。

事实上，大数据的多样性(Variety)，最重要的一面，还是表现在数据的来源多和用途多上。每一种数据来源，都有其一定的片面性和局限性，只有融合、集成多方面的数据，才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。对同一个问题，不同的数据能提供互补信息，可对问题有更为深入的理解。因此在大数据分析中，汇集尽量多种来源的数据是关键。中国工程院李国杰院士认为[6]，这非常类似于钱学森老先生提出的“大成智慧学”，“必集大成，才能得智慧”。

著名历史学家许倬云先生，站在历史的高度，也给出了自己的观点，他说“大数据”之所以能称之为“大数据”，就在于，其将各种分散的数据，彼此联系，由点而线，由线而面，由面而层次，以瞻见更完整的覆盖面，也更清楚地理解事物的本质和未来取向。

英国数学家及人类学家托马斯·克伦普(Thomas Crump)在其著作《数字人类学》(The Anthropology of Numbers)指出[7]，数据的本质是人，分析数据就是在分析人类族群自身，数据背后一定要还原为人。东南大学知名哲学教授吕乃基先生认为[8]，虽然每个数据来源因其单项而显得模糊，然而由“无限的模糊”所带来的聚焦成像，会比“有限的精确”更准确。“人是社会关系的总和(马克思语)”。大数据利用自己的“多样性”，比以往任何时候都趋于揭示这样的“总和”。

因此，李国杰院士认为[6]，数据的开放共享，提供了多种来源的数据融合机会，它不是锦上添花的事，而是决定大数据成败的必要前提。

从上分析可见，虽然大数据有很多特征(甚至有人整出11个V来)，但大数据的多样性(Variety)，无疑它是区分以往小数据的最重要特征。

2. 大数据的力量与陷阱

大数据的多样性，给大数据分析带来了庞大的力量，但这个多样性也带来了大数据的陷阱，下面我们就聊聊这个话题。

2.1 大数据的力量

很多小概率、大影响的事件(即黑天鹅事件)，在单一的小数据环境下，很可能难以发现。但是由“八方来客”汇集而来的大数据，却能有机会提供更为深刻的洞察(insight)。例如，癌症属于一类长尾病症，经过多少年努力，癌症治愈率仅提升了不到8%。其中一个重要原因是，单个癌症的诊疗机构的癌症基因组样本都相对有限。“小样本”得出的研究结论，得出有关“癌症诊断”的结论，极有可能是“盲人摸象化”的[9]。

于是，英特尔公司提出的“数据咖啡馆”概念，吴甘沙先生做了一个形象的类比，他说咖啡馆的好处在于“Let ideas have sex”，而大数据产生价值、爆发力量的关键是“Let data have sex”。取意如此，数据咖啡馆”的核心理念在于，把不同医疗机构的癌症诊疗数据汇聚到一起，形成大数据集合，但不同机构间的数据，“相逢但不相识”。让多源头的“小数据”汇集起来，可实现数据之间“1+1>2”的价值。对多数据融合用“have sex”这个比喻，是非常有意思的，因为倘若你真想要达到“1+1> 2”的效果，就不能带着“套子”挡着，就要打破“数据流的割据”。难怪李院士一直强调，数据的流通性，是决定大数据成败的前提，还是真的(纯属调侃，不可较真)!

类似的，2014年美国总统办公室发布了题为“大数据：抓住机遇，留住价值(Big Data:Seizing Opportunities, Preserving Values)”的报告[10]，文中列举了一个案例：

Broad 研究院(这是一个由麻省理工学院和哈佛大学联合创办的世界著名的基因研究机构)的研究人员发现，海量的基因数据，在识别遗传变异对疾病的意义中，有着及其重要的作用。在这个研究中，当样本数量是 3,500 时，与精神分裂症有关的遗传变异，根本无法检测出来;当使用 10,000 个样本时，也只能有细微的识别;但是当样本达到 35,000 时，统计学上的统计显著性(statistically significant)便突然显示出来。正如一个研究人员所观察到的那样，“跨越拐点，一切皆变!(There is aninflection point at which everything changes)”[11](如图4所示)。从这个案例中，大数据把哲学中的“量变引发质变”演绎得淋漓尽致。

图4 精神分裂症有关的遗传变异发现——大数据的“汇集”的力量(图中loci表示“基因座”，又称座位，它基因在染色体上所占的位置。在分子水平上，是有遗传效应的DNA序列。图片来源：MIT)

2.2 大数据的陷阱

大数据的多样性，带人们来了“兼听则明”的智慧。然而，正如英谚所云：“一个硬币有两面(Every coin has two sides)”，这个多样性也会带来一些不宜察觉的“陷阱”。用“成也萧何，败也萧何”来描述大数据的两难，再恰当不过了。

2.2.1 DIKW金字塔体系

1989年，管理学家罗素·艾可夫(Russell .L. Ackoff)撰写了《从数据到智慧》(From Data to Wisdom)，系统地构建了DIKW体系[12]，即从低到高依次为数据(Data)、信息(Information)、知识(Knowledge)及智慧(Wisdom)。美国学者泽莱尼(Zeleny)提出了4个Know(知道)比喻[12]，比较形象地区分了DIKW体系中的元素，如图5所示。

图5 泽莱尼对DIKW体系中的4个Know比拟

泽莱尼对DIKW体系的注解，让人感触最深的可能在于，数据如果不实施进一步地处理，即使收集数据的容量再“大”，也毫无价值，因为仅仅就数据本身，它们是“一无所知(Know-Nothing)”的。数据最大的价值，在于形成信息，变成知识，乃至升华为智慧。

舍恩伯格教授在其大作《大数据时代》有个核心观点是：“要相关，不要因果”，即知道“是什么”就够了，没必要知道“为什么”。但从DIKW体系可知，如果放弃“为什么”的追寻，事实上，就放弃了对金字塔的最顶端——智慧(Wisdom)的追求——而智慧正是人类和机器最本质的区别。

对此，青年学者周涛教授总结得非常精彩：“放弃对因果性的追求，就是放弃了人类凌驾于计算机之上的智力优势，是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界，那么这种放弃就是末日之始”。对大数据的因果性和相关性的探讨，我们已经在《来自大数据的反思：需要你读懂的10个小故事》一文中[14]，已有涉及，在此不再赘言，下面我们想探讨的是，事实上，对因果关系的追寻，是人类惯有的思维，在这个惯性思维推动下，很容易误把“相关”当“因果”——这是我们需要警惕的大数据陷阱。

2.2.2 误把“相关”当“因果”

所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。两个变量A和B有相关性，只反映A和B在取值时相互有影响，但并不能说明因为，有A就一定有B，或者反过来因为有B就一定有A。

在上面的论述中，似乎我们一直在说“相关性”的不足。而事实上，需要说明的是，相关性在很多场合是极其有用的。例如，在大批量的小决策上，相关性就是有用的，亚马逊的电子商务个性化推荐，就是利用相关性，给无数顾客推荐相关的或类似商品，这样顾客找起商品方便多了，亚马逊也落得个赚得钵满盆满。

然而，对于小批量的大决策，对因果关系的追求，依然是非常重要的。吴甘沙先生用“中西药”药方做类比，给出了一个很精彩的例子，用来说明相关性和因果性的关系[15]。对于中药处方而言，多是“神农尝百草”式的经验处方，目前仅仅到达知道“相关性”这一步，但它没有可解释性，无法得出是那些树皮和虫壳的因，为什么就是导致某些病能治愈的果，换句话说，中药仅仅到了“知其然”阶段(追求“是什么”)，如果我们的国粹止步于“知其所以然”(追求“为什么”)，那么中医想要走出中国，面向世界，是非常困难的(注：笔者曾是中医的受益者，请不要误判是在黑中医)。

而西药则不同，在发现相关性后，并没有止步，而是进一步要做随机对照试验，把所有可能导致“治愈的果”的干扰因素排除，获得因果性和可解释性。在商业决策上也是类似，相关性只是决策的开始，它取代了拍脑袋、依靠直觉获得的假设，而后面验证因果性的过程仍然是重要。

在大数据时代，“相关性”被很多大数据粉丝奉为圭臬。前文也提到，“相关性”也的确有用，但有时，人们会不自觉地把“相关性”不自觉地当作“因果性”。

加拿大莱桥大学管理学院鲍勇剑教授指出[16]，在大数据时代，只要有超大样本和超多变量，我们都可能找到无厘头式的相关性。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响，你可以罗列10亿个假设。只要你反复尝试不同的模型，上千次后，你一定可以找到统计学意义上成立的相关性。下面我们讲几个小故事(段子)来说明这个观点。

在小数据时代的1992年，香港人拍了一个电视连续剧《大时代》，其中著名演员郑少秋饰演丁蟹，丁蟹是一个资深的股民，股海翻腾，身心疲惫，终无所得。在1992年的随后20多年里，只要电视台一播放郑少秋主演的连续剧，香港恒生指数都会有不同程度的下跌，人称“丁蟹效应(或称秋官效应)”，这是有样本支持的，如图6所示。每次郑少秋主演的电视剧播放预告时，总有香港股民打电话到电视台，希望不要播放，因为担心亏钱。

图6 丁蟹效应与香港股市(图片来源：文汇报)

更无厘头的是，这相关性还扯到中国运动员刘翔身上了，下面是个“余温尚存”段子，它是这样描述的：

2008年8月18日北京奥运会，刘翔因伤退赛，当天股市大跌5.3%，并且一个月内大跌20%。

2014年9月他宣布结婚一个月后，股市就开始狂涨，从2300点涨到5178点。

2015年6月26日，刘翔离婚，股市继续大跌至8%。股市的涨跌原来都是因为刘翔啊!

因此，网友们强烈要求刘翔尽快宣布再次结婚。

香港的股民为什么不希望郑少秋主演的电视剧播放，是因为怕电视剧一播放，股市就下跌。大陆的股民为什么希望刘翔再次结婚，因为刘翔有喜了，所以股市就有喜了。注意到前面描述中体现出来的“因果关系”吗?

事实上，《大时代》和刘翔和股市之间有何因果关系?不过是样本大了，变量多了，统计上的“相关性”就会冒出来而已。而人们却“潜移默化”地把观察到的“相关”，当作事物背后的“因果”。

或许，就有人不太认可上述观点，认为上面两个小故事，都是属于段子级别的案例，何以能说明问题?那我们就举一个古而有之的案例来说明这个观点。请读者略看下面的文字：

黄梅时节家家雨，青草池塘处处蛙。

潮起潮落劲风舞，夏夜夏雨听蛙鸣。

荷沐夏雨娇滴滴，稻里蛙鸣一片欢。

夏雨凉风，蝉噪蛙鸣，热浪来袭，远处云树晚苍苍。

皇阿玛，你还记得当年蛙鸣湖边的夏雨荷吗?

我们知道，文学虽然高于生活，但亦源于生活。从上面的从古至今的“文人墨客”的诗情画意中，读者依稀可看出一点点相关性——人类祖先经过长期观察发现，蛙鸣与下雨往往是同时发生。这样的长期观察样本，也可称得上是“大数据”。于是，在久旱无雨的季节，不求甚解的古人，就会把这个“相关性”当作“因果性”了，他们试图通过学蛙鸣来求雨。在多次失灵之后，就会走向巫术、献祭和宗教[8](如图7所示)。因此，同小数据一样，在大数据中，可解释性(因果关系)始终是重要的。

图7 印度人民以蛙求雨的习俗，源远流长，至今留存(图片来源：互联网)

博弈论创始人之一、天才计算机科学家诺伊曼(John von Neumann)曾戏言称：“如果有四个变量，我能画头大象，如果再给一个，我让大象的鼻子竖起来!”大数据的来源多样性，变量复杂性，为诞生 “新颖”的相关性，创造无限可能。而本质上，人们对因果关系的追求，事实上，已经根深蒂固，这种思维惯性难以轻易改变，而在大数据时代，会面临着冒出更多的相关性，“乱花渐欲迷人眼”。大数据的拥趸者们说，“要相关，不要因果”，但事实上，在很多时候，特别是人们在对未来无法把控的时候，很容易把“相关”当作“因果”!这是大数据时代里一个很大的陷阱，特别值得注意。

责编：何鹏