大数据，如何避免成为“概念股”？

来源：CIO时代网解放日报作者：畅享网

2015/10/10 16:46:26

大数据这一全新数据科学发展至今，已被公认为全球各行业提升能级的要素之一。

本文关键字：大数据

近日，两则关于大数据的新闻令人关注。其一，国务院印发《促进大数据发展行动纲要》，为我国大数据发展进行顶层设计和统筹部署;其二，我国正在制定《大数据产业“十三五”发展规划》，支持大数据技术和产业创新发展。

正如谷歌公司凭借对搜索数据的分析，成功预测2013年美国流感爆发，大数据这一全新数据科学发展至今，已被公认为全球各行业提升能级的要素之一。然而，在这股汹涌热潮中，新技术难免被误读、炒作，甚至可能陷入“从概念到概念”的封闭圈，而阻碍其良性发展。

大数据，如何避免成为“概念股”?

大数据也可能出错结果

“大数据是一座信息富矿，通过有效提取方式，相较小数据样本研究可以获得更多以往看不见的宝藏。”复旦大学大数据学院院长、教授范剑青坦言。大数据有多大?假设个人电脑的硬盘容量是1TB，2003年全世界数据大约可装满500万台电脑，现在能装满80亿台，到2020年，全世界数据预计能装满400亿台电脑。

如此巨大的“矿山”中，许多不可能正在发生。微软公司通过大数据分析处理，对奥斯卡金像奖作出“预言”，结果除“最佳导演”外，其余13项大奖全部命中。而今，大数据技术已进入金融、科研等领域。国内外均有企业通过分析社会人群对股票的关注热度，做出在证券市场的买卖决定，获得高额回报。范剑青说，当过去不曾被关注的信息在大数据推动下被妥善应用，就成为了独一无二的“盈利点”。

“但必须强调的是，它并不是万能的，也可能带来错误的结果。”范剑青说。

首先，是“假相关”问题。他举例，若在一个小村庄里，两个人面貌相似，那么判断其两者具有血缘关系的准确性就较高。但若在几千万人口的大城市，做出这一判断，其可信度就大大降低了。在大数据分析中，由于信息海量且多元异构，影响结果的要素繁多，若不能精准验证，往往会误解两个参数之间具有相关性，而影响整个结论。

另一个问题，是误差叠加。大数据涉及几万个、几百万个乃至数百亿个变量，这意味着如果每一个变量都造成一点点误差，最后的预测会是很多误差的叠加，失之毫厘，差之千里。

在他看来，理性看待这一新技术、新学科，是其发展的基础，通过技术创新，更科学地抽取样本、解读数据，更好地解决先天软肋，也是大数据技术向更高层次发展的驱动力之一。

急需更多数据科学家

以往谈到大数据发展，存在两大瓶颈。

其一，数据价值的体现，离不开共享，但由于相当一部分数据涉及普通人隐私，因此数据的使用尤其是商业使用，应有权益边界。在大数据更好地服务生活的同时，如何兼顾个人隐私安全，成为重要课题。其二，可公开信息尚存诸多屏障。多位信息技术研究者发现，他们最大的苦恼在于获取信息不易。大数据分析处理过程中，有相当一部分数据来源于政府部门可公开信息，然而，有时部分条块部门不愿提供，令研究者难为无米之炊。

不过，范剑青认为，当前最重要的难点，在于人才紧缺，缺乏人才支撑，新技术带来的新产业往往难以真正落地。

上海市数据科学重点实验室主任朱扬勇在近日发表的《大数据时代的数据科学家培养实践》一文中透露：国外有机构预测到2018年，仅美国本土就可能面临缺乏19万名具备深入分析数据能力人才的情况，同时具备通过分析大数据并为企业作出有效决策的数据管理人员和分析师也有150万人的缺口。大数据时代，最热门的职业是数据科学家。

与此同时，大数据技术所涉及的知识体系的复杂性，给人才培养带来新挑战。事实上，全球的大学开始探索培养数据科学研究人才，至今仅有5年。普林斯顿大学去年开始有统计与机器学习(大数据方向)的辅修课程，今年开始正式招生。清华大学去年成立数据科学研究院，推出大数据硕士项目。昨天，复旦大学大数据学院、大数据研究院正式成立。由于大数据本身是统计学、计算机科学以及多种学科的交叉新兴学科，在这些高校中传统的按学科分类培养人才的模式“被迫”创新。

范剑青如今同时任美国普林斯顿大学统计委员会主任，他说，“如何设计课程，全世界都在摸索，我们也一样，初步考虑，统计学和计算机数据处理，将成为构成课程体系的核心。”课程体系将融汇经济管理、生命科学、医疗卫生、能源环境、社会统计和新闻传播等众多学科，打造跨学科的创新性人才培养平台。

大数据应用“创意为王”

在大数据处理的软硬件领域，国外已相继推出成熟产品。SAP公司的HANA系统、EMC 公司的 reenplumUAP 系统、微软公司的AzureHadoop系统等多个商用或半商用产品强势投入市场，争夺份额。在推出单一功能产品的同时，海外IT巨头还推出一体化服务，以数据处理技术为核心，将存储、数据库维护等打包出售。这些基础工具令大数据处理、分析更为便捷，门槛也更低。

但问题同时出现。复旦大学能源经济与战略研究中心常务副主任吴力波坦言，在当前大数据领域中，流传着一句话，说明专业发展中的“可怕陷阱”：“garbage in，garbage out(废料进废料出)。”简而言之，就是在大数据处理过程中，往往过度依赖基本工具，而忽视了所在专业领域的特殊性，随之而来的是，输入海量数据后，处理获得的数据也是无效的，为数据而数据，难以真正服务于社会实际。

作为投身能源大数据分析的专家，吴力波认为，在大数据产业发展和布局中，应始终强调其“创意为王”的天然属性，从数以亿万计的信息中提取关联要素，真正为生产、生活提供服务。用她的话来说，就是不再从数据到数据，而是从数据到故事。

举例来说，她研究的能源大数据，企业、甚至居民每分钟的用电数据是数据来源，面对如此高频海量的信息，首先要将其可视化处理，再清洗、修正、挖掘，找到真正相关联的要素，许多意想不到的结论就此产生。例如，分析用电情况发现，居民对阶梯电价敏感程度各异，其中收入、年龄、教育背景等属性的参差叠加，往往形成一个个特征群体，这些都可以成为今后能源政策制定、节能措施推广的有效参考。在国外电网的大数据应用中，更是将温度、湿度、风向、季节等非结构性因素纳入数据分析，对电网发电预测、价格制定、错峰安排等决策提供重要依据。

责编：何鹏