互联网大数据的科学大思考

来源:畅享网  作者:孔维维
2013/6/14 10:13:41
畅享网:在过去的二十年,计算速度和存储容量由于微电子的发展,CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍。带宽的低廉程度已经远远超过了摩尔定律,单机进入了网络计算,离线进入了在线时代。新的技术变革正在开启。

摩尔定律带动了微电子的发展,信息技术信息流经历了获取、传输到计算存储,而大数据进一步推动了技术的变革。近日,北京航空航天大学校长怀进鹏院士与记者分享了互联网大数据的科学大思考。

北京航空航天大学校长怀进鹏院士

科学世界的摩尔定律

在过去的二十年,计算速度和存储容量由于微电子的发展,CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍。带宽的低廉程度已经远远超过了摩尔定律,单机进入了网络计算,离线进入了在线时代。新的技术变革正在开启。

当上网获取信息资源变得越来越低成本、通讯带宽超越摩尔定律的时候,就使得互联网的应用进入了第二次价值挖掘。人们不需要知道服务方在哪里,只需关注获取的服务和相应的资源。

由于互联网的应用,过去技术单向交流的方式开始进入了双向交流的时代,也进一步加速了互联网的发展和新能力的创造。

互联网模式的三个典型时代

“过去互联网模式走过三个典型的时代,即主机时代、网络计算时代,到现在云计算时代。从封闭可控的平台进入了开放和没有集中控制的网络环境。到最终未来的发展当中,在宽带不断发展、微电子的价格不断下降,而资源获取能力增强的时候,就出现了计算模式的新变化。由于带宽和成本的不断变化,导致一种新的计算模式的变化。” 怀进鹏说到。

上个世纪八十年代出现了第一次计算机变革,是由于PC时代造成的,软件第一次成为商品,可以通过购买copyright作为看不见的商品在市场上流行;到九十年代的网络时代,出现互联网有效规模的应用,就成为信息获取和信息交换的平台;目前的云计算模式正在推动新的、前所未有的、从量的积累到质的变化的时代。对于任何一个IT领域的技术和产品,时间的开放窗口并不长,比如像PC、手机和互联网,一旦形成技术的标准或一定规模的成熟,对于追随者就再也没有机会了,或者只能处于它的旁观者。

高速的互联网发展过程中,对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务的能力,都会有重要变化。

科学计算奠定了大数据的基础

互联网也改变了人们的交换行为模式。社交网络如facebook、人人网、微博等改变了人们的上网规模和方式,与此同时,生产控制系统、嵌入式系统、传感器所传递的系统,也改变了应用模式。所以,科学计算是大数据产生的基础。

无论是从商业、工业,还是科学计算以及社会计算,给现实社会带来了新的问题。互联网二次价值的开发和新的挑战在哪里?云计算作为一种计算模式,正在人们的生活发挥着作用,云计算背后要处理在现实应用当中或者是实际需求中的问题,人们提出大数据也是其中一个选择。

对大数据有很多说法,从外显特征来看,简单叫做4V或者5V,从规模和变化频度以及种类和价值密度的角度。维基百科也对大数据给出了外在的定义,即量级很大但是又无法处理的数据。

对于大数据,不能简单看它就叫做一个数据,更重要的人们如何面对数据从量到质的变化过程。所以它已经不是过去我们说的大批量数据、海量数据到大数据,不是简单的从量的规模考虑,而是发生了规模的质的变化以后,给人们带来的问题。即传统数据,从静态进入动态,从简单、多维变成了巨量的维,而且它的种类是没有办法控制的。

因此,如何驾驭数据显得非常重要。驾驭数据是指数据过度泛滥或者数据不容易像处理商业数据。因为有的数据没有很忙特别价值。人们需要找到一种新的方式,从很多的数据中选择有用的数据。

在2010年《经济学人》有一篇专题标题就叫做“数据洪灾” “数据泛滥”的报道,文中提到数据从稀缺走向丰富的时候,会有很多新的麻烦。在这篇专题当中也谈到了关于数据经济的问题,即数据进入了新的经济时代。

从过去科学研究当中,由于信息的发展创造了很多人为的数据,和非自然的数据。所以需要从数据的关联发现和数据统计特征找出新的价值。这也是很多科学价值研究的重要内容。

“那么大数据有多大的作用?在推特上,日本的海啸信息提前传播,对受灾信息提前报警;去年7月21日,北京的暴雨,有900万多条微博,把可能救助的方案提前在微博中发布。关于钓鱼岛,反映出社会的信息和情绪建议,如何更有效地处理这样的问题;2008年甲流爆发前几周谷歌提前预测冬季流感的传播和甲型流感的问题;阿里巴巴的马云对于金融危机的预感、百度的个性化搜索等,这是都是大数据作用的例子。” 怀进鹏举例子说到。

在西方国家,利用微博、社交网络创造了很多新的价值,比如说根据民众的情绪或者对某一只股票的影响,对冲基金可以根据对企业的分析决定是否购买股票,以及对于上市的企业是否破产,都可以给金融分析进行帮助。

实际上在数据的经济社会发展的价值当中,体现了如何对它进行归类和分析,并进行有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据,并能够对它进行分析和处理,也许就是我们不断提高竞争能力的重要力量。

大数据未来投资和发展的价值

大数据未来投资和发展的价值有多大?Gartner曾经预测,认为云计算和大数据的发展将在未来获得重要的机会。当然,咨询预测总是有风险的。对当前大数据的投资领域来看,给出了当前已经超过30%左右和未来进一步投资领域的划分,列举了像教育、交通、医疗等,在这些领域可能并且已经正在投入的行为。

大数据改变了人们的经济生活,淘宝和亚马逊的例子可以了解到用户的购物习惯;大数据改变了科学途径,即从理论研究、实验验证加仿真变成以计算为主的数据密集型的科学。

计算模式的变化的影响

首先所谓的近似性,从4V到3I,以数据的计算来看。近似性就是传统的精确处理不再适用,允许在一定范围区间内追求近似解。例如当你买一双鞋的时候,不会跑遍北京所有的鞋店,而是根据你对一定目标的理解和趋势的判断。

第二是数据的增量性。数据是源源不断的动态的变化,传统是有一个封闭的假设,所有数据都齐全了再计算。因此,在大数据动态变化特征当中需要有增量计算。就像微博,可以使用音频,视频,还有文字等表达相同的事件,甚至跨越不同的区域,甚至是完全无关的区域。因此,如何有效地归纳,也是一个重要的问题。

未来大数据的计算模式

在大数据云计算的背景下,软件在数据服务和运行模式当中也会有新的机遇。第一个机遇是未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。第二个机遇是面临软件的设计开发和维护方式的调整,第三个需要面对的问题是用户的隐私问题。

总之,计算模式的变迁是会成就时代的智者。大数据不仅是产业,也是资源、更是科学。在这个领域当中,有未知的很多科学问题,也有未知的需要实践和很多技术、系统问题,还有需要政策和未来发展的有效支持。大数据将是未来的重要科学。

责编:孔维维
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918