|
大数据给生活、工作与思维带来的变革如今,有很多人都在谈论大数据。他们说大数据其实就是指数据规模大,指我们收集数据的速度快,指我们分析数据会更容易。他们是对的。但是他们的说法却仅仅是描述这一现象,其实这场大数据革命的真相很是复杂。 如今,有很多人都在谈论大数据。他们说大数据其实就是指数据规模大,指我们收集数据的速度快,指我们分析数据会更容易。他们是对的。但是他们的说法却仅仅是描述这一现象,其实这场大数据革命的真相很是复杂。 在《大数据时代》这本书中,我们探讨了让大数据时代与众不同的三个方面。首先,我们现在收集了多于以往任何时候的数据;其次,我们现在需要的数据量大但对精确度的需求较低;第三,因为有了数量充足而精确度相对较低的数据,我们可以通过相关关系而非因果关系来进行数据分析。 这意味着什么呢?又该如何应用呢?请允许我来举几个例子。 如今我们掌握着多于以往任何时候的数据量,可以就某一现象收集到更多数据。想想看,在过去,医院的护士会一天三次来收集病人的生命体征数据,包括体温、血压、心跳。而在数字化的大数据时代,我们每天能收集的关于病人每分钟生命体征、官能的数据点达1200个,可以得到更多的数据和细节来判断病人的康复进程,从而更好地确定他们之后的治疗重点。 再来看看科学方面,十年以前,用最新型的望远镜观察星空,投入使用的头一年能观察到的信息数量比之前天文学家所观察到的信息总量还要大。那是极大量的数据。然而四年之后,又有新的望远镜问世了,这个望远镜5天观察到的数据量要比之前2000年出产的望远镜一年内观察到的都要多。 或者再来看看这个事实,谷歌每天都要收集处理巨大量的数据,这些量甚至要比整个国会图书馆——世界最大的图书馆所有存书的信息量还要大。这就是我们现在拥有的数据量,也是我们对某一现象能收集到的复杂的数据。正因为拥有大量细节,我们现在能接受这些信息中有一部分不那么准确,即有一定的不精确性。 设想你有一个葡萄园,为酿酒种植葡萄。在过去,你会用一个传感器来测量温度,但如今,你可以为每棵葡萄树都安装一个传感器,为每一棵生长葡萄的树都配备一个传感器。这意味着什么呢?这意味着我们总共有成百上千个数据收集点,为我们提供关于湿度、温度、水量的精确数据,由此我们可以完美地、有针对性地对待每一棵葡萄树,从而最大化的地提高酿酒质量。但同时,并不是所有传感器都能收集到绝对准确的数据,比如有时候阳光会正巧照射在某一传感器上,使得指针稍有变化,而其他的传感器可能在暗处,所以有些数据可能不是完美的,但是因为我们掌握超大量的数据,所以这一点是可以被接受的。 在大数据时代,一定程度的不精确性是可以被接受的,这跟以往的小数据时代是非常不同的。在小数据时代,我们拥有的数据量非常少,很少的数据点让我们陷于数据饥荒中,我们生活在信息匮乏中,因此我们要求每个数据点都是精确的,也必须极精确地、高质量地来处理以及呈现它们。而如果我们拥有足够的数据,我们就不需要那么做了,我们可以更宽容地对待它们,用不那么精确的态度来对待它们。 这就提供了我们重新分析数据的能力。人们分析数据已有几个世纪的历史,人们尝试通过数据来探索事物的缘由,所有科学家都是这么做的。在商场,人们试图探索现象背后的原因:为什么有的产品就比其他的卖得好呢?但是也许我们无须这么做。在大数据时代,我们认为可以放弃追寻原因;相反,去利用丰富大量的数据,用相关关系进行分析。相关关系分析法非常简单,它就是说跟另一件事物相比,这一件事物有无价值,如果其中一者的价值上升或下降,而另一者也会随之变化,那我们就知道这两件事物之间存在关联,因此我们就可以利用一个去预测另一个的发展。 举例来说,亚马逊利用用户过去的点击记录和购物信息来预测顾客未来可能会想买什么。这样一来,亚马逊就能向我们推荐我们可能会买的书籍、光碟及其他东西。亚马逊在这项服务上做得非常出色,以至于其收入的三分之一都来自于这个推荐服务。这是一个极其简单而又极其有效的技术。 责编:孔维维 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|