大数据自下而上:算法和统计学完美的结合

来源:CIO时代网   
2012/12/19 18:22:06
从理论上来说有这样终极的目标:给定一个可以推理的目标,同时确定固定的计算时间,提供由算法和分析支撑的保证,按小时、分钟、秒进行计算,推论的质量将会随着数据的精确性而单调递增,并且是没有边界的无线增长。随着数据无边界的增长,遇到很大的麻烦,我们每一代人都需要面对。我们想一次解决,有什么样的办法可以推理积累的大量数据?需要花时间解决,这可能需要几十年才能解决。



本文关键字: 大数据 数据仓库

从理论上来说有这样终极的目标:给定一个可以推理的目标,同时确定固定的计算时间,提供由算法和分析支撑的保证,按小时、分钟、秒进行计算,推论的质量将会随着数据的精确性而单调递增,并且是没有边界的无线增长。随着数据无边界的增长,遇到很大的麻烦,我们每一代人都需要面对。我们想一次解决,有什么样的办法可以推理积累的大量数据?需要花时间解决,这可能需要几十年才能解决。

我们看一下目前的进展。其中一个就是自下而上的办法,将算法原理和统计学的推论完美地结合在一起。这些算法原则上来讲,可以放在一个环境当中,我们选一些分治的方法来解决。这些难题,我们聚合起来,聚合的越多,这些错就越少,更好做一些。然后分开相互之间相互矛盾的数据,包括统计数字,还有计算机科学的数字,可以避免带来很大的麻烦。然后再回到我们理论上的问题,如何进行权衡,提高我们计算的效率。

1.大数据引导程序(The bootstrap)

首先第一个问题,我们叫做大数据的引导程序,我们在伯克利几年前做过这样的工作。这个引导程序能够解决一些非常重要的问题--评价推论的质量。很多有学识的研究者并不太关注推论的质量。输入数据到一个盒子里面,然后得到一个答案,是9.5.但是多数的决策并不能满足要求,要知道9.5里面的差错率多大?如果这个数字超过10的话,就要把肝切掉了,如果是9.5的话还可以。所以,这是真正的9.5吗?还存在很大的误差吗?或者是没有超过10吗?如果真正做出真实的决策时,是没有误差这个栏的考虑,但是计算机科学家们需要对这个有很深的了解。所以我们要进行工作,能够在数据库的社区里面建立一些数据库,能够输入,然后再输出,同时有一个非常清楚明白的误差栏。

现在让我们进入到另外一个领域,进入到统计学里面怎么样呢?很有意思的一点就是在非常简单的事情上,我们抽样,根据有相关的公式,可以通过这样的途径进行了解。比如说我们根据抽样里面的差异性,加上知道差错率,如果不讲差错率,有一个中等的情况,比如说10.2,那这个误差是多少呢?并没有这样的公式在里面。我们怎么知道一般情况中存在的差异性?我们有一个通常叫做的程序框架,能够应对快速扩展的大数据,并且计算误差率。

到底推断的质量如何?我们观察的数据包括机器的误差率和基于数据进行参数的预测。我们叫做形成一种参数的预估值。就像一条程序、一个黑匣子,到底有多少的误差在里面,这是我们所关注的。通过对程序进行计算,了解数据指标情况,如果想做一个理想的统计学家的话,还要对它进行科学的定义。

所谓的频率主义者,每一个数据都会要计算中间的情况,还有一些预估估算,不同的数据级进行浮动,你看浮动的范围就带来这种所谓的误差率。从这个定义来说,这个误差率是什么,误差率就是指你还需要更多的时间分析这些数据。如果你没有大量的数据,你不能够对这些数据进行一次又一次的检验,并同时看他们之间的浮动。如果没有一个数据集的话,就可以一次性去做,看看生成的情况,我们只有一个数据集。

我们设想一下,如何分析这些问题,解决这些问题,即使只有一个数据集。这些数据来自什么地方,有这样的一些群体,比如说在我们这里生成一些数据,有一个曲线可以反映出相关的群体。如果是一个一般不存在的东西,上面有一个幻灯片,可以形成一个数据集,两个数据集,对每个数据集进行计算,你所在意的都是一些数据的预测,然后得到一个公式。可以做计算机的并击处理,生成一个数据的处理,每一个计算机可以进入一个预估值,然后可以在估算当中产生一些误差。然后这个里面我们没有多个数据级,我们不能这样去做。我们观察有一个数据来自这样的群体,然后这些数据不是列出来的数据,这些数据的分布图是分布式,可以生成越来越多的数据。这种分布尽管不可以换,但是你可以从中抽样。我们叫做近似值,基本上是真实的。

责编:孔维维
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918