从存储角度看大数据和云计算区别与联系

来源:中关村在线  
2013/12/23 11:17:36
关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。

本文关键字: 存储 大数据 云计算


  数据处理层

  数据处理层核心解决问题在于数据存储出现分布式后带来的数据处理上的复杂度,海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。

  在传统的云相关技术架构上,可以将hive,pig和hadoop-mapreduce框架相关的技术内容全部划入到数据处理层的能力。原来我思考的是将hive划入到数据分析层能力不合适,因为hive重点还是在真正处理下的复杂查询的拆分,查询结果的重新聚合,而mapreduce本身又实现真正的分布式处理能力。

  mapreduce只是实现了一个分布式计算的框架和逻辑,而真正的分析需求的拆分,分析结果的汇总和合并还是需要hive层的能力整合。最终的目的很简单,即支持分布式架构下的时效性要求。

  数据分析层

  最后回到分析层,分析层重点是真正挖掘大数据的价值所在,而价值的挖掘核心又在于数据分析和挖掘。那么数据分析层核心仍然在于传统的bi分析的内容。包括数据的维度分析,数据的切片,数据的上钻和下钻,cube等。

  数据分析我只关注两个内容,一个就是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的kpi指标体系,对应指标体系的分析模型和分析方法。解决这两个问题基本解决数据分析的问题。

  传统的bi分析通过大量的etl数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的bi分析,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是分布式的了,bi分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。

  谈了这么多,核心还是想说明大数据两大核心为云技术和bi,离开云技术大数据没有根基和落地可能,离开bi和价值,大数据又变化为舍本逐末,丢弃关键目标。简单总结就是大数据目标驱动是bi,大数据实施落地式云技术。

共2页: [1]2 下一页
责编:王薇
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918