数据处理层
数据处理层核心解决问题在于数据存储出现分布式后带来的数据处理上的复杂度,海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。
在传统的云相关技术架构上,可以将hive,pig和hadoop-mapreduce框架相关的技术内容全部划入到数据处理层的能力。原来我思考的是将hive划入到数据分析层能力不合适,因为hive重点还是在真正处理下的复杂查询的拆分,查询结果的重新聚合,而mapreduce本身又实现真正的分布式处理能力。
mapreduce只是实现了一个分布式计算的框架和逻辑,而真正的分析需求的拆分,分析结果的汇总和合并还是需要hive层的能力整合。最终的目的很简单,即支持分布式架构下的时效性要求。
数据分析层
最后回到分析层,分析层重点是真正挖掘大数据的价值所在,而价值的挖掘核心又在于数据分析和挖掘。那么数据分析层核心仍然在于传统的bi分析的内容。包括数据的维度分析,数据的切片,数据的上钻和下钻,cube等。
数据分析我只关注两个内容,一个就是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的kpi指标体系,对应指标体系的分析模型和分析方法。解决这两个问题基本解决数据分析的问题。
传统的bi分析通过大量的etl数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的bi分析,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是分布式的了,bi分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。
谈了这么多,核心还是想说明大数据两大核心为云技术和bi,离开云技术大数据没有根基和落地可能,离开bi和价值,大数据又变化为舍本逐末,丢弃关键目标。简单总结就是大数据目标驱动是bi,大数据实施落地式云技术。
责编:王薇
微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友