大数据要“落地”,还缺些什么?

来源:51CTO  
2014/1/6 12:31:55
尽管数据存储成本已经累年下降,但数据存储的费用还是不小的一笔支出。部分商家相比存储完整数据流而言,更倾向于保存过滤掉噪音的数据。

本文关键字: 大数据 存储

“大数据”是在2013年被用滥了的词汇,但实际上,由于数据量缺失、大数据清洗和分析能力不足,以及数据可视化瓶颈等问题,“大数据”一直未能迟迟落地。而在最近,随着基础设施的发展,意味着大数据的发展又走到新的一个临界点。系统软件供应商Software AG的Gagan Mehra,在Venturebeat网站阐述了他对于大数据接下来发展的认识,他认为更快地数据处理、更可靠地数据质量,以及给更加细分的应用市场,是大数据2.0时代的重要特征。

更快的数据处理速度

由于数据量指数型增长,使得对于数据的快速分析的需要已经变得比以往任何时候都要迫切。几乎每家大数据厂商,都想要兜售比别家处理速度更快的产品。Hadoop发布的新品Hadoop 2.0 / YARN,几乎能实时分析数据。而下一代大数据的计算牵引框架Apache Spark,它的速度比Hadoop快100倍。硅谷风险投资机构Andreessen Horowitz,已经以1400万美元的价格,领投了一家以Apache Spark为业务核心的初创企业Databricks。不久前,亚马逊也上线了实时流数据服务Kinesis,来帮助没有数据处理能力的公司解决这一问题。

许多分析供应商都已经认识到了数据处理速度的重要性,并建立了能够每秒处理TB数据的产品。传感器数据分析、物联网在工业和消费级市场快速发展的势头,驱动了这次变革。比如一家企业的传感器,能够每秒产生出数百次的事件,实时处理这些数据难度很高。特别是当实时处理的传感器数据,激增到一天5TB的时候,速度,就成了尤为关键的指标。

同时,尽管数据存储成本已经累年下降,但数据存储的费用还是不小的一笔支出。部分商家相比存储完整数据流而言,更倾向于保存过滤掉噪音的数据。

智能清洗“垃圾数据”

在本就难以计数的数据量继续以指数模型激增时,对于数据质量的强化,便摆上了许多数据供应商的议程。换句话说,在庞大数据面前,即使计算机能够高效的处理它们,但大量无用的“垃圾”数据,只会给系统带来负担,并增添存储、主机等设备成本。这就需要数据处理过程中,根据特定的规则和参数,对涌进数据流进行“清洗”和分析,并自动决策该去处理哪些数据,这一切不再需要人工去干预。

在这样的环境下,如果选择了一个坏的数据,就会像病毒一样,可能引发连续的错误决策,甚至让企业蒙受经济损失。一个例子就是利用算法去进行股票交易,以毫秒计数股票市场中,任何一点小的差错,都有可能引发无法巨大的损失。

所以,数据质量已成为服务级别协议(service level agreements)最重要的参数之一。无法屏蔽劣质的数据的供应商,会因此被列入行业的黑名单,以及面临严重的经济处罚。B2B行业为早期数据质量的入局者,他们非常重视数据的质量,来保持商业运作时的稳定性。甚至,许多企业计划为数据质量部署实时的警告系统,这些警告会被发送于负责相应问题的专员,由他们提供问题的解决方案。

机器学习是另一项需要保证数据质量的领域。机器学习系统部署在一个闭环的生态中,通过模式分析与其他的数据分析技术,细化原来的数据质量规则。而高质量的数据,能够保证机器进行正确的行为模式分析。

越来越多的基础应用

大数据带来的变革,使得每一个人都想要利用它,但技术上门槛又让许多人不得已只能充当一个看客。而应用将有助于人们去克服这一困难。在接下来的几年中,我们将会看到成千上万的解决某一垂直领域的专业应用,以应对来自各行各业的大数据挑战。

目前,已经小有成就的数据分析公司包括eHarmony、 Roambi、 Climate Corporation等等。未来,甚至许多小企业,既不用依赖特定基础设备,也不要雇佣专业的数据科学家,就能受益于对大数据分析利用。

比如,一些应用将从各种渠道,收集关联的客户数据,以更好地了解客户的需求。从而企业能够为特定的目标客户,提供特定需求的产品,更有针对性地赚到钱。当这些应用走进人们日常的吃喝玩乐、医疗保健等领域,生活也会因此而更美好。

责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918