不同大数据分析的存储选择

来源:TechTarget中国   
2014/3/21 15:28:48
对于闪存解决方案来说,不管是以服务器端flash卡的形式还是以全闪存阵列的形式,都提供了一些对于高性能、低延时、大容量存储的替代解决方案。

本文关键字: 存储 大数据分析 服务器 IT

处理的过程被称之为提取、变形、加载或者称为ETL。首先将数据从源系统中提取处理,再将数据标准化处理且将数据发往相应的数据仓储等待进一步分析。在传统数据库环境中,这种ETL步骤相对直接,因为分析的对象往往是为人们熟知的金融报告、销售或者市场报表、企业资源规划等等。然而在大数据环境下,ETL可能会变得相对复杂,因此转型过程对于不同类型的数据源之间处理方式是不同的。

当分析开始的时候,数据首先从数据仓储中会被抽出来,被放进RDBMS里以产生需要的报告或者支撑相应的商业智能应用。在大数据分析的环节中,裸数据以及经转换了的数据大都会被保存下来,因为可能在后面还需要再次转换。

适用于异步大数据分析的存储设备

在异步大数据场景下对于存储的调整主要来自于容量、可扩展性、可预见性,尤其是提供这些功能的成本。当数据仓库产生大量数据集的时候,磁带存储的延时会显得非常大以至于无法满足业务需求。换而言之,传统的向上扩展的磁盘存储架构在相同容量标准下,往往并不能做到节约成本。

横向扩展存储。横向扩展存储是使用模块或者节点以群集的方式将资源池化,以文件系统的形式作为接口为大数据分析服务。例如有Dell EqualLogic、EMC Isilon、Exablox (also object-based)、Gridstore、HP StoreAll (之前叫Ibrix)以及IBM横向扩展NAS (SONAS)。这些解决方案里,每个节点都包含有处理能力及磁盘容量,它们能实现容量与性能的并行扩展。

Hadoop技术也被应用于存储架构的方式,使得企业能够以较低的硬件成本与较高的灵活性,搭建属于它们自己的高可扩展性存储系统。Hadoop运行在集群的不同节点上,每个节点都有自己的存储及计算资源,尤其是在面对数据处理需求的时候。其它节点会协调这些处理任务并以分布式资源池的方式进行处理,通常是以Hadoop分布式文件系统HDFS的形式存在。

为什么Hadoop对大数据意义重大

Hadoop得以在大数据应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

但是对于Hadoop,特别是Hadoop分布式文件系统(HDFS)来说,数据至少需要三份以支持数据的高可用性。对于TB级别的数据来说,HDFS看起来还是可行的,但当达到PB级别海量数据的时候,其带来的存储成本压力不可小觑。即便是可横向扩展存储亦不能避免压力本身,一些厂商选择了使用RAID技术实现卷级别的保护,而在系统级别则使用了复制的方式。对象存储技术可以提供面对大型环境的数据冗余问题的解决方案。

对象存储。基于对象的存储架构可以通过替代分层存储架构的方式,极大程度上提升可横向扩展存储的优势,它使用的方式则是以单一索引来关联灵活的数据对象。这将解决无限制扩展问题,从而提升了性能本身。对象存储系统包含了无需RAID或者复制作为数据保护的纠删码,极大程度上提升了存储的使用效率。

不像HDFS方式下需要两份或者三份多余数据拷贝以及额外的RAID机制,对象存储系统的纠删码可仅以50%-60%的额外容量就能达到更高的数据保护级别。在大数据存储级别,对于存储本身的节省将是非常重大的。许多对象存储系统亦可选择,包括Caringo、DataDirect Networks Web Object Scaler、NetApp StorageGRID、Quantum Lattus以及开源的 OpenStack Swift和 Ceph。

一些对象存储系统,比如Cleversafe的,甚至可以做到与Hadoop兼容。在这些项目的实施中,Hadoop软件组件可以运行在这些对象存储节点的CPU上,对象存储系统将替换存储节点的Hadoop分布式文件系统。

大数据存储的底线

大数据分析逐渐在IT行业成为了一个热门的话题,越来越多的企业相信它将引领企业走向成功。然而任何事情都有两个方面。这件事情上来看,就是现有存储技术本身。传统存储系统不管是在需要极低延时响应、实时大数据应用或者还是面对海量数据仓储的数据挖掘应用的时候都会遇到瓶颈。为了保证大数据分析业务能正常运行,相应的存储系统需要足够快,可扩展并且性价比有优势。

对于闪存解决方案来说,不管是以服务器端flash卡的形式还是以全闪存阵列的形式,都提供了一些对于高性能、低延时、大容量存储的替代解决方案。基于对象的带有擦写功能编程的可横向扩展架构为使用传统RAID以及复制方式的存储结构提供了一种能具备更高效率和更低价格的选择。

共2页: [1]2 下一页
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918