|
大数据除大以外的东西,随着储存技术和经济状况的发展,这2500张光盘只等价于当下100美元左右的硬盘,而且我们似乎也并不需要储存一个太空望远镜产生的如此大量数据 Hadoop只是运行某个通用计算的工具,正因为如此,在使用过程中你会受限于多种规则,比如所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序列来写。这种束缚就像穿上一层紧身衣,但是正因为Hadoop和大数据是热词,世界有一半的人都想穿上紧身衣,即使他们根本不需要。因此,你的数据量真的需要使用Hadoop这类工具吗? 1. 好几百M的数据,Excel装不下!这种级别完全和“大”无关,类似Pandas这样的工具就可以处理的很好,它可以把几百M的数据加载到内存,一眨眼功夫Numpy就能完成亿次浮点计算。 2. 数据体积高达10G!这种级别的数据仍然称不上大数据,当下的笔记本的内存都可以添加到16G了,而且许多工具并不是一次性将数据完全加载到内存的。 3. 数据有100GB/500GB/1TB!1个2TB的硬盘才几百块,买一块换上,然后果断装PostgreSQL等。 对比Python这样的脚本,Hadoop在编程方面不存在任何优势;同时因为跨节点的数据流开销,Hadoop通常情况下要慢于其他技术,然而如果你的数据超过5TB,那么你真的需要捣腾Hadoop了。 Chris从数据体积上分析了你的数据是否称得上大数据,是否真的需要使用大数据技术,然而衡量大数据的因素还有Velocity、Variety以及Value,下面我们就一起看MongoDB分享的“大数据除大以外的东西”,下为译文: MongoHQ:不要因为大数据背后的利益而贬低其他途径 “大数据”,套用《银河系漫游指南》里的经典语录就是“is Big. You won't believe how vastly, hugely, mind-bogglingly big it is. I mean you may think there's a lot of data in Wikipedia but that's just peanuts to Big Data”.这也是许多人在碰到大数据时走入的误区--他们首先假设自己必须使用大数据技术处理,然而我们离大数据还差很远,那么大数据是如何得来的? 回溯20世纪90年代,人们认识到数字化的存储数据比用纸要廉价的多,当一个东西便宜到一定的地步时,它就成为一个必然的选项。人类就会出于本能的去储存所有数据,因为“未来我们可能需要它们”,而且储存已经这么便宜了,为什么不做呢? 而从1990年美国科学家一篇名为 “Saving All The Bits”的文章中发现,那个时候科学家已经不得不面对保存所有数据的挑战,Peter Denning解释了NASA保存所有哈勃太空望远镜产生数据面临的挑战:该设备每天产生的数据需要2500张光盘来存放,这个速度不仅淹没了网络和存储设备的性能,同样还超出了“人类的理解能力”.但是请不要忽视一点,随着储存技术和经济状况的发展,这2500张光盘只等价于当下100美元左右的硬盘,而且我们似乎也并不需要储存一个太空望远镜产生的如此大量数据 责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|