大数据除大以外的东西

来源： CSDN

2014/3/28 21:24:27

，随着储存技术和经济状况的发展，这2500张光盘只等价于当下100美元左右的硬盘，而且我们似乎也并不需要储存一个太空望远镜产生的如此大量数据

Hadoop只是运行某个通用计算的工具，正因为如此，在使用过程中你会受限于多种规则，比如所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序列来写。这种束缚就像穿上一层紧身衣，但是正因为Hadoop和大数据是热词，世界有一半的人都想穿上紧身衣，即使他们根本不需要。因此，你的数据量真的需要使用Hadoop这类工具吗?

1. 好几百M的数据，Excel装不下!这种级别完全和“大”无关，类似Pandas这样的工具就可以处理的很好，它可以把几百M的数据加载到内存，一眨眼功夫Numpy就能完成亿次浮点计算。

2. 数据体积高达10G!这种级别的数据仍然称不上大数据，当下的笔记本的内存都可以添加到16G了，而且许多工具并不是一次性将数据完全加载到内存的。

3. 数据有100GB/500GB/1TB!1个2TB的硬盘才几百块，买一块换上，然后果断装PostgreSQL等。

对比Python这样的脚本，Hadoop在编程方面不存在任何优势;同时因为跨节点的数据流开销，Hadoop通常情况下要慢于其他技术，然而如果你的数据超过5TB,那么你真的需要捣腾Hadoop了。

Chris从数据体积上分析了你的数据是否称得上大数据，是否真的需要使用大数据技术，然而衡量大数据的因素还有Velocity、Variety以及Value,下面我们就一起看MongoDB分享的“大数据除大以外的东西”,下为译文：

MongoHQ:不要因为大数据背后的利益而贬低其他途径

“大数据”,套用《银河系漫游指南》里的经典语录就是“is Big. You won't believe how vastly, hugely, mind-bogglingly big it is. I mean you may think there's a lot of data in Wikipedia but that's just peanuts to Big Data”.这也是许多人在碰到大数据时走入的误区--他们首先假设自己必须使用大数据技术处理，然而我们离大数据还差很远，那么大数据是如何得来的?

回溯20世纪90年代，人们认识到数字化的存储数据比用纸要廉价的多，当一个东西便宜到一定的地步时，它就成为一个必然的选项。人类就会出于本能的去储存所有数据，因为“未来我们可能需要它们”,而且储存已经这么便宜了，为什么不做呢?

而从1990年美国科学家一篇名为 “Saving All The Bits”的文章中发现，那个时候科学家已经不得不面对保存所有数据的挑战，Peter Denning解释了NASA保存所有哈勃太空望远镜产生数据面临的挑战：该设备每天产生的数据需要2500张光盘来存放，这个速度不仅淹没了网络和存储设备的性能，同样还超出了“人类的理解能力”.但是请不要忽视一点，随着储存技术和经济状况的发展，这2500张光盘只等价于当下100美元左右的硬盘，而且我们似乎也并不需要储存一个太空望远镜产生的如此大量数据

责编：王雅京

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

大数据除大以外的东西

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。