当前位置：首页 > 存储 > 大数据 > 正文

大数据分析的正确方法

来源：赛迪网

2013/11/28 9:07:21

在大数据洪流汹涌袭来的当下，信息的流动才是重中之重，互联网巨头们的数据割据思维严重阻碍着整个产业的发展。

据统计，从人类文明开始到2003年，人类共创造了5TB(兆亿字节)的信息。现在，同样的数据量仅需两天就能够被创造出来，且速度仍在加快。如此庞大的数据量使数据分析复杂化，而大数据中的非结构化数据将加深这种复杂度。

这种情况下，我们需要清楚：什么样的数据应被保存。如果从整体性出发，数据采集和存贮算不上大数据，对海量数据进行分析计算之后的结果才有实际价值。这亦是大数据的价值所在。

关于大数据数量，业内一种较为激进的观点认为，“大数据”的叫法存在问题，因为数据只有“大”是没有用处的。虽然数据无处不在，但唯有复用性强和可转化成有用抽象信息的数据才更有价值。

即使我们的数据搜集、处理能力逐渐增强，仍然要坚持“不是任何数据都重要”这一准则。对企业来讲，具体需遵循两点，一是坚持数据广泛性，对内掌握企业内部分析数据，对外摸准用户喜好和习惯;二是坚持数据关键性，从最重要处着手，把握数据复用性，达到最大价值又使成本最优化。

《哈佛商业评论》近期发表了一篇题为“更大的数据会导致更好的决策吗?”的文章，这篇文章提出警告，把重点放在量的方面将导致大错误。如今很多企业试图通过庞大的数据量获得利益，但只有少数企业真正取得成功，这是过分注重数据“量”带来的弊端。

大数据分析之数据质量与数据分享

我们知道，要保证分析结果的准确性，必须确保被分析数据真实有效，至少绝大部分数据样本要有质量保证。但在大量数据从数据源汇聚而来的过程中，难免有以次充好的数据混入。

在淘宝网购时，卖家信用等级是买家购买与否的重要参考。为了提高产品销售量，刷信用等级成了业内公开的秘密，伴随着部分卖家弄虚作假、违规提高信用等级的过程，将产生大量失真数据，在欺骗消费者的同时，也会直接影响后期数据分析结果。

其次，中国互联网产业中，“数据割据”现象较严重，即掌握大量核心数据的几大互联网巨头各自为战，不愿分享。如掌握搜索数据的百度，掌握社交数据的腾讯，掌握消费数据的阿里巴巴，他们都意识到数据对于未来企业竞争力的重要性，因此不会将自己手中的数据筹码轻易示人。

仍旧以百度、腾讯、阿里巴巴为例，按照目前他们在中国互联网的流行程度，我们可以大体估计同时使用这三种应用的用户个体占互联网总用户数的比率，保守估计，达到50%不成问题。因此，这三方数据一旦实现共享，将能拼凑出一幅完整的网络信息图谱。反之，“数据割据”造成大数据断层和片面性，使其利用价值大打折扣。

CMIC认为，在大数据洪流汹涌袭来的当下，信息的流动才是重中之重，互联网巨头们的数据割据思维严重阻碍着整个产业的发展。尤其对于那些拥有大数据分析技术却无大数据源的中下游企业来说，面临“巧妇难为无米之炊”的窘境。

责编：王雅京

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。