关于大数据的五大谬见

来源:网界网  
2014/2/18 14:31:27
业界定义的大数据是指迅速收集的、各种各样的、大量的数据集合,而不是能够处理一切问题的万能解决方案。

本文关键字: 大数据

Darin Bartik说:“小企业可以利用其最佳实践,进一步推动数据分析决策在企业中的发展,以此赶超或者胜过那些强大的竞争对手。”

4. 收集数据后不及时整理分类

位于美国旧金山的云计算商业智能供应商Birst的首席执行官Brad Peters表示,虽然数据存储的成本越来越低,但它并不是免费的。然而,对于许多大公司来说,它们对于数据欲望的增长速度要比数据存储成本降低的速度快得多。

许多企业往往在收集完数据之后,并不迅速处理这些数据,造成数据存储成本增加。Brad Peters说:“我发现很多大的企业或机构收集了一大堆数据之后却不及时处理这些数据,导致他们在这些数据上的开支逐渐增大,而他们也并没有从这些数据中获取任何价值。”

事实上,企业中的一些数据集已经开始造成了企业的收益递减。这种现象就像通过分析选民数据信息来预测选举结果一样,在预测过程中,你需要一定数量的选民作为样本,但是如果样本数量超过一个临界点之后,无论增加多少选民,对于预测结果不会有任何太大的影响。也就是说,样本数量过多,所花费的成本也就越多,但对于目标没有任何实质性的价值。

“数据冗余的话,企业支出的不仅仅是存储成本,还会面临许多其他的问题”, Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说。比如,如果数据泄露的话,那么公司也会承担相应的损失。Recommind是一家位于美国旧金山的专注于非结构化数据分析的公司。

最终,数据越多,那么分类整理数据所需要的时间也就越多。Dean Gonsowski说: “当数据仓库的规模达到数十亿条记录时,那么光是检索数据就需要花上几个小时,甚至是几个星期。这时候,这些信息非但不会给企业带来商业价值,反而会阻碍企业系统的运转,因为这些系统根本不能处理这么大信息量。”

5. 所有数据都是一样的

美国佛吉尼亚州曾收集过在过去20年里学生的注册信息、奖学金,以及学位授予情况的数据,但这并不意味着20年前收集的与之存储在同一个数据域里的数据就一定是相同的数据。

佛吉尼亚州高等教育委员会的政策研究和数据仓库部门的主管Tod Massa说:“由于数据都存储在一个数据仓库里,这导致研究人员认为这些数据都是等同的,而这正是我需要处理的一个最大的问题。我们收集的ACT(American College Test,美国大学入学考试)和 SAT(Scholastic Assessment Test,学术能力评估测试)的学生成绩,最初我们收集的只是整个佛吉尼亚州的学生成绩,但这导致我们的调查研究出现一个缺口,所以后来我们不仅收集了佛吉尼亚州的数据,还收集了其他州学生的数据。而且,不同种族在K-12级和高等教育的数据也不同。”

事实上,任何特定的数据,如果由不同的组织机构,或在不同的时间内,或由不同的人发布的话,也有所不同。Tod Massa说:“假如收集数据的这家公司或机构是完全孤立或与世隔绝的,那么情况可能会不一样。但我认为,随着时间的推移,它们收集的数据也会有所变化。”

因此,数据分析人员不仅要有数据统计的技能,还要掌握一定的数据知识,并清楚地了解相关行业内的动向和整体发展趋势。

这一点也同样适用于从外部数据源收集的数据,过去的那种数据收集和分析的方式已经完全改变了。能够了解不同的数据文化背景和数据环境,对于充分利用这些数据是非常必要的。

共2页: [1]2 下一页
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918