|
拥抱大数据 需要大智慧有关大数据的热点话题一浪高过一浪,但大数据也不可避免地存在着“因大而导致的困难”:如大数据是肥胖的、大数据是非结构化的、大数据是残缺的、大数据是异常的。如何能处理好这些不利因素,让大数据应用的优势发挥出来。 Text Mining文本挖掘 它是用来解决大数据“非结构化”问题的。通过先对文字、图像等新媒体信息源进行降维、去噪、转换等处理,产生结构化数据,再用成熟的统计分析和数据挖掘方法进行评价和解释。这样一来,大数据的应用范围得到了极大的拓展。 基于JMP软件的文本分析结果的最终展现界面 Imputation缺失数赋值 它是用来解决大数据“残缺”问题的。在有missing data的时候,我们并不完全排斥直接删除的方法,但更多的时候,我们会在条件允许的情况下,用赋值的方法去替代原先的缺失值。具体的技术很多,简单的如计算平均值、中位数、众数之类的统计量,复杂的如用回归、决策树、贝叶斯定理去预测缺失数的近似值等。这样一来,大数据的质量大为改观,为后期的分析与建模奠定了扎实的基础。 基于JMP软件的缺失数赋值方法选择的操作界面 责编:李玉琴 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|