大数据中非结构化数据的挖掘：文本

来源：数据研究与商业应用

2014/3/14 11:55:32

有些数据虽然是文本或字符串的形式，但并不是真正意义上的非结构化，比如浏览器的类型信息、推荐来源，虽然取值为文本，但取值都有规律，这些数据在数据库中更多的是作为外键(FK)关联到维度表，因此都不算严格意义上的非结构化数据。

一、点击流中的非结构化文本数据都有哪些？

首先来定性什么是非结构化文本数据，这里指的是点击流原始数据中以文字形式展现的数据，包括原始LOG日志以及已经被结构化入库中的部分数据，比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data.当然，有些数据虽然是文本或字符串的形式，但并不是真正意义上的非结构化，比如浏览器的类型信息、推荐来源，虽然取值为文本，但取值都有规律，这些数据在数据库中更多的是作为外键(FK)关联到维度表，因此都不算严格意义上的非结构化数据。真正的非结构化文本数据，包括：

搜索词：我们永远无法准确定义用户的搜索词都有哪些;

完整URL地址：尤其是含有特定监测Tag的地址;

特定监测标签：通常鉴于以URL Tag形式进行监测的情形;

页面名称：名称的规范性取决于系统配置信息;

用户自定义标签：比如用户对自身的评价标签--伟岸、高富帅等;

文章特定信息：如文章摘要、关键字等，跟用户一样，文章信息也是因文章而已;

用户评论、咨询内容：绝对的非结构化段落;

唯一设备号：如IMEI、MAC等(这部分通常会作为关联主键和唯一识别标示，不会作为规则提取的字段);

这些信息的特点是：①取值通常是文本或字符串，②长度不一致，单值结果的长度可能是1个字节甚至是1000个字节不等，③无明确的值域范围。

二、这些数据都是从哪来的？

这些数据通常都是用户自定义的，另外也包括由于系统产生或收集的非结构化数据本身。

自定义非结构化文本数据。这些信息通常都是在工具中通常都是自定义的维度获取，比如webtrends中的metea、Adobe Analytics中自定义Prop和eVar、UA中的Dimension等，如Adobe Analytics中的Prop的字段是以varchar(100)的格式定义的，这意味着如果需要收集数据的单个结果长度超过100个字节，结果将被截断;而eVar的字段格式与Prop相同，但程度更长，是255,所以从底层数据支持的角度考虑，如果在自定义维度时，在不考虑路径应用的情况下尽量使用eVar来定义。

系统获取的非结构化文本数据。比如通过Adobe分类规则生成器、处理规则或JS自动复制变量值的形式都会产生。

责编：王雅京

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

大数据中非结构化数据的挖掘：文本

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。