如何表示不同群体的特征

作者：刘庆

2007/9/21 15:06:48

去年时候，介绍了一种客户分群的解读方法，利用百分比堆积图来识别特征变量，以此来判断每个客户群的特征。
参见http://groups.google.com/group/ttnn/browse_thread/thread/9c87800d7a2d4d5c/a2da58e5787c1022

显然，这个解读步骤是人工的，不可重复的，如果要做另外一次客户分群，还得如此解读。这种解读还颇费功夫，我记得第一次解读的时候花去我大概三四天的功夫（当然，顺便总结了一套解读方法）。

逐渐发现，很多分析都是要作这样的解读，为什么不形成一套自动的方法呢。这个过程可以称之为"特征解读"，因此为他构建一个模型的话，可以叫做特征解读模型。

通常，我们如果将事物分成不同类型，比如对植物按照地区分成五个群体，对客户按照不同入网时间先后，分成十个群体。接着，就要区别这不同群体的特征，A区域的植物多高大、叶子厚，C区域的植物多矮小，喜水；新客户喜欢使用新业务，喜欢投诉，五年前入网的客户高消费，漫游多...

那么如何描述这些信息呢，如果用自然语言描述，不好作，还是得人工解读。因此，首先得设计一种描述特征的方式，用表格表示较好，可以自动化。设想一种特征表，如图(figure: ttnn-2007-08 BI-opinion-pic1)。

这个表包含如下信息，列头，是三个特征，我想一个群体用三个特征是能够跟其他群体区别开来的。行头是群的名称，比如地区、时段，数量不定。内容里面，记录了每个群的三个特征，当然有的群可能挑不出特征，就一个横杠"－"代替。红色的单元个中的特征表示该特征是个正向特征，表示高、多、大，比如这个特征名叫做"身高"，那就表示这群有个身高高的特征。反之，标绿色的单元格，则表示是个反向特征，表示低、少、小。注意到有些特征名前面还有个星号"*"，表示这个特征是"显著"的，何谓显著的，就是明显跟其他群体不一样。比如对于群体一的第一特征，是个子高，那么加了星号，表示明显要比群二、群三等高出一截儿出来，至少比第二三名高出不少吧。

根本没有必要在表里面记录每个特征的值，比如身高多少。当然，也许在看完这个表之后，觉得有必要了解一下，这些特征是怎么表现的。可以查看具体数值或分布图（如果在软件界面上实现，可以通过点击特征名，查看该特征值在每个群里面的对比图）。

那么什么是特征呢？其实就是属性，用以区别于其他群体的属性，如果一个属性不能用于区别其他群体，那就不是特征。如果所有群体都有个属性叫"寿命"，每个群体的平均寿命一比较，都在70－80之间，那这个属性就不算特征。但如果有一个群体，平均寿命只有30，而其他群体寿命在70－80之间，那他就是特征。并且还是个标上星号（表示显著特征）的绿色特征（表示低）。

这里描述了特征表的模样，从一堆数据中得出这个简洁的特征表是个抽象过程，对人脑解读的抽象。还有很多问题，比如如何去除属性之间的相关性，如何判断一个属性比另一个属性更重要，以后慢慢谈。

之前描述了一种"特征表"，能够帮助人们来区分不同群体事物的特征。中间是个什么过程，刻意并没有多想他，但这个过程恐怕还是挺复杂的。

要给事物分类，是从若干角度分的，比如将人分成儿童、青年、中年、老年，是从年龄这个角度来分的。从一个角度来分，特征很明显，儿童年纪小，老年人年纪大。不过通常还得分析他们其他方面的特征，比如从健康水平，从财务状况方面来看。可以说，这些分类的角度是数不胜数。你要考虑社会人口的特征分析，就从人口统计的角度去考虑，如果要作保险赔付的特征分析，得从健康等角度去考虑了。分析群体特征其实总是有目的的，如果你说这是一次"无目的的综合分析"，那是没有没有将目的表达出来，可能他模模糊糊在你的心里。

但落实到具体实现上面，你选择从那些角度去分析特征就反映了你对分析目的的理解。比如在去年，我们作客户分群，就不知道目的是什么，只能说"这是一次概括地分群，使用的聚类技术本身就是无目的的，这种模型只是忠实地依靠数据将分析对象划分成几组。"这个说法我想是不成立的，是因为不知道目的。

在这种情况下，我们能够想到的分析角度就都考虑进去，这种做法，忒不讲究。

如果要得到上面所说的特征表，并且要让这个过程自动化，恐怕首先要考虑的问题就是----特征分析的目的，以及从哪些相关角度来考察？

有目的，就会有期望。比如你要分析区域的客户特点。首先你会提问，这些地区客户构成都是类似的吗？是否有些地区特别喜欢用新业务？有些地方特别喜欢发短信？有些地方某种品牌的客户特别少？...这些问题就是你的期望，期望在新业务使用上，能够有一些地区是显著特征，那就标志着该地区的新业务发展有些异常，可能是好的，也可能是坏的。如果没有那个地区在这个属性上有明显表现，那期望就落空了，没什么好说的。这是对区域客户的特征分析，同理，还可以对区域的经济作特征分析，比如是否有的工业发展特好，有的总GDP高，有的人均GDP特高？

在数据挖掘里面，有个术语叫做变量。一般来说，变量就是表示了观察事物的某个方面。比如长途业务量占比表示客户使用长途的水平，中老年人占比表示了某个区域的老龄化水平。

理想情况下，能够选择不相干的方面去分析事物的特征，但这是理想，通常会是相关的。比如衡量客户的长途水平和漫游水平，这两个变量就是相关的。甚至还有一种情况，即便是衡量单个方面，也会有不同的变量。比如长途水平，可以用长途次数占比或者长途时长占比来衡量，之所以分成这两个变量，是因为考虑有人喜欢长时间通话，有人喜欢频繁通话，但其实，这时候完全可以用一个"单次通话时长"来衡量这个特征。

因此，这里有个建议，在作特征分析的时候，只用一个变量衡量某个特征。

这样就不会给最终的特征表带来麻烦。比如群一确实有个特征就是非常喜欢长途，但因为有两个变量来衡量这个特征，因此最后的结果很可能是他们都出现在表里面，占据了三个特征中两个，其实在意义上只代表一个特征。

如何只用一个变量衡量一个特征，如果判断特征变量之间的相关性，我想这都是有技术处理手段来判断，也许这叫作"相关性分析"或是啥的，我不知道，但目的很明确，只选择代表性的变量。如果你在一开始不小心考虑从哪些角度来评估特征，并且用什么一个单一变量来表示这个特征，可以肯定的是，最后得出的特征表将是个垃圾。

责编：姜玲

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

文章: 物资管理八百客润乾报表伟库网 Xtools 中服软件中机盛科

用友T系列知识管理 ERP
软件: 用友中服软件 SAP 源天软件 Xtools 中机盛科

如何表示不同群体的特征

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。