如何表示不同群体的特征

  作者:刘庆
2007/9/21 15:06:48
本文关键字: 实战BI 特征解读 数据

去年时候,介绍了一种客户分群的解读方法,利用百分比堆积图来识别特征变量,以此来判断每个客户群的特征。
参见http://groups.google.com/group/ttnn/browse_thread/thread/9c87800d7a2d4d5c/a2da58e5787c1022
 
显然,这个解读步骤是人工的,不可重复的,如果要做另外一次客户分群,还得如此解读。这种解读还颇费功夫,我记得第一次解读的时候花去我大概三四天的功夫(当然,顺便总结了一套解读方法)。

逐渐发现,很多分析都是要作这样的解读,为什么不形成一套自动的方法呢。这个过程可以称之为"特征解读",因此为他构建一个模型的话,可以叫做特征解读模型。

通常,我们如果将事物分成不同类型,比如对植物按照地区分成五个群体,对客户按照不同入网时间先后,分成十个群体。接着,就要区别这不同群体的特征,A区域的植物多高大、叶子厚,C区域的植物多矮小,喜水;新客户喜欢使用新业务,喜欢投诉,五年前入网的客户高消费,漫游多...

那么如何描述这些信息呢,如果用自然语言描述,不好作,还是得人工解读。因此,首先得设计一种描述特征的方式,用表格表示较好,可以自动化。设想一种特征表,如图(figure: ttnn-2007-08 BI-opinion-pic1)。
 
这个表包含如下信息,列头,是三个特征,我想一个群体用三个特征是能够跟其他群体区别开来的。行头是群的名称,比如地区、时段,数量不定。内容里面,记录了每个群的三个特征,当然有的群可能挑不出特征,就一个横杠"-"代替。红色的单元个中的特征表示该特征是个正向特征,表示高、多、大,比如这个特征名叫做"身高",那就表示这群有个身高高的特征。反之,标绿色的单元格,则表示是个反向特征,表示低、少、小。注意到有些特征名前面还有个星号"*",表示这个特征是"显著"的,何谓显著的,就是明显跟其他群体不一样。比如对于群体一的第一特征,是个子高,那么加了星号,表示明显要比群二、群三等高出一截儿出来,至少比第二三名高出不少吧。

根本没有必要在表里面记录每个特征的值,比如身高多少。当然,也许在看完这个表之后,觉得有必要了解一下,这些特征是怎么表现的。可以查看具体数值或分布图(如果在软件界面上实现,可以通过点击特征名,查看该特征值在每个群里面的对比图)。

那么什么是特征呢?其实就是属性,用以区别于其他群体的属性,如果一个属性不能用于区别其他群体,那就不是特征。如果所有群体都有个属性叫"寿命",每个群体的平均寿命一比较,都在70-80之间,那这个属性就不算特征。但如果有一个群体,平均寿命只有30,而其他群体寿命在70-80之间,那他就是特征。并且还是个标上星号(表示显著特征)的绿色特征(表示低)。

这里描述了特征表的模样,从一堆数据中得出这个简洁的特征表是个抽象过程,对人脑解读的抽象。还有很多问题,比如如何去除属性之间的相关性,如何判断一个属性比另一个属性更重要,以后慢慢谈。

之前描述了一种"特征表",能够帮助人们来区分不同群体事物的特征。中间是个什么过程,刻意并没有多想他,但这个过程恐怕还是挺复杂的。

要给事物分类,是从若干角度分的,比如将人分成儿童、青年、中年、老年,是从年龄这个角度来分的。从一个角度来分,特征很明显,儿童年纪小,老年人年纪大。不过通常还得分析他们其他方面的特征,比如从健康水平,从财务状况方面来看。可以说,这些分类的角度是数不胜数。你要考虑社会人口的特征分析,就从人口统计的角度去考虑,如果要作保险赔付的特征分析,得从健康等角度去考虑了。分析群体特征其实总是有目的的,如果你说这是一次"无目的的综合分析",那是没有没有将目的表达出来,可能他模模糊糊在你的心里。

但落实到具体实现上面,你选择从那些角度去分析特征就反映了你对分析目的的理解。比如在去年,我们作客户分群,就不知道目的是什么,只能说"这是一次概括地分群,使用的聚类技术本身就是无目的的,这种模型只是忠实地依靠数据将分析对象划分成几组。"这个说法我想是不成立的,是因为不知道目的。

在这种情况下,我们能够想到的分析角度就都考虑进去,这种做法,忒不讲究。

如果要得到上面所说的特征表,并且要让这个过程自动化,恐怕首先要考虑的问题就是----特征分析的目的,以及从哪些相关角度来考察?
 
有目的,就会有期望。比如你要分析区域的客户特点。首先你会提问,这些地区客户构成都是类似的吗?是否有些地区特别喜欢用新业务?有些地方特别喜欢发短信?有些地方某种品牌的客户特别少?...这些问题就是你的期望,期望在新业务使用上,能够有一些地区是显著特征,那就标志着该地区的新业务发展有些异常,可能是好的,也可能是坏的。如果没有那个地区在这个属性上有明显表现,那期望就落空了,没什么好说的。这是对区域客户的特征分析,同理,还可以对区域的经济作特征分析,比如是否有的工业发展特好,有的总GDP高,有的人均GDP特高?

在数据挖掘里面,有个术语叫做变量。一般来说,变量就是表示了观察事物的某个方面。比如长途业务量占比表示客户使用长途的水平,中老年人占比表示了某个区域的老龄化水平。
 
理想情况下,能够选择不相干的方面去分析事物的特征,但这是理想,通常会是相关的。比如衡量客户的长途水平和漫游水平,这两个变量就是相关的。甚至还有一种情况,即便是衡量单个方面,也会有不同的变量。比如长途水平,可以用长途次数占比或者长途时长占比来衡量,之所以分成这两个变量,是因为考虑有人喜欢长时间通话,有人喜欢频繁通话,但其实,这时候完全可以用一个"单次通话时长"来衡量这个特征。
 
因此,这里有个建议,在作特征分析的时候,只用一个变量衡量某个特征。
 
这样就不会给最终的特征表带来麻烦。比如群一确实有个特征就是非常喜欢长途,但因为有两个变量来衡量这个特征,因此最后的结果很可能是他们都出现在表里面,占据了三个特征中两个,其实在意义上只代表一个特征。
 
如何只用一个变量衡量一个特征,如果判断特征变量之间的相关性,我想这都是有技术处理手段来判断,也许这叫作"相关性分析"或是啥的,我不知道,但目的很明确,只选择代表性的变量。如果你在一开始不小心考虑从哪些角度来评估特征,并且用什么一个单一变量来表示这个特征,可以肯定的是,最后得出的特征表将是个垃圾。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918