|
如何表示不同群体的特征去年时候,介绍了一种客户分群的解读方法,利用百分比堆积图来识别特征变量,以此来判断每个客户群的特征。 逐渐发现,很多分析都是要作这样的解读,为什么不形成一套自动的方法呢。这个过程可以称之为"特征解读",因此为他构建一个模型的话,可以叫做特征解读模型。 通常,我们如果将事物分成不同类型,比如对植物按照地区分成五个群体,对客户按照不同入网时间先后,分成十个群体。接着,就要区别这不同群体的特征,A区域的植物多高大、叶子厚,C区域的植物多矮小,喜水;新客户喜欢使用新业务,喜欢投诉,五年前入网的客户高消费,漫游多... 那么如何描述这些信息呢,如果用自然语言描述,不好作,还是得人工解读。因此,首先得设计一种描述特征的方式,用表格表示较好,可以自动化。设想一种特征表,如图(figure: ttnn-2007-08 BI-opinion-pic1)。 根本没有必要在表里面记录每个特征的值,比如身高多少。当然,也许在看完这个表之后,觉得有必要了解一下,这些特征是怎么表现的。可以查看具体数值或分布图(如果在软件界面上实现,可以通过点击特征名,查看该特征值在每个群里面的对比图)。 那么什么是特征呢?其实就是属性,用以区别于其他群体的属性,如果一个属性不能用于区别其他群体,那就不是特征。如果所有群体都有个属性叫"寿命",每个群体的平均寿命一比较,都在70-80之间,那这个属性就不算特征。但如果有一个群体,平均寿命只有30,而其他群体寿命在70-80之间,那他就是特征。并且还是个标上星号(表示显著特征)的绿色特征(表示低)。 这里描述了特征表的模样,从一堆数据中得出这个简洁的特征表是个抽象过程,对人脑解读的抽象。还有很多问题,比如如何去除属性之间的相关性,如何判断一个属性比另一个属性更重要,以后慢慢谈。 之前描述了一种"特征表",能够帮助人们来区分不同群体事物的特征。中间是个什么过程,刻意并没有多想他,但这个过程恐怕还是挺复杂的。 要给事物分类,是从若干角度分的,比如将人分成儿童、青年、中年、老年,是从年龄这个角度来分的。从一个角度来分,特征很明显,儿童年纪小,老年人年纪大。不过通常还得分析他们其他方面的特征,比如从健康水平,从财务状况方面来看。可以说,这些分类的角度是数不胜数。你要考虑社会人口的特征分析,就从人口统计的角度去考虑,如果要作保险赔付的特征分析,得从健康等角度去考虑了。分析群体特征其实总是有目的的,如果你说这是一次"无目的的综合分析",那是没有没有将目的表达出来,可能他模模糊糊在你的心里。 但落实到具体实现上面,你选择从那些角度去分析特征就反映了你对分析目的的理解。比如在去年,我们作客户分群,就不知道目的是什么,只能说"这是一次概括地分群,使用的聚类技术本身就是无目的的,这种模型只是忠实地依靠数据将分析对象划分成几组。"这个说法我想是不成立的,是因为不知道目的。 在这种情况下,我们能够想到的分析角度就都考虑进去,这种做法,忒不讲究。 如果要得到上面所说的特征表,并且要让这个过程自动化,恐怕首先要考虑的问题就是----特征分析的目的,以及从哪些相关角度来考察? 在数据挖掘里面,有个术语叫做变量。一般来说,变量就是表示了观察事物的某个方面。比如长途业务量占比表示客户使用长途的水平,中老年人占比表示了某个区域的老龄化水平。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|