|
如何将连续值分段本文关键字: 案例交流 作者: Qing 20070612 将连续的数值离散化成为分级,这是经常会遇到的一个分析动作。因为连续的数值不太容易让人理解,能够掰着指头数出来的级别数则容易让人懂一些。比如在做OLAP的时候,想看看不同消费水平的人数量几何。这里的消费水平,便是将连续的数值离散化了。原来是1到2000,皆有可能的取值,甚至还有小数,变成10个以内的级别,如50块以下一段,50-200一段,200-500一段...如此。显然,这种离散的段将成为一个维度,可以从这个角度观察其他度量。 关于如何将连续的值分成离散的段,没见着有什么约定俗成的方式。 有人喜欢从数学角度,似乎确实有人在研究如何从一串数值里面切成几段的。不过很多让人能够接受的分段,是业务上容易理解的。这种分段都可以凭经验划分。例如对于月消费,50块钱一段应该没有问题,如果是月收入呢,可以用500块钱分成一段,考虑到在3000以内人数众多,可以一直用这个数来分,到了3000以上,人数上了,便可以用1000块钱作为一段。 这都是凭感觉,那么有没有可以量化的东西呢,我想应该有所依据。比如上面的例子里面,虽然是凭经验,但已经结合了一个考虑,大概在3000的时候,人数的分布有个讲究。比如,80%的人在3000以下----用到了二八原则。 近来遇到一个需要将信用评分划分成信用级别的事情,属于这类问题。 其实在分级之前,我已经初步有了一个想法,分成5级。为什么呢?因为这是客户容易接受的,在金融行业里面不也是有五级吗,因此,这里借鉴一下。于是,问题便演变成为如何将0到1之间的浮点数划分阈值,区分成可以解释的,比较清晰的五个等级。 级别从A到E,信用逐步降低,分值从0到1,逐步提升。当然,有个明显的前提,信用好的是占据了大多数,只有少数害群之马是被认为信用差的。因此,我想,他们应当被冠以E级,或者D级。中间不好不坏的,当然就是C级。那么,D、E级大概占多少比例呢?5%应该可以接受。 于是,对信用模型打分结果首先进行等分分值的频次观察。将分值分成每0.01一个段,观察人数。结果发现,前两个段,0.01和0.02占据了80%,真是不好意思,怎么正好跟二八原则挂上构呢。于是,初步决定将这两个段分别作为A和B级的分值。接着还有20%,如果按照前5%作为D、E级,那么中间着15%的人,当然就算作C级。 凭什么就是5%呢?要知道,这仅仅是之前的猜测。于是,在对人数进行等分观察分值的变化,将所有客户按信用评分排序,均分成100组,每组的客户数量大致相同。发现,分值在一直到96组之前,都是平平坦坦,平稳增长,但是到了96组的时候,不得了,有个明显的观点,从0.049左右,猛增到0.4,然后增加到0.7,再到1。OK,找到了,就是在0.05这道槛。它就是区分C和D级的界限。和当初的设想很接近,信用最差的两个等级占了4%。 在做完这次分级之后,试图总结两点: 1、通过等分数值的频次分布来,结合二八原则,决定主要(频次多)的级别; 剩下的就是其他级别。当然,也可能就上面这两个已经重叠了,例如发生显著变化的分值,在60%的客户就开始了。这样,我想可以选一个策略,要不以二八原则优先,要不以分值变化拐点为优先。这根本不重要,重要的是如何让级别的划分看起来像那么回事,确实不是乱盖的。 不知道总结的这两点适用范围多广,但应该能够适用大多数情况,这也就够了。 作者: Mr.Somebody 20070613 为什么会与二八原则挂上钩呢?庆兄或许重新看看数据,看看是不是本来目标值(0和1)的分布就是大概20/80呢? 为什么要划分五个等级呢?从信用评估的角度上看,决策的结果有两种,给和不给。如果单纯以模型预测的值来做决策的话,两个等级就够了。如果以模型+决策 为什么要给最后的4%再分两个等级呢?分完之后能够在D和E之间找出显著的区别并据此加入不同的决策规则吗?最终能被应用上这些规则并有不同的决策结果 作者: Qing 20070613 这个问题切中要害,我试着回答一下。 至于为什么要分成5个等级,为什么跟二八原则挂上勾,主要是处于让这个等级划分容易理解。但又不单是,如果说理解,当然就是信用好、差两个等级最明白了。但仅仅两个等级又太少,不够细化。要作出这个选择,必然在1-9之间选择,甚至是1-7之间,因为人最容易一下子接受的就是不超过7、9个概念。另外,结合业务上的策略操作,五是一个适中的数字。想想,如果对七中不同类型客户制定差异策略,还是多了些。而使用二八原则,个人认为是划分等级的理想原则,等级一般都是金字塔型的,头小屁股大,大多数都是属于基础的等级,少数派占据顶尖的等级。 如果客户能够接受5级的评定,就没有问题,如果不接受,就劝服接受。大家应该不会在是5级合理还是4级合理的问题上纠缠。 根据qing兄的在这帖子的回答和在"确定分析目标"的帖子,现在我对问题有了更深一点的认识,同时也有了更多的疑问。 用"用户是否欠费"来作为目标变量建立模型,预测的自然是用户会否欠费。 当然,用户会否欠费与用户信用是肯定相关的,但是是如何相关呢?正比线性还是其他非线性关系?这个问题用目前这个模型是不能够回答的。所以,以用户是否 要解决透支额度的问题,最好还是借鉴一下金融行业信用评估的方法。 作者: Qing 20070613 我也非常怀疑用这个欠费可能性模型是否能够说明信用的好坏。其实这个模型的目标是是否欠费(当然会有时间限制),如果我们将预测的结果当作是信用差的,应该是可以理解的。然后,对于哪些欠费可能性不大的客户就是信用好的吗?似乎不能这么说。 作者: Mr.Somebody 20070615 关于评分结果可以用二八原则来解释,Qing兄的解释很合常理。但是我还有另外一种猜测,那就是因为建模时使用的数据本身就是服从二八原则的。能请 作者: Qing 20070615 你说本身数据服从二八原则是从那个方面来看?如果每个月的欠费客户和非欠费客户比例,不符合二八原则,欠费率大概只有2%,很少。从最后验证看,如果有实际有1万个欠费的,那么模型预测出来,D、E两级大概两万人,命中(确实欠费)大概8千人,命中率40%,查全率80%,结果还算可以了吧。 作者: 严国友 20070615 Qing,您好! 此前有过信用度控制系统、黑名单管理系统等。在移动/联通都要求大伙先付钱了,信用度控制还有多大需求呢? 其实这样的控制还是蛮实用的,配上缴费提醒系统,基本就能应付欠费问题。 不管用户实际信用度高不高,新来的就得受限,等成了老用户了,基本上一个月的消费额度就可以用来作为欠费额度了。 作者: Qing 20070618 面提到了,虽然这叫作信用度模型,但其实是预测客户欠费的可能性。本身,欠费问题在国内的电信行业已经不太显著,很多都变成预付费,欠费就停你机。除了几个大城市还存在很多后付费的客户,他们更关注欠费问题吧。 作者: 兰德里尼 20070618 ---我也做了个类似的模型,命中率50%,查全率60%,好像还不如你这个呢,你这个从效果来看可以了。不过实际情况是客户一般会要求命中率越高越好,对于查全率似乎不是很关心,可能是因为客户对于差样本审核的成本太高了吧,而且如果命中率很低,客户上报的时候也会很没面子的。 责编:姜玲 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|