当前位置：首页 > 存储 > 大数据 > 正文

干货：如何计算用户行为大数据

来源：互联网

2014/3/13 9:42:34

大中小

用户行为类数据是最常见的大数据形式，比如电信的通话记录、网站的访问日志、应用商店的app下载记录、银行的账户信息、机顶盒的观看记录、股票的交易记录、保险业的保单信息，连锁超市会员的购物信息、交通违法信息、医疗就诊记录。

分享到：新浪微博腾讯微博

本文关键字：大数据用户行为

用户行为类数据的特点在于用户数量庞大，但每个用户的行为数量较小，针对用户行为的计算较为复杂，用户之间的关联计算相对较少。

用户数量庞大。通话记录中的电话号码、访问日志中的用户编号、账户信息中的银行账户、交易记录中股票账户、保单信息中的被保险人，这些都是用户行为类数据中的用户。用户的数量通常都很庞大，多的可达亿级或更多，少的也有百万级。

每个用户的行为数量较小。相对于庞大的用户数量，每个用户的行为通常较少。对单个电话号码来说，平均每月的通话记录只有数百条，每年也不超过一万条。即使是网站的活跃用户，他们每天最多也只能产生上百条行为记录，每年不超过十万条。

用户行为的计算较为复杂。计算用户的两次登录间隔天数、反复购买的商品、累积在线时间，这些都是针对用户行为的计算，通常具有一定的复杂性。

用户之间的关联计算较少。用户的行为相对独立，一般不需要知道其他用户即可实现计算。相应的，用户之间的关联计算则较少，比如：某人通话记录中接听电话的一方的通话时长;社交网站上某个用户的朋友购买了哪些商品，这些计算存在但不多。

根据用户行为类大数据的特点不难看出，其最直观最容易写出的算法可以这样设计：每次将某一用户的所有数据一次性加载到内存中来计算，而不要反复访问硬盘读取某个用户的部分数据，也不要将大量用户的数据同时加载到内存中。

将某一用户的所有数据加载到内存中来计算。这样做是因为用户之间的关联计算少，而单个用户行为的计算较为复杂，计算同一个用户的数据可以让程序员减少不相干数据的干扰。比如计算某用户反复购买的商品。首先，将某用户的数据按商品分组汇总出每件商品的购买次数;再按次数逆序排序;过滤掉只购买了一次的商品，剩下的就是反复购买的商品及购买次数。再比如计算某用户的累积在线时长。该用户会访问多次，每次都会形成一对登录和退出，因此先要过滤出所有的登录和退出记录;再针对每一次访问，用退出时刻减去登录时刻，这就是单次时长;将多个单次时长相加，就是累积时长。

另外，因为每个用户的行为数量相对较少，完全可以全部加载进内存进行自由灵活的计算。

不要反复访问硬盘读取用户的部分数据。由于用户的行为计算比较复杂，同一个用户的各条数据之间是存在关联关系的，读取一个用户的部分记录去计算会导致算法难写，而且性能很低。

不要将大量用户的数据同时加载到内存中。由于用户数量庞大，显然不可能将全部用户的数据一次性加载到内存中来，必须要分批读取。分批的标准上面已经分析出来了：按用户分批。至于用户之间计算结果的合并，可以留到最后一步再做，由于用户之间关联计算少，这个合并非常简单。比如计算所有用户反复购买的商品或累计在线时长，只要计算出每个用户反复购买的商品或累计的在线时长，再将所有用户的计算结果简单合并就可以。另外还可以看出，由于是用户之间的关联少，因此此类算法很适合使用并行计算，即每个节点机分配一定数量的用户，这样既不会增加难度又能大幅提高性能。

将同一用户的所有数据加载到内存中来计算，这就需要事先将数据按用户分成多个组。比如按零售店会员分组，每个组就是某个会员对应的多条采购记录;或按用户编号分，每个组是某个用户对应的网页访问记录。分组的实质是排序，即将数据按用户排序，使同一个用户的数据挨在一起。可以想象到，对亿级的用户、每用户万级的数据排序将是个非常缓慢的过程。事先排序可以加速分组的过程。

共3页: 上一页1 [2] [3] 下一页

责编：郑雄

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

干货：如何计算用户行为大数据

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。