互联网数据工程师:将用户信息变废为宝

来源:南方都市报  
2012/4/9 11:23:04
小看你线上生活的每一个小动作,你在搜索框上输入的关键词、每一次随意的签到、社区里留下的不起眼的评论、在购物网站上的一次次消费……这些看起来浩瀚如恒河微沙的行为记录,在互联网公司眼里却是座宝贵的金矿。在其身后,数据挖掘和开发的工程师正日以继夜地运算着你们的信息,将之变废为宝。



本文关键字: 互联网 用户信息 信息泄露

小看你线上生活的每一个小动作,你在搜索框上输入的关键词、每一次随意的签到、社区里留下的不起眼的评论、在购物网站上的一次次消费……这些看起来浩瀚如恒河微沙的行为记录,在互联网公司眼里却是座宝贵的金矿。在其身后,数据挖掘和开发的工程师正日以继夜地运算着你们的信息,将之变废为宝。

裸奔时代

商人、教师、警察,谁的银行信用更好?

一次闲聊中,一位在银行负责信用卡业务的朋友给我讲了这样一个玩笑故事。在信用卡起步阶段,银行从业人员凭经验认为警察信用是最高的,教师次之,商人最差。但当银行对他们消费和还款数据的积累日渐丰富,分析结果出乎人的意料之外。

最初的结论几乎被完全推翻:警察的信用最差,教师还款最及时,但消费偏向理性很少透支,而商人信用居中,却对银行的利润贡献率最高。谁是最优质的信用卡客户的答案呼之欲出。

当然这只是个段子,权当玩笑,如果你是警察可不要见怪。现在只凭职业这个单一的维度做出判断的做法,在银行从业人员看来显然低级而不可信。为了更好对症下药,他们需要得到你更多的信息。有这想法的绝对不止银行。而且他们的胃口越变越大,恨不得掌握你24小时吃喝拉撒睡的所有信息。

在这一点上,互联网公司们完胜。看看中国互联网络信息中心(CNNIC)的《第29次中国互联网络发展状况统计报告》,截至2011年12月底中国网民规模达到 5.13亿,2011年网民平均每周上网时长为18.7个小时。恐怕没有其他行业公司能与客户有这么长时间的亲密接触。

说到线上生活,我们绝大部分时间都是坦荡荡的“正人君子”,上微博实名注册、网购只为自己的糟糠女友埋单,同学录上只晒一家子的亲密照……可难免也有这样的时刻:给情敌匿名发一堆龌龊下流话,深夜悄悄在网站订购一个充气娃娃、某网站的照片让你辗转反侧……当然这样的时刻绝对不会让你的亲朋好友知道,但总有那么一双眼睛在盯着你呢。

事实就是如此。哪怕你在搜索框随便输入一个词组或者单字,都会被“记录在案”,并成为“老大哥”分析你“行为轨迹”的优质信息源。纳尼?我还没有登录啊!“老大哥”笑了:你没登录也是一样的。更遑论你的浏览记录、外出行踪、跳转轨迹、好友关系、购买记录、支付情况……一上网,你就没有遮羞布了。

似乎有点危言耸听。其实在你成为他们用户的那一天起,不管你是不是仔细看了那个又长又晦涩的隐私政策,你点击“下一步”之后,他们就心安理地获得使用你这些数据的授权,而保密原则也一并在法律的限定范围之内。在此之后,你不发现你使用互联网已经越来越方便了吗?甚至方便得有些神奇。

你会发现微博已经越来越了解你了,它给你推荐的人越来越靠近你线下的圈子,电子商务网站也越来越懂你了,你不必再发愁怎么找到心仪的那件商品,甚至你会发现有些推荐商品比你原本想买的更适合你(有可能更贵)。

如果你已经习惯于沉溺在谷歌(微博)这个生态系统,那就更节省你的脑细胞。只要在任何一部安卓手机上、Gmail、Chrome浏览器、中文输入法、G+乃至就在 google.com登录你的账号,你的搜索、通信、社交等等行为都一并被它整合到一起综合分析,借助它那神奇的Google AdSense,Google Analytics的处理分析,加上今年3月1日谷歌关于这些服务隐私政策统一的通告扫清你会抱怨的障碍,谷歌简直对你了如指掌。

你上 Youtube,首页可以根据你在谷歌的搜索记录分析给出更个性化的推荐,或者你在Google Music听了一首歌又被你分享或者竖了大拇指,当你转到某电商网站,后者会给你推送这整张专辑的促销信息,又或者某天你通过圈子里的好友,找到了曾有一面之缘相谈甚欢但又忘了互换联系方式的好友的好友。

“神秘配方”

你就在一次次不自觉的“主动”提供信息的同时与老大哥产生互动,在老大哥那边这叫UGC(User Generated Con-tent,也就是用户生成内容的意思)。随着时间的推移,你的UGC越丰富,老大哥对你愈加了如指掌。哪怕你觉得毫无意义的一次跳转或者签到,他们都想知道。

这就是他们的商业模式,在你看来甚至是垃圾的信息,都是他们珍视的金矿,或是核心资产,通过处理分析,将它们批量打包“卖”给视你们为潜在消费者的商家。

所以,数据挖掘和分析这门活计,几乎是从每一个互联网公司自诞生之日起就开始要做的,因为光收集你在网上任何蛛丝马迹的信息远远不够。一般而言,除非你是日砸千金的VIP,老大哥不可能一对一对你做个性化服务,因此你只能作为被整合到统一特征范畴的整体当中的一个“样本”,有时候你作为男性的一分子被挖掘和分析,而另一些时候你又作为摇滚乐爱好者当中的一员被他们研究。老大哥根据他们的经验不断炮制和修正他们的算法,从而更精准匹配你的需求。

这里牵涉两个层面的问题。一个是对你贡献的数据的收集、挖掘和分析;另一个则是,有了关于你作为“你”的总体特征之后,能用这些“知识”去做什么而快速地赚到钱呢?之所以说数据并不是万能的,就体现在第二层面的问题上,乌龙就在所难免了。

比如,某个新闻门户根据你的历史点击,记录你在每个页面上停留时间还有浏览的内容,于是后台的工作人员开始假设了:你看军事的内容比较多,那估计你是20多岁年轻男子;如果你看的八卦内容比较多,那估计你就是20多岁的女孩。基于这些假设,他们本可以针对你做个性化内容的推荐了,比如判断你是个男生,就给你推时政新闻或者是啤酒节的消息。但是,可能昨天浏览太多军事新闻只是你一时兴起,兴许今天你转而对某个明星的八卦感兴趣了。于是,你极不耐烦地把鼠标移到右上角点了叉。

因此你会发现,到现在也没有哪个新闻门户会真的这么做。他们还是会一视同仁地向你展示经由他们分类编辑好的统一的信息页面。究其原因,不只是你的兴趣是波动不定的,但说到底,还是因为他们对你了解不够透彻。虽然他们知道你昨天刚买了个电脑,但鬼知道你今天要看的就是牛仔裤呢?

所以,后台那些整日琢磨怎么从你行为轨迹上挖掘你需求的工程师们,要绞尽脑汁调整假设、修正算法。数据大牛们只要看看一个互联网公司收集数据的基础表格都可以大体知道这家公司的数据沉淀及数据应用水平了。这可是老大哥们赚钱的命根,这些数据乃至工程师们最引以为傲的算法,保密程度不亚于可口可乐的配方。

当然了,他们即便有再强大的算法,还要有劳您继续日复一日地去浏览网页、去交友通信、去签到、去下单买东西啦!他们巴不得网络就是你的全部。

老大哥

英语里有一个专有名词,BIG BROTHER,直译为汉语便是“老大哥”,典出乔治·奥威尔的名著《1984》。

时间到了2000年,当1984成为一个过去的时间符号的时候,英国生产了一档电视娱乐节目《BIG BROTHER》,电视台召集一些年轻男女,把他们放到一个四处布满摄像头的公寓里,拍摄他们的生活然后剪辑播放。同时,在电脑技术领域,出现了一款同名软件,功能为“系统监视”。

无论是电视娱乐节目还是“系统监视”的得名,都来源于《1984》里的一个经典场景:“老大哥在看着你!”在小说《1984》里,乔治·奥威尔为我们描述了一个无处不在的“老大哥”形象:一个无时无刻无所不在的“老大哥”监视着所有人的一举一动,无论是吃饭、睡觉、工作或者走在街上、躲进洞穴——-包括思想活动。

责编:孔维维
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
网络安全热点透析

随着移动互联、大数据、云计算、物联网等技术的日益发展,在这些热点技术为个人生活带来便利的同时,也为企业发展..

数据安全医药行业解决方案

采用身份鉴别、访问控制、数据加密以及权限控制等多种安全防护技术手段,保障数据库中医药数据只能被合法用户合规..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918