找出J.K.罗琳:大数据分析识别隐藏身份的五种方式

来源:畅享网  
2013/7/31 11:12:24
大数据分析破解了罗琳的身份之谜。Brooks先生在两位语言证据计算机科学家的协助下,对《布谷鸟的呼唤》、《临时空缺》以及哈利波特最后一部《哈利波特与死亡圣器》进行了比对,查看三者是否存在共性。看到这里,身为技术人士的朋友一定按捺不住内心的激动之情了。

事到如今,大家一定已经发现《布谷鸟的呼唤》这本犯罪小说的作者罗伯特·加尔布雷思根本不是什么新手作家,而是风靡全球的哈利·波特系列小说之母J.K.罗琳。这项秘密一直不为人知,直到英国《星期日泰晤士报》美术编辑Richard Brooks收到一条匿名twitter消息后,罗伯特就是罗琳的内幕才大白于天下。为了证明该说法的真实性,他甚至雇佣了一位私家侦探(这与<布谷鸟的呼唤>中的情节非常相似)展开进一步调查。

最终,大数据分析破解了罗琳的身份之谜。Brooks先生在两位语言证据计算机科学家的协助下,对《布谷鸟的呼唤》、《临时空缺》以及哈利波特最后一部《哈利波特与死亡圣器》进行了比对,查看三者是否存在共性。看到这里,身为技术人士的朋友一定按捺不住内心的激动之情了。

文本、twitter与状态更新中的线索

大家也许以为自己几年前随手写下的博文或者短消息微不足道,然而随着计算机性能的逐步提升、高复杂性统计分析工作已经不再是难以解决的难题。目前研究人员开始从知名作品的字里行间找寻与作者有关的蛛丝马迹。当然,这还仅仅是研究工作中的一部分内容。

快讯研究者:他们同样关注知名度不高的文本对象。博客、twitter、Facebook更新、聊天论坛甚至Amazon中的购物评论都可以成为他们研究用户生活方式与购买习惯的重要依据。无论大家是否已经意识到这一点,任何我们刻意选择的词语都会传达出一部分特定讯息。即使对表达方式进行刻意掩饰,每一条新消息都会不可避免地泄露编写者的零散状况。

《国家地理》刊发的一篇文章讲述了计算机科学家们证明J.K.罗琳身份的过程:

“最近出现一种风潮,认为计算机足以如探员般从文本中发现隐藏着的潜台词与深层信息。文学作品中存在一种作者自身无法控制、读者也很难感知的信息,这种因素类似于写作行为的DNA、签名或者指纹,”牛津大学专家、《星期日泰晤士报》顾问之一Peter Millican表示。

Rowling.Brooks接触的另一位专家是Patrick Juola,他和他的学生花了十年时间开发出一套名为JGAAP的计算机程序。通过该程序对两本著名的分析,数据研究者们最终非常肯定地通知《星期日泰晤士报》:《布谷鸟的呼唤》的真正作者确实是J.K.罗琳。

下面我们一起来看识别出罗琳真正身份的分析方法与线索。

大数据识破秘密的五种方式:

对每本书中的所有单词以成对或者相邻短语方式加以比对;

通过“字尾”搜索或相邻字符排列进行测试;

毕竟每本书中使用频率最高的100个单词并比较各单词出现频率间的细微差异;

根据词组长度进行分类,并依单词含义加以区分;

主成分分析:从六种特点进行比较——单词长度、句子长度、段落长度、字母出现频率、标点符号使用频率以及词语用法。

在五个小时之内,计算机科学家利用语言证据技术与大数据分析机制有理有据地证明了罗伯特·加尔布雷思正是J.K.罗琳。

在大数据面前,没人能藏得住秘密。

责编:孔维维
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
网络安全热点透析

随着移动互联、大数据、云计算、物联网等技术的日益发展,在这些热点技术为个人生活带来便利的同时,也为企业发展..

数据安全医药行业解决方案

采用身份鉴别、访问控制、数据加密以及权限控制等多种安全防护技术手段,保障数据库中医药数据只能被合法用户合规..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918