神奇的大数据!微软几乎猜对所有奥斯卡大奖

来源:驱动之家   
2013/2/26 15:03:30
David Rothschild是微软纽约研究院一名经济学家,在2012年美国总统大选中,他正确预测了51个选区中50个地区的选举结果,准确性高于98%。不久前,David Rothschild通过大数据分析,对第85届届奥斯卡各奖项的归属进行了预测。

本文关键字: 大数据 微软

David Rothschild是微软纽约研究院一名经济学家,在2012年美国总统大选中,他正确预测了51个选区中50个地区的选举结果,准确性高于98%。不久前,David Rothschild通过大数据分析,对第85届届奥斯卡各奖项的归属进行了预测。

北京时间今日上午,第85届奥斯卡金像奖颁奖礼在美国好莱坞举行,《逃离德黑兰》摘得最佳影片奖,李安凭借《少年派的奇幻漂流》获得最佳导演奖,其它各项大奖也都尘埃落定。

那么这次David Rothschild的大数据预测准不准?答案令人称奇,微软大数据分析堪称预言帝,除最佳导演外,其它各项奖预测全部命中。

David Rothschild预测的最佳导演奖得主是斯蒂芬·斯皮尔伯格(Steven Spielberg)(影片《林肯》),而最终拿下该奖项的华裔导演李安。

第85届奥斯卡主要获项获奖名单:

最佳影片:《逃离德黑兰》Argo

最佳导演:李安 Ang Lee(《少年派的奇幻漂流》 Life of Pi)

最佳男主角:丹尼尔·戴-刘易斯 Daniel Day-Lewis(《林肯》 Lincoln)

最佳女主角:詹妮弗·劳伦斯 Jennifer Lawrence(《乌云背后的幸福线》 Silver Linings Playbook)

最佳男配角:克里斯托弗·瓦尔兹_christoph Waltz(《被解放的姜戈》 Django Unchained)

最佳女配角:安妮·海瑟薇 Anne Hathaway(《悲惨世界》 Les Miserables)

最佳动画长片:《勇敢传说》 Brave

最佳歌曲:《Skyfall》(《007之大破天幕杀机》 阿黛尔 Adele)

想进一步了解David Rothschild的大数据分析模式?请看下面CNET对于其预测理念的报道:

David Rothschild表示:“我预测奥斯卡金像奖得主的方法与预测其它事情的方法完全相同,其中包括政治。首先关注最有效的数据,然后创建不受任何特别年份结果干扰的统计模型,所有模型都根据历史数据进行测试、校正,我们在建模时很有耐心,确保模型能够正确预测外样本结果,而不仅仅是过去发生的结果。我们创建的模型是能够预测未来的,而不只是过去发生的。”

他指出:“科学是相同的,但证明哪些数据最有用却存在千差万别。”

你或许会认为一个能够攻克选票近1.27亿张变化莫测总统大选的预测模型也一定能够在预测不太复杂的事件中轻松获胜,如奥斯卡投票,其投票成员不足6000人,但美国总统大选与奥斯卡投票采用的数据大相径庭。

David Rothschild透露:“我通常关注四个不同类型的数据:投票数据、预测市场数据、基本数据和用户产生的数据。在预测政治时,我采用基础数据如过去的选举结果、义务和经济风向标。通过基础数据建立一个基准,然后转向预测市场数据和投票数据,因为这两个类型的数据吸收并包含了更多选举信息。2012年总统大选预测时,我使用了少量用户产生的数据,但Xbox Live数据对补充重大事件实时分析起了关键作用。”

“预测奥斯卡金像奖花落谁家时缺少民意测验投票数据,而基本票房回报和电影评分等数据也很难有效统计。我更关注的是预测市场数据,这是主要因素,同时采用部分用户生成内容的数据分析,这有助于理解电影内部和不同类别之间的相关度,例如影片《林肯》会赢得多少个奖项?”David Rothschild说。

David Rothschild强调:“每当我关注一个新领域,我都会认真考虑一些关键事情,确保自己的预测更有意义。”

·首先,我会确定最中肯的预测。至于奥斯卡金像奖得主预测,我关注的是所有24个类别的获胜概率,并会预测各个类别主流电影的总奖项。

·其次,我的所有预测结果会实时更新。从研究观点看,实时更新预测结果至关重要,我们能够获悉最初预测与最终事件之间发生的不同事件的价值。这些事件就是奥斯卡奖项归属的前奏。

·最后,我借助特定领域的历史数据建模,然后通过不断升级模型确保预测的准确度。我还想强调的是,我们所做的一切都是为了尽可能保证领域独立性,确保所有问题的可衡量性。如果该研究能够催生出更高效的预测方法、在众多领域适用于大量问题,将对微软、对学术界和这个世界都有价值。”

神奇的大数据!微软几乎猜对所有奥斯卡大奖

责编:赵龙
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918