但彬:汇聚大数据,发掘新能量

来源:eNet硅谷动力  
2013/12/17 11:26:25
Informatica大中华区首席产品顾问但彬在会上发表了题为《汇聚大数据,发掘新能量》的演讲。

本文关键字: 但彬 大数据

但是信息从哪里来呢,可能既来自于传统的交易业务,可能也来自于我们社交媒体的数据,这些数据可能是需要给我们传统的一些结构数据进行整合,比如说如果我们某一天开通了微博。那么,微博实名认证是否能把我自己在微博上发言和我表达的信息和在业务上的交易行为串起来,这是最重要的,如果错位了这些微博拿过来可以做什么,只能做统计分析。为什么叫做统计分析,一开始我们谈到了所谓的案例,提到了很多的案例都不是,比如说这个人的习惯是什么,不是统计的,是讲这个人的消费行为的统计。一个分析。统计和分析是什么?这一群人都是晚上从中关村跑到朝阳区,还是说跑到丰台区这是一个统计。这种统计只能用于规划,而不能用于经常的个体的项目,而帮助我们的是期望未来,得到的数据是每个个体是完整的,可以丰富的描述每一个个体在各种系统,各种的环境下的一些行为来使一个人变得有血肉,360度。很多的企业在做这件事。都在谈以客户为中心,实际上很多企业,老企业可能并不是以客户为中心来建立的,我们去店庆,原来去办手机的时候,只关注你买的是哪一个号码,根本不知道,也不想知道你是谁,我们去银行的时候,只是想办一张卡,也不关注你是谁,只是想你的账户和我有关系。现在的银行关注什么呢,你在另外一个银行存了多少钱,在我这里贷款多少,在网上交易的数额是多少,这是我们关注的所有的客户的账户交易行为,所以这是建立相应的客户信息。同时我们把各个业务系统数据去丰富,因为只是有人的性别是没有价值的,我们需要线上各种交易,我们还要知道他的位置信息,经常如何流动,经常去什么地方,或者是说他经常去什么网上的相关的地址。他是否有跟公司的员工有什么样的关系。跟我的产品有什么样的关系,喜欢银行的哪一类产品,喜欢在淘宝上购买的产品,这些信息完了以后是不够的,之前我们的客户会关注说这个人是否是我的微博客,或者是说我微信的圈子里面的人,能不能知道他日常的行为,通过这些东西可以构建这么一棵树,这个人和什么样的人有关系,可能这群人是来自于他的同事,有的是他的客户,有的是他的家人,构建这种关系以后我们如果把相关的大数据和云端数据加入的时候,甚至可以关注他关注谁,被谁关注,他圈子里面有一些什么样的人,这是所谓针对性营销的信息的集合点,我知道说他的圈子,他是在汽车轮胎里面是领袖,我们不但知道在交易过程中,还知道在业余喜欢什么,喜欢谈论什么,他是什么车的用户,他圈子里面卖的是别克还是说记谱。

除了我们开始的举的例子,在合规和风险的领域都会用到数据集成。我们在很多的点,在数据领域很多点都存在风险,比如说我们在系统的领域,我们在数据的隐私保护的领域,在这个政策,策略性质的领域,或者是说在我们的行业的和微信的领域都可能存在这些风险,这是需要在整合的数据基础上做的数据,最简单的是我们银行的某一个报表,这个报表是监控企业的风险,这些风险当你数据不全的只能去编制报表,编完报表已经不合规了,可能面临着罚款。所以在很多的行业面临着监管越多,风险就越大。

然后在开始提到的数据的隐私的领域,我们的手机每天可能,我每天至少接到十个和理财,房子、保险的变化,不管你如何加入黑名单,每天总有新电话过来,因为这些人已经把你的信息卖了无数遍了,企业应该如何具备什么样的责任呢,应该在数据报的时候有自己的隐瞒,不应该把自己叫出去,有电话号码,而不应该有身份证,我们一直在担心身份证不能到处给,其实你不用担心了,你的身份证已经到处都是了。这些都是从银行的后台跑出来了,因为只要把数据库一导出,数据就都出去了。也有可能我和银行做一个测试,银行说给你两千万的客户做一个测试,其实都有了。其他的约束都是瞎掰的。所以只能给他假数据,怎么给他假的呢,把名字去掉,身份证去掉,电话号码去掉看起来是真的。

另外如何应对大数据,我参加大数据的会太多了,我自己其实某种意义上说我都有点疲,为什么?因为其实大数据领域推动起来并不只是我们单纯的去说就可以解决了。有很多的技术不能推动的原因是大数据领域的很多的方法缺乏很好的东西,我管它叫做一个四面漏风的房子,特别是在机遇Hadoop的平台更是这样,百度可以用,淘宝也可以用,但是很多的企业不能用。安全问题,可靠性问题,性能问题都是问题。这些问题如何去用,实际上Informatica的发展方向是什么,希望说我们能不能把传统的技术,平滑的过渡到大数据的平台上,现在的大数据的平台厂商,有很多的平台厂商,平台厂商是唯一的标准,而不是漫无目的的发展。那么这个平台上有Informatica理的逻辑,如何在Hadoop平台上去运行。如果说我们手工的把这个转换成原来的,把传统的数据变成这些东西,我觉得这个十年都干不完。十年可能已经不用了,有新的出现了。因为Informatica是想推出一个概念叫做数据虚拟机,这种情况下环境越来越复杂了,能不能用一种像虚拟机一样的概念把很多的东西屏蔽掉,让很多的使用者看到这个系统上面的一个接口,只要把这个东西扔给这个接口,然后让人看到有这个东西实现,然后Informatica看到这个虚拟机的实现,把开发的东西扔到这个平台上,把这个Hadoop也好,云端也好可以一如既往的去运行。

所以上面的传统信息交换到数据集成等等都可以过渡到未来的,或者是现阶段的各种各样的平台上,减少企业的分析。我们在12点就可以下班,而不用坚持到两点调试新的代码。对开发者来说是透明的,看起来是原来一样的,而且里面已经是跑的是Hadoop上面的一些类似的一系列处理逻辑。

时间到了,谢谢大家。

 

共3页: [1] [2]3 下一页
责编:王雅京
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918