|
刘冠川:大数据改造传统产业大数据下的传统行业的网络化,改造的过程有两个方向,一个方向是互联网公司主动进入,另外一个是传统行业内部变化。 怎么样设计这个系统呢?把这个系统分成三大模块,分别是数据的采集和预处理模块,还有内部的处理模块。 数据采集的预处理有几个,一个是传统媒体自身积淀,还有从互联网上获得的标准,通过网络把这个信息抓取过来,然后到我们大数据的分析平台上做一些处理。在大数据时代以前,我们的存储平台很多数据的挖掘分析是基于结构化的数据的;到了大数据的时代,数据的种类变得丰富多彩了,有文本、有视频、图片等等各种各样的数据。对这些数据进行分类,结构化的数据就存到结构化的数据库里面去,因为数据量非常大,传统的数据是有一定局限性,所以我们变成一个大规模的系统;另外的图片和文本的数据放在我们这个邮件系统中。我们同时利用了现在的一些技术来去存。 存储介质最上层是一体化的,所有的都是有文件的数据库,通过一系列的APT图库,实现一体化。最上面的接口是统一的,统一的编程结构会变得非常简单,很多企业也想做大数据,你要实现的是有很大的学习的工作量,我们可以把所有这些东西变的非常简单。我们还有一个管理系统。这是一个数据的一个过程。有图片,然后还有分流,内容进行打标签,然后自动存储到高性能的库里面,对图片存到系统里面。最后形成一个网状化的知识库结构,我们通过一个简单的数据可以搜索一系列的和事件相关的人物、地点和事情,这样的话要求做一些精编的总结,大家都在上网可以看到类似的内容,像金正日执政百天等等的。都是以一个时间的形式展现出来。 通过这样一个系统,提升精编和专业业务的功能性,从另外的角度,对传统媒体的发行效果都得到了提升,反馈量也上去。 曙光做传统行业改造的力度非常大,但应该有更多的企业家来做这件事。我们希望把我们应用实践当中沉淀下来的一些平台进行分享,我介绍一下曙光大数据分析处理的平台。现在做大数据的非常多,有超过五百家的公司,有上千个产品,还有零售的解决方案,我们怎么样做一体化的解决方案呢?这是我们曙光的一个大数据分析的系统的架构。各种数据源,有实时的,有非实时的,有半结构化,结构化的,通过我们基础设施导入到大数据平台下,存储到文件系统,然后生成对数据的检索和分析。分成三大方向,一个是用户行为分析(还有多媒体的音视频的智能分析),在两边有大数据安全体系和运维体系,维护整个的大数据的平台。上层提供一些大数据的可视化工具,进行角色推进、数据统计、行为分析和海量图像检索等等。 整个平台中最核心的是XDATA,这是处理来源是未知的,可以结构化的实时数据和非实时数据,可以处理各种不同的数据。这是整个的大数据服务的中间键,顶层是数据。然后我们还有这种原数据进行数据的管理和系统管理,然后还有数据的加载查询的功能。 我们做了一个接口,不管是顶层是什么我们都屏蔽掉了,对上层提供一个接口,这样的话使得难度下降,使得工程的推进速度有了大大的提高。 我们有很多人提到Hadoop并不是一个成熟的企业级的应用,有很多的问题,像单一的故障点等等。我们做了一个完完全全的存储系统,这个存储系统既能做到计算,同时又可以提供很多接口。 另外,我们做了一个非常完善的管理系统,刚才知道一个一个谈的话非常的麻烦,各种各样的设计。这个平台是一键式的安装,编写的管理,多维度的监控,全方位的手段,这是我们覆盖的一些功能。 最后是我们做一些硬件,我们云存储有大的存储服务器,可以提供这种大数据的分析和运用。最后总结出这样的特点,高性能,易使用,高可靠,成本低,服务保障和可定制的。
责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|