BI与搜索技术的融合应用 门户当道

来源:CIO时代网  
2011/2/23 13:51:42
最近几年来,BI厂商一直在寻找让BI应用更加平民化或大众化的方法,但直到BI与企业搜索技术交叠之后,才使用户看到了BI应用下行的最绚丽曙光。

本文关键字: BI 搜索技术 融合 应用

“无来源”数据获取的理想化图景是,企业搜索引擎将成为用户访问企业所有信息的统一入口,BI与搜索的集成系统能够屏蔽结构化数据与非结构化数据的差异,无论数据存储在什么位置,系统都能够按照用户在搜索引擎中输入的查询请求交付所需的数据,用户并不需要知道这些数据存储在企业IT系统的什么位置。而在现阶段,企业搜索引擎主要关注对HTML、PPT、PDF等企业文档的检索,对于这些文档导向的数据资源,一些搜索引擎可以做出关于语义或数据的智能化判断。

黏合剂的制造者

前面提到了BI与搜索融合的两大好处,即让BI数据更易于访问,以及整合结构化与非结构化数据。但就目前BI或搜索厂商的实现能力看,BI与搜索的融合仍是一个需要不断充实和完善的理想框架,其中的技术难点我们将在后面展开讨论。但令人振奋的是,在这一技术交互地带,已经聚集了现今最主流的搜索和BI厂商,厂商之间的频繁合作大大增加了两种技术融合的黏性。

Google OneBox for Enterprise(简称Google OneBox)的推出曾被一些分析家评价为“划时代事件”。这款于2006年4月面世的产品使Google的专用搜索设备除文本之外还可以搜索保存在数据库和数据仓库中的结构化数据。Google OneBox发布后,众多BI厂商旋即展开了针对该产品的集成计划。目前,已经建立其BI产品与Google OneBox之间链接的厂商包括:Cognos、InformationBuliders、甲骨文、SAS、海波龙(Hyperion)和Business Objects。Business Objects在2006年5月推出了基于Google OneBox的企业级搜索解决方案,并计划在2007年上半年推出一套对其BI数据进行文本搜索的工具。海波龙在2007年2月推出了HyperionSystem 9 Smart Search for Google,该产品支持基于Hyperion System 9知识库的报表、仪表盘、财务报表的定制,同时能够实现对企业中多种非结构化数据(例如邮件、办公文档、文本文档、PDF文档)的搜索。

在Google OneBox表现出强劲凝聚力的同时,IBM和微软也相继发布了与此相关的新的产品和特性,同时厂商之间围绕BI与搜索的合作还迅速激发了联动效应。2006年12月,IBM和Yahoo共同发布名为Yahoo版IBM OmniFind的免费企业搜索应用,Cognos宣布其Cognos 8 Go!搜索引擎与OmniFind进行链接。Fast Search and Transfer公司将其企业搜索平台与Cognos 8 BI解决方案结合,实现向员工直接交付企业内容。2007年1月,Information Buliders推出WebFocusMagnify,这是一种索引结构化数据并在搜索结果中提供BI报告的搜索导航工具。另外,X1Technologies的X1企业搜索平台支持对电子邮件、桌面文档等非结构化信息的检索,并且能够与后端搜索建立联邦关系。

融合的高难度

BI与搜索技术融合的构想一经提出,就被寄予了厚望。人们希望这种融合能够解决那些长期悬而未决的问题。以Google OneBox为代表的企业级搜索产品的成熟更是让BI行业发生了很多改变,但我们也必须正视这一领域所面临的困难。

传统BI所实现的结构化数据搜索无法向用户提供上下文关联信息。比如,用户可以打开一个库存数据库,但是却无法获得数据库之外像货品照片、库存位置地图等关联信息。有专家表示,这样的问题最终会通过元数据搜索的介入而得到解决,就像在数据库领域XML所获得的成功一样。但是在目前,海量的结构化数据与非结构化数据的结合仍是一个难题。

非结构化数据搜索的挑战在于,如何驾驭如此庞大、高容量的文档信息。以一个拥25000名员工的企业为例,每个员工每个工作日处理70封邮件,那么该企业每年出于法规遵从目的需要存储的邮件数量就达5亿封,还要保证这些邮件是可搜索的。加上其他需要存储和搜索的HTML、Word、EXCEL、PPT文档,搜索指令仿佛“大海捞针”。

作为一位资深BI人,神州数码移动事业部的刘庆认为,BI与搜索的融合不是单纯易用性的改进,需要解决的关键问题包括实施成本、技术标准化等。他表示,在2006年曾经有国内的企业有意尝试企业文档的搜索,但真正把搜索系统与BI系统结合起来的用户很少。“两年之后,我们可能会看到比较成功的案例,而BI与搜索的深度融合可能要在5年以后。”刘庆说。

虽然现有的解决方案已经能够支持企业对BI与搜索系统的同步部署,但刘庆强调,分步实施仍是最佳选择。“实施者需要协调BI和搜索的部署特性,BI项目强调以客户应用为中心,而搜索强调技术标准化,在技术融合过程中需要加以调和。同时还应该考虑好系统集成之后推什么应用,是报表还是数据钻取?对客户而言,现实的做法是先把BI系统做好,这样搜索才有价值。”他说。真正的融合应该是无缝的,BI与搜索在现阶段的融合表现显然距离这一标准还有很大距离。

其中,结构化和非结构化数据搜索怎样自然结合是症结之一。SAS的张天峰在BI行业拥有近15年的从业经历。他表示,结构化和非结构化信息的搜索技术是截然不同的,非结构化搜索的技术也有进一步的细分。非结构化数据搜索应该被更加准确地定义为文件检索技术,包含检与索两个方面。检就是文档归类,在这一领域,SAS等厂商所提供的文本挖掘(Text Mining)技术正趋向于成熟;索就是搜索,目前最成熟的是以Google为代表的蜘蛛(Spider)技术。

责编:流沙
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918