【畅享网原创】随着信息系统日益成为支撑企业运转的核心要素,以及企业服务意识的增强,中国的企业管理者对于灾难备份的重视程度也在不断提高。不过,灾难备份专业性很强,一些企业的信息主管,包括企业管理者对灾难备份的认识仍然有大量误区,导致企业在灾备建设方面花费不少,效果却不佳。
企业的数据中心经常面临哪些威胁?怎样才能建立一个有效的、投入合理的灾难备份系统?日前,畅享网采访了美国飞康软件公司中国区技术总监颜军,让他来为企业解开疑惑。
美国飞康软件公司中国区技术总监颜军
企业经常面临哪些真实的威胁
企业数据中心经常面临哪些真实的、高概率的威胁呢?我们谈到容灾备份,常常把灾难想当然地与火灾、水灾、地震等自然灾害联系在一起。颜军认为,这些灾害对用户来讲仅仅是灾难的一个方面,并不是灾难备份所要防御的重点目标。那么哪些威胁是需要企业重点防御的呢?
在国家标准中,灾难的定义是指由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到指定时间的突发事件。在这个定义里面,并没强调灾难是因为自然的原因还是黑客的原因引起的,而是说任何原因都能够引发应用系统和业务停止运行,在短时间内不称其为灾难,超过了指定时间之后,就称为灾难。
灾难可分成三大类:灾害、严重故障、一般故障。这里面讲的灾害就是指传统意义上的火灾、地震等;严重故障一般指数据库瘫痪、存储设备损坏等,主要指设备的故障;一般故障指人为攻击、人为数据删除等。“在这三大类灾难里面,灾害发生率只占到3%,严重故障和一般故障占到97%,而这里面一般故障与严重故障之比为6:4,严重故障和一般故障占到了灾难发生率的很大比例。”颜军说。
在数据中心比较多的一线城市,灾害发生的机率非常小。企业灾备系统不应该只做好针对灾害的防御就高枕无忧了,而是要能够有效防御高发的严重故障和一般故障。事实上,很多企业的灾备系统都只是针对发生率仅为3%的灾害的,大量的灾备厂商的技术也只针对灾害。而当企业的信息系统发生故障时,企业如果没有针对这类故障而设置的灾备系统和快速反应机制,很可能会发生严重的数据丢失事件,这对企业自身的业务运行和用户体验都有非常大的负面影响。
企业如何有效应对灾难
我们知道,无论是灾害、严重故障或是一般故障,事情的起因不分大小,如果不具备防御能力,给企业造成的后果却可能相同。所以企业必须对任何导致灾难的诱因都要予以防范,否则小事情也能够引发大灾难。最典型的例子就是2010年2月3日下午,国内某大型银行出现长达4小时的系统故障,其间柜台业务、网上银行、电话银行各项业务均不能办理。颜军说:“当时该银行的数据库没有任何物理上的损害:既没有着火,也没有停电,而是源自于数据库在一定压力下的一种表现。”虽然该行有灾备系统,但最终“没敢切换”。
在企业实际的灾备实践中,有一个奇怪的现象,就是在灾难发生的时候,很少有企业敢把产生数据切到灾备中心。当然,之所以有些企业在数据中心发生故障时不敢启动灾备系统,不排除其灾备系统仅仅是一个虚架子,灾难发生的时候,灾备系统无法恢复数据,信息部门不愿意捅破这层窗户纸。而更深层次原因在于,即便是企业具有完备的灾难备份系统,信息部门也不愿意切换,因为这样做影响面大、风险高。
在企业的灾备流程中有明确规定:数据切换到灾备中心需要企业一把手签字,这就意味着信息主管需要写申请、等待领导小组讨论审批,影响的范围扩大了,事件处理的时间也延长了。同时,数据中心恢复正常了,在从灾备中心向数据中心导入数据的时候,很有可能会发生数据丢失等意外的错误,而且备份回来需要多长时间也不能预测。尤其在利用磁带恢复数据的时候,如果磁带在某个地方断了,那么之前复制的所有数据都会全部丢失,这时信息主管的厄运就来了--现场被覆盖了,无法逆转。因此很多信息主管在系统发生故障的时候都会在现场自己修复,或者让灾备厂商的专业人员来现场进行恢复。
由此可见,灾难备份并不是简单的数据复制,更重要的是数据复制之外的东西——克服错误。那么怎样才能让企业无需切换到灾备中心,在现场就能解决问题呢?这就要求灾备系统既要具有对灾害防御的能力,又要有克服错误的能力。要做到这一点,灾备系统必须要有复制和历史恢复的能力。颜军对畅享网说:“飞康的系统既能够进行数据复制,同时在本地和异地都有历史轨迹保存技术,在生产和灾备端都能找到历史轨迹。”说得更形象一点,就如同银行的监控系统能够保存现场的轨迹。比如在监控录像中我们只需要用鼠标拉到某一时间点上,就可以找到某一时间点的现场。
我们知道,RPO(Recovery Point objective)和RTO(Recovery Time Objective)是衡量容灾系统的两个重要指标。RPO是指灾难发生后,容灾系统能把数据恢复到灾难发生前时间点的数据,它是衡量企业在灾难发生后会丢失多少生产数据的指标。RTO则是指灾难发生后,从系统瘫痪导致业务停顿之刻开始,到系统恢复至可以支持业务部门运作这两点之间的时间。简单说来,RPO一个是企业能够容忍的最大的数据丢失量,RTO是能够容忍的最长的系统恢复时间。企业的用户都希望无论发生任何问题,灾难发生对企业生产毫无影响,数据不丢失,系统的恢复时间尽可能地快,也就是希望RTO=0,RPO=0。
飞康理解的RPO分成两类:一个是静态的RPO,一个是动态的RPO。动态RRO不是以现在时间算起,而是指我们想让系统恢复到哪个点,系统就可以恢复到哪个点,相当于RPO=0。在企业的实际灾难发生的现场中,从事故发生的那一个时间点开始,到报告到信息部门,总会有一个时间差。比如银行的系统瘫痪的时候,有一段时间的账是乱的。等到业务员给技术部门打电话的时候,可能已经过去5分钟了。在这个时间段内,系统已经不工作了,或者说是异常工作。但如果能够实现让故障发生之前的数据0丢失,那么就可以实现动态的RPO为0。而具体到故障点之后的数据,比如在系统正在出错的时候,又有员工录入了几条数据,这部分的数据是任何灾备技术都无法恢复的,企业可以在系统恢复正常之后通过补单子等方法把部分数据再录入进去。
“数据复制技术保证两端的一致性,克服错误的技术保证历史的可恢复性。数据复制技术是不具备历史可恢复性的,有了历史可恢复性,才能有多种手段,帮助我们找到正确的时间点,和正确的记录。”颜军说。飞康公司在中国长期为企业做应急灾备、演练和实际救助,拥有丰富的实践经验,并且擅长应对企业频发的一般故障和严重故障。颜军认为,导致灾难应急巨大差异的主因是技术路线,他建议企业要选择正确的灾备方案,以达到有效应对灾难的目的。
怎样降低企业灾备系统的总体拥有成本
很多企业对灾备技术不是很了解,一次性投入过大,一旦选型失误,那么前期投入的资金浪费将十分惊人。我们可以从采购成本、扩展成本、运行成本和维护成本这四个方面来看如何降低企业灾备中心的总体拥有成本。
首先,为了降低采购成本,颜军建议用户可以采用分步走的方式进行投入,尤其用户预计投入比较大的时候,这种方式能够很好地保护用户的投资。分步投入,即使第一阶段选型错误,至少没有损失全部投资;而且采用分步走的方式,还可以对网络和应用体系进行不断更新。
其次,要选择可扩展的技术以降低扩展成本。我们知道有些厂商的技术是垄断的,无法用其他品牌的产品进行扩展。如果企业的灾备中心需要扩展,有时就不得不把原有的产品废弃不用;或者有些厂商在企业第一次购买的时候价格很便宜,但是当企业的容量倍增,再购买新的产品的时候价格就很贵,又是垄断性的技术,企业的扩展成本将无形中加大了。用户在考虑灾备方案的时候,往往会问颜军:“我们想一次就建好,先建同城还是先建异地?或者说建两地三中心?”颜军则建议用户选择一个可扩展的技术,先在企业的局部提供服务,之后再扩展到整体。企业应该选择一个优良的、先进的、可扩展的,面向未来的架构,以后再进行投入的时候费用就会越来越低。
第三,要选择运行成本低的灾难备份系统。运行成本主要由网络和电力组成,而这其中网络的成本占得很高。颜军说:“大型银行网络成本一年在1000万元左右,中型银行在100万元左右,小型银行在20~30元万之间,采用的技术不同,运行成本可能相差10倍,这个差别相当惊人。” 企业在建设灾备中心时,要考虑采用何种灾备技术以降低网络运行成本。
最后,管理的不灵活性会导致高维护成本。由于灾备技术比较复杂,80%~90%的用户自己不能管理灾备中心。而且,灾备厂商往往也不为企业授课,每年厂商都要到企业里面为其做专业服务,费用不菲。如果企业自己的技术人员能够管理灾备中心,在数据中心发生故障的时候能够自行处理,就可以节省大量的厂商专业服务费用。不过,目前很多企业已经开始要求厂商教会自己的技术人员进行维护,在招标书里常常明确提出要求:应急响应的团队来自于使用方,厂家必须让使用方具备自行操作的能力。颜军认为企业的这种做法很正确,因为现场应急影响小,企业不能把快速恢复数据的希望寄托在厂商身上。企业一方面要选择能够为企业提供技术培训的厂商;另一方面,选择的技术本身也要非常易用。
除了上述四个方面之外,企业还可以让灾备中心承担一些负载。比如可以把决策支持系统放到灾备中心,进行数据的提取、分析,有效利用灾备中心,使其产生新的价值。
企业的灾难备份建设已经成为保障企业正常运转不可或缺的一个组成部分,企业的领导人及信息主管需要消除对容灾备份的误区;选择能够及时、有效恢复数据的灾备软硬件技术,并且选型的时候要注意怎样能够降低企业的总体拥有成本。这样,企业花费不多,就能够拥有一个强悍的、反应灵敏的容灾备份体系。