某某公司灾难恢复技术方案改进版加案例版.docx
某某公司灾难恢复技术方案改进版加案例版灾难备份系统集成项目技术响应文件1 41.1 项目概述41.2 项目目标与原则41.2.1 项目目标41.2.2 项目建设原则51.2.3 项目建设内容82.1 技术方案设计92.1.1 用户现状分析92.1.2 技术方案设计原则.92.1.3 技术方案拓扑图102.1.4 技术方案概述112.1.5 技术方案优势总结.122.1.6 灾难恢复方案122.1.6.1 关键业务系统中普遍存在的问题142.1.6.2 实施业务连续性方案的意义152.1.6.3 惠普灾难恢复方法172.1.6.5.23某某公司系统数据容灾的远程复制182.1.6.4 容灾系统的管理202.1.6.4.2 管理制度与操作规程202.1.6.4.3 灾难的预防212.1.6.4.4 灾难恢复计划的测试、试运行与保护212.1.6.5 培训测试及保护222.1.6.5.2 培训222.1.6.5.3 测试灾难恢第计划222.1.6.5.4 测试方法232.1.6.5.5 测试的频率232.1.6.5.6 可能引起变化的因素232.1.6.5.7 测试流程的制定232.1.6.6 惠普公司容灾实施服务内容252.1.6.6.2 方案实施核心服务(CoreService)252.1.6.6.3 方案实施增值服务(ValUe-AddedSerVice)272.1.6.8 HP容灾解决方案优势292.1.6.9 产品配.匿302.2软件系统方案322.2.1 实现容灾系统的软件配置.342.2.2 数据复制模式及实时性.352.2.3 容灾数据的使用362.2.4 容灾数据的一致性.372.2.5 容灾方案的恢复时间及恢复点.382.2.7 VxVM及VVR复制对系统的性能影响402.2.8 容灾技术参照412.2.9 Symantec/Veritas系统实施案例421.1.1 EVA8400与IBM480。的比较优势:441.1.2 481.1.3 新特性491.1.4 功能与优势491.1.5 虚拟化概述:501.1.6 软件解决方案531.1.7 EVA8400的保修服务541.1.8 技术规格562.4灾备管理及应用服务器572.4.1 设备选型572.4.2 机架式服务器配置设计.572.4.3 机架式服务器选型.582A4惠普服务器管理系统.612.4.4.2服务器系统管理软件682.4.4.2.1 远程管理及操纵682.4.4.2.2 全管理692.4.4.2.4 虚拟环境管理693惠普服务实703.1 技术服务实施计划703.1.1 技术服务实施概述.703.1.2 项目人员构成713.1.2.2惠普项目构成员职责713.1.3 服务实施计划进度表.723.1.4 服务准备阶段733.1.5 技术服务现场实施阶段.744培训服务794.1 培训服务内容794.2 课程介绍804.2.1 EVA磁盘阵列管理培训804.2.2 备份系统培训804.2.3 灾难恢复培训815技术支持与售后服务815.1 中国惠普技术支持机构分布状况815.1.1 惠普上海支持中心及要紧成员介绍.825.2 设备质保期内售后服务方窠835.2.1 保修内容835.2.2 保修期内服务流程.855.2.3 保修期内紧急故障处理流程.865.3 保修期后服务内容875.3.1 基于服务器或者存储设备的软硬件支持服务885.3.2 基于服务器或者存储设备的主动式服务915.3.3 可订购的技术服务.915.3.4 设备质保期后服务价格.935.4 免费技术支持936设备清单941项目简介1.l项目概述随着社会飞速进展,在越来越多的企业实现了数据、应用大集中以后,数据的安全、业务的连续性等就成了企业管理者务必认真思考的问题。自然灾害、人为失误,这些大大小小、大概是防不胜防的灾难事件给我们的正常生活与工作带来了许多负面的影响,比如经济缺失、信誉受损,甚至可能导致企业倒闭。为了避免或者者尽量减轻这些事故或者者灾难对业务的影响,企业务必建设完善的数据备份及灾难恢复系统。灾难恢复对企业而言,已不再以单纯的IT环境为对象,而是将快速恢复整个业务流程及运营作为最终目的,其中的关键,就是恢复核心数据及关键业务应用的运行。因此,企业的灾难备份策略,要围绕“快速恢复整个业务流程及运营”这个最终目的。而灾难备份方案,则要紧紧扣住“恢复核心数据及关键业务应用的运行”这个关键点。首先是数据级的灾难备份与恢复,紧接着是要紧业务应用的灾难备份与恢复。灾备系统应能达到:一旦主系统出现问题,能在数秒钟内自动而正确无误地切换到灾备系统,保持整个系统继续运行;待主系统修复之后能很方便地复原,使整T系统继续正常运行。1.2项目目标与原则121项目目标结合某某公司IT基础架构的现状,规划将IBM4800上的数据容灾至容灾中心的新磁盘阵列上。具体需要实现下列具体目标:(I)高可靠性保障系统数据容灾之后务必保证其正确性与完整性,不能有任何数据丢失,尽可能减少业务系统的停机时间。(2)高性能设计新的存储上线后将面临大量的用户业务请求,与不断新增的业务内容,用户同样不能忍耐任何性能瓶颈,因此要求提供的存储设备是在大吞吐量与海量数据环境中具有高性能设计的产品。(3)高扩展性系统数据量在未来会有不断增长,因此要求提供的存储设备具有容量与处理能力上无缝的扩展能力,存储设备的初始容量要能够满足未来3-5年的数据存储要求。(4)数据安全性磁盘、RAlD级别的故障,业务不中断,数据不丢失;阵列级别的故障,业务中断不超过1小时,数据不丢失;机房级别的故障,业务中断时间可预见,数据丢失为分钟级;发生误删除、病毒等逻辑错误,数据在小时级别恢复;(5)高效易管理性通过灵活高效的灾难恢复技术,能够将灾难恢复系统设备与灾难恢复流程统一的管理起来,降低管理的复杂度,满足系统对恢复点目标与恢复时间目标的要求。1.2.2项目建设原则在系统的建设过程中,我们遵循的建设原则是:统一规划,分步实施,目标明确;坚持科学性、先进性、有用性、可靠性与标准化等原则;调动各方面的积极性;制定严格的网络安全机制、用户使用原则与违约处理原则;特别强调应用与服务。(1)统一性原则为了能够更好地实施某某公司灾难恢复系统,我们坚持某某公司统一领导的原则;根据实际业务流程与管理范围,对系统规划、系统实施进行统一的部署;系统建设要统一组织实施,即表达在要紧业务软件统一开发、使用人员统一培训等方面。(2)持续进展原则工程设计方案应立足当前,着眼长远;习惯电信设备进网管理系统业务进展的需要,树立全局意识;进行统一、长远的规划,逐步实施。(3)科学性原则应用系统的设计遵循科学性原则,包含数据结构与标准体系要符合办公系统信息的内在逻辑体系,同时,要充分考虑人的的认知结构。选用适用的标准与科学的方法是本方案遵循的科学性原则。以软件工程理论与当前软件开发技术的理论为基础,应用系统架构完全使用这些已经得到实践证明的科学技术,以科学理论为准绳,来指导我们的系统设计与开发工作。(4)标准化原则系统建设将遵守国际标准、国家标准及行业标准,使系统具有良好的兼容性。从计算机技术与网络技术与通信技术的进展来看,标准化无疑是技术突飞猛进的一个重要因素,只有使用标准化的技术与标准化的协议才能与国际接轨,才能与全球信息高速公路接轨,交换数据与信息资源,才能保证系统的开放性。系统平台的选型、系统的接口、数据库标准等等务必使用有关的国际标准、国家标准。没有国际、国家标准的地方根据应用的要求需要制定自己的标准,以保证将来系统的扩展性。系统平台务必使用国际标准的数据库来实现空间数据的管理,对各类应用服务提供标准的服务接口与规范,支持开放性技术,以方便不一致应用需求。保证设计实现的质量,与便于日常保护与系统的扩展。系统应建立完备的数据标准,数据的组织应符合有关要紧国际与国家标准;关于未有明确规范的部分,则建立自己的标准并予以规范。(5)先进性原则系统开发需使用成熟的高新科技,以目前较为先进的方法实现需要的功能,既反应当今科技的先进水平,又具有进展潜力。(6)有用性原则有用性就是能够最大限度地满足实际工作要求,是每个信息系统在建设过程中所务必考虑的一种系统性能,它是自动化系统对用户最基本的承诺。因此,从实际应用的角度来看,这个性能更加重要,为了提高办公自动化与管理信息系统中系统的有用性,应该考虑如下几个方面: 系统总体设计要充分考虑用户当前各业务层次、各环节管理中数据处理的便利性与可行性,把满足业务需求作为第一要素进行考虑; 采取总体设计、分步实施的技术方案,在总体设计的前提下,系统实施中可首先进行业务处理层及管理中的低层管理,稳步向中高层管理及全面自动化过渡,这样做能够使系统始终与用户的实际需求紧密连在一起,不但增加了系统的有用性,而且可使系统建设保持很好的连贯性; 全部人机操作设计均应充分考虑不一致用户的实际需要; 用户接口及界面设计将充分考虑人体结构特征及视觉特征进行优化设计,切合实际的熟悉工作人员与用户的使用习惯,界面尽可能美观大方,及具有良好可操控性。(7)可靠性原则系统设计时,首先考虑选用稳固可靠的产品与技术,使其具有必要的纠错能力,同时适合计算机网络通信技术的更新换代。各应用系统的运行,365天不间断,要求系统能长期稳固可靠地工作。在系统发生故障时,要有及时有效的备份办法处理,使其不影响其它应用系统的运行,保证系统数据不丢失与迅速恢复。(8)可扩展性原则计算机技术、网络技术、通信技术正处于一个不断飞速进展的时期,随着公司信息化建设的不断推进,所涉及的业务的需求会不断的飞速上升,能够预料需求也是不断增长变化的。在软件结构设计过程中,务必充分考虑未来信息的增长趋势,尽量选用可升级的结构,为系统功能的扩充与技术的平滑升级提供极大的方便。因此整个系统的建设要遵循可扩展性的原则:系统习惯灵活多变的业务逻辑,充分发挥数据与应用逻辑相分离的思想,习惯用户不断变化的业务与功能上的拓展。系统具有安全方便的移植能力,为用户系统的升级提供保证。另外,服务端的进展是有一个过程的,相应的负荷也是一个由小到大的过程。按最经济的原则,将系统规划成一个扩展性很强、且在扩容升级时浪费最少的系统。遵循开放性原则,能够支持多种硬件设备与网络系统,软件支持二次开发。应用系统使用标准数据接口,具有与其他信息系统进行数据交换与数据共享的能力等。应用软件顺应当今软件设计进展方向,使用浏览器/服务器(B/S)结构与模块化设计,使用模块化,标准二次可开发的组件设计思路保证所设计的内容具有最好的可扩展性。(9)安全性原则在线业务系统的特点决定了安全性将是软件系统设计中首要考虑的因素。系统操作权限要有严格设定,数据库的安全措施是保证系统的安全运行的基础。除了在硬件/网络、操作系统、数据库一级提供可靠的安全保密措施以外,上层应用系统的设计也务必进一步强化确保用户数据在存储、传输、查询等过程中的绝对安全,杜绝非法用户未经授权地对数据进行修改与操作数据(10)可管理原则系统应具备安装快速简捷、配置方便容易、使用简单方便等特点。系统用户的素养千差万别,系统建成后,一定要适用于广大的系统使用人员。123项目建设内容项目建设内容包含: 在灾备中心建设一套系统的数据级别灾难恢复系统,防范本地机房站点级灾难,同时开发一套数据级灾难恢复计划,并做相应的灾难恢复演练与灾难恢复培训,规范后续灾难恢复计划的管理、保护与更新。 购置一套高性能、高可靠性、高可扩展性磁盘阵列EVA8400用于容灾中心。2技术方案描述2.1 技术方案设计2.1.1 用户现状分析某某公司在本地本地与异地均有服务器与交换机,本地与异地之间,通过光纤连接,在本地有一台IBM4800存储,现在需要在异地新购一台存储设备,以实现本地与异地之间的存储容灾。在本地灾难发生时,使数据与应用在一定时间内,2.1.2 技术方案设计原则根据我们对某某公司灾难恢复系统建设需求的熟悉与以往实施各大型项目的经验,我们认为,本系统在规划与设计过程中,应遵循下列一些原则: 开放性与标准性考虑到存储系统未来引进新的业务系统,使用的通信协议与数据格式都有可能不一致,因此,系统须支持多种标准的通信协议与数据格式,并完成数据格式的统一转换。同时,系统使用的计算机网络体系结构与通信协议要符合国家安全标准要求。我们将根据国际标准与国家标准,为用户建立一个开放、完善的系统,有效地保护用户投资。 成熟性与先进性系统要真正发挥出作用,首先务必能够稳固、正常地运行,这就需要建立在成熟的技术基础之上。而在兼顾系统成熟性的前提下,使用业界先进的技术,才能保证系统的先进性,使计算机系统发挥最大的效率,并随着技术的不断进展得到相应的更新。 可靠性与可用性使用计算机系统的目的就是为了提高工作效率,更好地实现本工程的各类建设目标。因此在系统的设计过程中,我们将努力使用各类先进技术来加强系统的高可靠性与高可用性,以保证系统连续、正常地工作。 可扩展性根据某某公司业务进展的要求,现有系统的设计务必具有一定的扩展能力,留有升级的余地,以满足业务的进展与快速、方便的联网。我们将使用结构化、开放的、易于扩展的体系结构,在充分利用现有资源、保护现有投资的前提下,保证系统的可扩充性,习惯业务的持续进展需要。 安全性与保密性建设系统软、硬件的选型与建设模式的制定都务必充分考虑使用成熟、可靠的产品与技术措施,保证系统的安全。同时在通过使用各类手段保证敏感信息的安全。 易操作性与可保护性现代计算机系统越来越复杂,这就对操作管理人员提出了更高的要求。一个技术再尖端的计算机系统,假如用户不能自如地进行操作管理,也不可能成为一个好的系统,甚至会导致系统仅仅成为一个摆设。因此,我们的系统将贯彻面向最终用户的原则,建立友好的用户界面,使操作简单、直观、灵活,易于学习掌握,便于用户使用与管理,以发挥系统的最大实际效益。2.1.3 技术方案拓扑图根据某某公司系统灾难恢复要求设计的架构如下图:2.1.4 技术方案概述结合系统对灾难恢复数据级容灾的要求,该方案使用新购买一台高性能的EVA8400,做为对原有的IBM4800的容灾,使用DL580服务器作为灾备管理的应用服务器,使用Veritas的VERITASVolumeManager软件,做为两台阵列之间的容灾软件。存储与备份系统设备配置方案如下:设备编号设备名称数量备注1磁盘阵列1台HPEVA8400,32个300G15KFC硬盘,配管理小家电,配CV管理软件IOT容量许可证,10根15米的LC到LC接口的光纤线,原厂机柜。3年7*24小时级别月艮务。2容灾软件1套VeritasVERITASVolumeManager软件。3灾备服务器8套HPDL580R052.1.5 技术方案优势总结惠普灾难恢复解决方案针对IT系统关于企业业务起关键作用的客户与监管审计机构对业务连续与灾难恢复有明确要求的客户量身打造,涵盖电信、银行、税务、电力、社保、保险、证券、基金、制造业等重点行业。业务连续与灾难恢复解决方案是惠普公司专为希望使用远程灾难恢复的方式实现关键业务数据保护的企业用户提供实施帮助而设计的,它通过惠普公司业务连续专家,项目管理专家与一系列通过验证的分析、设计、实施与测试服务步骤为您提供全面与详尽的容灾方案部署与应用,并帮助客户从技术、流程、人员三方面提高业务持续能力,保证企业的正常运作与进展,其服务内容要紧涵盖高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理、大型灾害的应对计划与策略与业务持续性管理团队建设与咨询、应急指挥中心与通讯系统等。HPEVA8400企业虚拟阵列旨在为大中型企业市场中的客户提供领先的高性能、高容量与高可用性“虚拟”阵列存储解决方案。与传统架构的存储相比,这些解决方案不但能够降低IT成本与复杂性,而且能够节约时间、空间与总体拥有成本。EVA专为迫切需要提高存储利用率与可扩展性的数据中心而设计,能够提供始终如一的高性能交易I/O,满足具体应用的需求,可轻松进行容量扩展,同时还提供即时复制功能与简化的存储管理功能。2.1.6 灾难恢复方案惠普公司为上海制造厂提供的灾难恢复方案具有下列特点与优势:/HP根据二十多年业务连续与灾难恢复建设经验总结归纳了业务连续与灾难恢复建设方法论,能够系统的指导容灾系统的建设,完整详尽的数据远程备份与灾难恢复方案,惠普能够提供从服务器、网络、存储、SAN,监控、远程集群等全面解决方案。避免容灾实施只是片面实施了存储复制/容灾实施内容包含技术、流程、人员三个方面,并能够协助用户制定灾难恢复计划(DRP)/大量实施案例,通过验证的容灾系统实施与支持能力,丰富的实施经验与人员,强大的专人支持IIP全球超过5000名关键系统支持工程师与600名通过认证的SAN工程师。HP公司目前在中国有40名售前技术工程师,70名资深的技术咨询工程师,与超过300名有丰富经验的安装调试人员与故障处理工程师,并有20多位容灾咨询顾问与多位通过国际容灾协会认证专家。以XP/EVA为基础的灾难恢复解决方案作为惠普公司成熟的数据保护解决方案之一,已经在国内为许多用户进行安装运行。我们希望利用最好的资源协助某某公司建立灾难恢复/恢复系统,同时在日常的保护中给予及时的响应,确保整个系统实施与运转正常。在今天的科技社会中,IT技术的运用已经渗透到了我们生活与工作的各个层面,为我们带来了以往任何一次技术革命都没有的便利与迅捷,能够说,由于使用了IT技术的新的生产方式已经基本上代替了原先的生产方式,成为现代社会运作与进展的主流,我们对计算机系统的依靠超过了以往任何一种技术。然而计算机系统在为业务的迅猛进展提供信息技术基础架构的同时,也带来了以往我们不曾发觉的负面因素。比如由于信息与处理的高度集中使业务运转过度依靠于IT系统,并会由于IT系统的突发问题而受到很大影响,严重的甚至能够导致业务系统无法正常进行。这些问题包含了进行系统检修与升级带来长时间的系统停机,系统自身的或者者人为的因素或者事故发生连锁性的扩大,与不可预见的故障与突发性灾难等等。如何避免业务运转受到影响,或者者使业务影响尽可能降到最低,这是每一个企业管理者务必考虑与重视的问题。某某公司通过长期的思考,如何切实有效的保障综合营帐等关键业务系统的连续运行已经成为某某公司管理层十分关注的问题。本方案涵盖高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理与大型灾害的应对计划与策略,业务持续性管理团队建设与咨询等诸多方面的服务,能够帮助客户从技术、流程、人员三方面提高业务持续能力,保证企业的正常运作与进展。2.1.6.1 关键业务系统中普遍存在的问题提高IT系统的高可靠性与IT系统的容灾建设早已不再是新鲜的话题了,随着许多电信运营商用户实施业务系统大集中,针对IT系统的高可靠性与容灾能力的需求日渐突出,很多电信运营商都已经实施了有针对性的容灾系统,同时更多讨论的是如何实现业务数据的有效保护与电信业务的连续性运行。然而,目前大多数容灾系统的建设还是存在许多问题的。这些问题中不仅有技术层面的缺陷,更多的是在流程与人员方面的不足。这些问题可能导致的直接后果就是当发生灾难时,根本无法实现应用系统的快速恢复,甚至可能导致业务运转的长时间灾难性中断。我们能够列举出其中的一些:1 .仅从产品功能层面考虑问题,最终建设的容灾环境仅是一个多种产品的堆积。仅实现了数据的远程复制或者者离线存放,没有进行灾难的各类场景测试与灾难预演,并缺乏灾难恢复机制与危机应对流程。发生灾难时,不明白到底数据或者者系统能否恢复正常。2 .进行了一定的测试与预演,但是缺少相应的灾难恢复计划与特殊情况下的行动指南,更没有全面的业务连续性计划。在真正发生灾难时,百废待兴、千头万绪的情况下,没有根据与参考,可能无法顺利进行有关操作。3 .有了灾难恢复计划等必要文档,但是没有及时的将IT系统,业务流程与管理人员等不断变化的信息更新,导致容灾手册成为一纸空文。4 .具备了以上的要素,但是容灾系统的建设局限在IT部门,缺少业务部门的参与与管理高层的介入与全力支持。发生灾害时,IT系统能够恢复但是业务流程仍无法恢复运转。除了以上列出的问题之外,还有许多问题如容灾系统的负载能力估计不足,实施过程中没有严格遵循高可靠标准,实施过程工作界面过多沟通不足,日常运维管理方面存在不足与漏洞,缺少厂商、系统集成商的后续支持服务等等都可能导致业务持续性系统建设的失败。除了以上的问题之外,另一类问题是项目小组仅将目光放在了大型灾难等突发事件的应对之上,而忽略了计划性停机对业务运行的影响。根据有关统计,非计划性停机只占13%的停机概率,而在非计划停机中大型自然灾难占的比例就更低了。因此在项目实施时,未能很好的优化现有系统与流程,没有充分发掘现有潜力,未能将日常操作流程与业务持续性目标充分整合,尽管实现了容灾但是仍没有从本质上解决持续性问题。HP公司提供的业务连续性解决方案是基于HP公司长期的实践经验与业界公认的业务持续方法论(BCP),结合客户的具体实际情况,使用业界先进成熟的产品与技术,由资深顾问与技术专家构成的实施小组遵循IT服务管理(FrSM)理念进行实施。充分考虑了以上普遍性问题,保证了项目目标的成功实现,同时HP公司能够提供整个容灾项目的整体解决方案单点后续支持服务,这一点完全不一致于业界其他友商仅能提供单一产品支持的服务模式。2.1.6.2 实施业务连续性方案的意义某某公司业务进展的速度是非常惊人的,这点可从业务连续多年快速的进展反映出来。这样的飞速进展使某某公司在单位时间内的盈利水平不断提高,因此,业务的间断直接意味着收入缺失;另一方面,提供高可靠性、高水准的客户服务也是某某公司保持竞争能力与市场份额的重要手段;随着支撑某某公司业务运营的IT系统建设的不断进展,某某公司在享受IT支撑系统带来的高效率、高盈利的优势的同时,其业务运作也更加依靠于IT系统的稳固运行,其结果是,一旦发生大的灾难,IT系统及其所支持的关键业务系统将处于瘫痪,用户信息、运营数据等也随之丢失,这样的后果,显然是某某公司不愿意看到的。因此某某公司对其计算机业务系统的连续运行,业务系统、业务数据的高可用性与业务计算机系统抵御灾难能力的要求也必定急剧提高。综上所述,某某公司建设灾难备份中心有如下的意义: 重要业务数据在灾难发生后得以保护。 重要业务在灾难发生后能够在一定的时间内恢复,连续运行。关于HP提供的方案,即使在本地的IBM4800发生宕机,数据仍可持续进行读写,完全不影响业务的进行,切换时间为零。 业务计算机系统抵御灾难的级别提高。 提升了关键业务系统的高可用性,减少计划性停机对业务的影响。 进一步提高某某公司在行业中的声誉,增强客户及潜在客户对企业的信心。 增加对竞争对手的优势。 EVA8400较之IBM4800,性能指标上更加先进(具体见本方案第44页“EVA8400与IBM4800优势比较表”)。能使容灾系统地高性能运转。2.1.6.3惠普灾难恢复方法2.1.6.3.1 什么是容灾系统容灾系统是业务永续运行的重要的构成部分。所谓灾难,通常是指引起关键业务的信息服务中断,且中断的时间及造成的缺失超出企业所能承受的范围之外的意外情况。引起灾难的因素很多,能够是系统环境中的软件、硬件故障,有意或者过失的人为破坏,还可能是因火灾、飓风、地震而引起的数据处理设备的损坏等等,只要造成了关键业务的中断,都是灾难。而容灾就是通过预先建立的备份中心、备份设备与备份数据等,在能够容忍的时间内恢复业务系统的正常运行,将企业因业务中断而导致的缺失降低到预定的程度。相关于业务永续运行来说,容灾强调的是企业的关键业务在灾难发生时的应对能力与恢复能力,即通过尽可能快速的、全面的企业业务恢复运作,将因灾难造成的缺失降低到最小程度。显然,它并不保证业务的零间断能力;实际上,容灾系统的整个灾难恢复过程务必会造成一段时间的业务中断。另外,也正是由于能够容忍一段时间的业务间断,因此事实上施难度、周期与规模都要远远小于实现业务持续性系统的建设。从广义上讲,任何提高系统可用性的努力,都可称之为容灾。本地容灾,比如主机集群:当某台主机出现故障,不能正常工作时,其他的主机能够替代该主机,继续进行正常工作。而我们平常讲到的容灾,特别是值得重视的容灾,通常都是指远程容灾。远程容灾能够这样懂得:在各行业企业用户的IT系统中,必定有一部分(特别是核心部分)是非常重要的,我们叫它生产中心。人们往往给生产中心配备一个备份中心,该备份中心是远程的,同时在生产中心的内部,已经实施了各类各样的数据保护。不论采取什么方式进行保护,当火灾、地震这类突发性灾难发生时,一旦生产中心瘫痪了,备份中心将能接管生产系统,继续提供网络服务。比如,全国铁路调度中心网络系统,当发生火灾、地震等灾难性事件时,该系统仍要保持正常进行,不能由于调度中心出现灾难性事件,全国的铁路系统就处于瘫痪状态,让灾难不合理地蔓延。我们认为,一个有效的高可靠性计算环境应该能够做到: 数据中心任何计算机系统硬件,软件及应用的单点故障将不可能影响整个数据中心的处理工作; 数据中心由于灾难(火灾、地震、断电)等原因无法工作时,应有一个备份数据中心能够迅速接管关键应用,继续运行; 主数据中心恢复后,应用系统、业务数据应能迅速切换回主中心运行。2.1.6.5.2.3某某公司系统数据容灾的远程复制通常说来,关于远程灾难恢复方案建议用户建立两个数据中心,主中心与备份中心。正常情况下,应用运行在主数据中心的计算机系统上,数据也存放在主中心的存储系统中。当主数据中心由于断电,火灾甚至地震等灾难无法工作时,则立即采取一系列有关措施,将网络、电话线路切换至备份中心,同时利用备份中心计算机系统重新启动应用系统。而这里最关键的问题就是切换过程时间最短,同时尽可能保持主数据中心与备份中心数据的连续性与完整性。而由于财务数据的重要性,如何解决主、备中心数据库数据备份,恢复则是灾难恢复方案的重点。传统的磁带备份方式通常采取定点备份,而当系统崩溃时。距最近一次备份时间之间的数据将全部丢失。无法恢复。而且磁盘备份、恢复时间比较长由于速度馒,缺乏实时性,无法满足用户大数据量数据恢复及数据库连续性,实时性的要求。而现在流行的灾难恢复方案要紧是使用实时的数据备份的方式。它的要紧原理是通过通信线路,实时地将主中心更新数据拷贝至备份中心存储系统中,保证主、备中心数据的实时一致性。当主中心无法工作时,备份中心能够立即接管业务,同时确保数据的最大完整性。根据用户现状,其要紧实施方法有:a. 通过高端存储阵列容灾:比如IBM的ERM镜像软件,能够实现主数据中心与备份中心的操作系统、文件系统、数据库的实时拷贝保护。不占用主机CPU,内存,I/O资源,其缺点是本地的存储设备一旦发生损坏,则容灾中心的容灾存储设备不能实时启动,本地灾难发生后,务必断开与远程的链接,且由于容灾中心的数据均为裸数据,因此重新启动应用需要一定的时间,视数据类型的不一致,此切换时间,在数分钟至数十分钟,且在如今间内,会发生数据丢失现象。b. 使用Veritas的StorageFoundation软件,同时将数据写到本地与远程的数据中心。使用这种方式与应用与存储都无关,可实现异构存储且不需修改应用,分别使用HPEVA8400与IBMDS4800的其一部分的存储空间通过VERlTASStorageFoUndation进行磁盘卷的镜像。使得IBMDS4800发生得任何失效,最后一刻的数据都在数据容灾中心的HPEVA8400磁盘存储上存在。同时假如服务器并未发生停机,则所有应用皆可正常运行,没有任何的停机及切换时间存在。容灾方式比较使用IBM4800使用HPEVA8400加Veritas软件数据丢失本地存储宕机后,数据可能产生丢失本地存储宕机后,数据不丢失。应用启动时间本地存储宕机后,异地启动应用,需要一定时间,从数分钟到数十分钟不等。本地存储宕机后,所有应用均可正常运行,没有任何的停机及切换时间存在。存储IBM4800指标更优秀的EVA8400根据某某公司系统的现状,我们认为使用使用VeritasVolumeMaiIager进行异构系统的容灾方案才是符合某某公司实际需求。2.1.6.4容灾系统的管理2.1.6.4.1 组织机构容灾备份系统需要由专门机构(指定现有有关部门或者者设立新机构)负责日常的管理、保护、与灾难发生后的系统恢复等工作。该机构的要紧职责、职能要紧包含:(1)备份系统的日常保护工作,确保当前备份系统是正常、有效的、与数据备份的完整性、一致性;(2)测试及研究工作。测试工作包含对当前备份系统、备份数据有效性、可用性的测试、与对应用软件的升级测试等;研究与容灾备份有关的技术方案优化与有关制度、规程的完善;(3)日常管理、协调职能。负责本部门的日常管理工作,并负责与主用中心、与有关方面的协调工作;(4)灾难发生后的系统恢复与生产组织职能;2.1.6.4.2管理制度与操作规程容灾备份系统的管理、保护、系统恢复、生产组织等需要完善的管理制度与严密的操作规程予以约束、规范,以确保备份系统的可用性与生产恢复的有效性。在建设容灾备份系统的同时,应结合自身情况建立并不断完善有关的管理制度、操作规程,其中包含:(1)容灾备份工作的领导与组织分工;(2)容灾备份中心机构的职能、职责;人员岗位责任制度;(3)日常保护管理制度与操作规程;(4)测试管理制度;(包含备份系统有效性测试、应用软件升级测试等)(5)灾难/故障的监测与分析、报告制度、与审批流程规定;(6)系统恢复/切换的操作流程与规范;(7)备份系统恢复运行后的生产组织制度;(其中应包含数据的安全与备份)(8)主用系统重新恢复工作的管理与组织制度。2.1.6.4.3灾难的预防系统容灾应包含灾难预防的内容,即研究相应计策将灾难带来的缺失降低到最小程度,这包含:(1)系统技术设计方案的不断优化,在不断提升系统自身安全可靠性的同时,使系统与数据备份的实施、管理、操作更简便、运行更可靠;(2)容灾备份策略与技术方案的不断完善,不断提高备份数据的一致性、完整性,缩短系统运行中断的时间;(3)有关管理制度、操作流程与规程的不断完善、改进;(4)努力减少系统的安全隐患;(5)可能也包含备份系统机房地点的合理选择等。2.L6.4.4灾难恢复计划的测试、试运行与保护通过测试、试运行可检验灾难恢复系统功能是否达到设计要求。测试与模拟试运行能够检验灾难恢复计划文档资料的完整性,恢复策略的正确性,能够提高工作人员的操作熟练程度。应选择适当的灾难恢复计划测试策略。通过测试能够提高灾难恢复计划的质量,改进灾难恢复过程,能够使有关部门配合有序,同时由于应用系统环境如系统环境、网络配置、应用系统恢复的优先级不断变化,灾难恢复计划也应随之进行修改。1.1.1.1.1 测试及保护通过努力建立起的灾难恢复计划系统,某某公司务必通过内部培训与周期性的测试才能为各层次参予人员所熟悉、掌握。同时随着某某公司IT数据中心业务的不断完善与进展,各方面的条件与情况亦会变化,因此还需要有稳固可靠的保护。1.1.1.1.2 培训成立专门的灾难恢复计划小组;选定一些对业务或者技术非常熟悉的关键人员作为灾难恢复小组参予人员。以保证在危机处理的正确、高效。制定培训计划:让大家熟悉项目的背景,与各人在灾难发生时的相应责任,应掌握的知识与技能;计划培训进度与日程;协调各有关部门负责人,保证培训时间;管理培训质量。1.1.1.1.3 测试灾难恢复计划测试灾难恢复计划,不仅能够验证计划的有效性、完整性,亦能够帮助大家熟悉过程,做好准备工作。归纳如下:验证计划过程与策略,发现疵暇之处能够获得具体的恢复时间概念(如网络是如何被恢复的,速度如何)能够测试备份主机系统与网络系统的效率能够向领导、审计、管理、媒体等展示能够使整个队伍熟练其各自的角色与责任1.1.1.1.4 测试方法测试的很重要的一个原则是不停生产机,使用独立或者并行的方式进行。假如是并行则能够与生产环境比较结果。测试的第二个原则是按模块进行,马上庞大的系统分解开来,按模块独立测试,而非一开始就动员全行测试。由于各模块的相对独立性,测试是能够分解成一个一个模块进行的。这样的难度较小,也易于组织与管理。1.1.1.1.5 测试的频率测试目标是为了保持系统的现时性,即系统能跟上变化的步伐,但同时亦要考虑费用问题等。1.1.1.1.6 能引起变化的因素要紧操作系统的升级重要应用软件与改变要紧硬件改变人员变动1.1.1.1.7 测试流程的制定测试流程的制定是在测试中最为重要的一环,只有测试是在可控的前提下,测试才具备检验系统安全性、锻炼应急队伍的意义。因此客户测试流程的制订需要在最终客户、有关设备的供应商与灾备系统实施方三方共同协商确定,已确保原有系统的稳固运行。1.1.1.1.8 保护为保证灾难恢复计划的稳固可靠运行,需要有明确的保护政策,保证人员及资金的适当投入。并定期检查报告,管理层能够熟悉其状态。2.1.6.6惠普公司容灾实施服务内容HP公司为某某公司提供的远程灾难备份解决方案由目前业界技术最为先进的HPEVA系列磁盘阵列与相应的光纤交换机与用来连接主数据中心与备份数据中心的光纤网络设备构成。在某某公司容灾项目的实施过程中,HP公司将委派具有丰富项目实施经验的项目经理,使用项目管理的方法对容灾方案的实施进行高效的统一管理;并利用IIP容灾专家丰富的容灾知识与实施经验,结合广泛验证的容灾方法与设计技术将大大缩短实现容灾方案的时间,确保实现容灾方案的设计目标,并尽量减少与避免在容灾方案的实施过程中对用户业务系统的影响,从而全面降低容灾实施过程中的风险,确保某某公司的容灾方案能够得到平稳顺利的高质量实施。2.1.6.6.1 方案实施核心服务(CoreService) 项目管理服务由惠普项目经理对容灾项目的整体实施过程进行管理,包含项目启动、制定项目实施计划、项目采购管理、项目资源管理、项目的整体进度管理与跟踪项目进展并执行变更与应急情形管理。 容灾方案规划设计在确认容灾的恢复策略之后,惠普与客户将