同城容灾规划方案(模板).docx
XXXXX容灾中心规划方案1 总体规划41.1 设计依据41.2 设计原则41.3 建设内容51.3.1 第一阶段建设内容51.3.2 第二阶段建设内容51.4 总体设计61.4.1 容灾技术选择61.4.1.1 容灾技术选择原则61.4.1.2 技术选择61.4.2 容灾架构设计71.4.2.1 镜像实现数据级容灾71.4.2.2 容灾方案优势81.4.2.3 本地Cluster.同城异地Cluster91.4.2.3.1 Cluster101.4.2.3.2 同城CIUSter111.5 分阶段建设121.5.1 第一阶段建设121.5.1.1 基础设施建设121.5.1.1.1 容灾机房建设121.5.1.1.2 裸光纤链路121.5.1.1.3 连接设备121.5.1.1.4 SAN交换机131.5.1.2 数据级容灾建设131.5.1.2.1 数据容灾架构131.5.1.2.2 容灾资源要求131.5.1.3 各应用系统数据异地备份容灾建设141.5.2 第二阶段建设141.5.2.1 应用级容灾建设141.5.2.1.1 应用系统容灾架构错误!未定义书签。1.5.2.1.2 设计描述141.5.2.1.3 容灾资源要求152 详细设计162.1 基础设施建设162.1.1 网络系统设计162.1.1.1 设计原则162.1.1.2 网络系统设计172.1.2 双中心互联设计182.1.2.1 双中心之间链路选择182.1.2.2 双中心之间网络设计182.2 数据级容灾设计192.2.1 系统设计192.2.1.1 方案的结构原理192.2.1.2 系统架构202.2.2 系统故障响应212.2.2.1 生产中心存储系统故障212.2.2.2 灾备中心存储系统故障222.2.2.3 生产中心和灾备中心SAN链路故障222.3 应用级容灾设计232.3.1 系统构架232.3.2 系统部署232.3.3 容灾软件部署242.3.4 系统故障和灾难响应2623.4.1 生产中心存储系统故障2623.4.2 容灾中心存储系统故障2723.4.3 生产中心和容灾中心SAN链路故障2723.4.4 生产中心和容灾中心之间IP网络链路故障2823.4.5 生产中心一台数据库服务器不可用2923.4.6 生产中心所有数据库服务器不可用2923.4.7 生产中心所有数据库服务器和存储系统不可用292.4各应用系统数据异地备份容灾设计302.4.1 备份系统建设原则302.4.2 备份方案设计311总体规划1.1 设计依据XXXXX容灾中心建设设计,将遵循以下设计依据:/2006-2020年国家信息化发展战略(中办发【2006】11号),信息安全等级保护管理办法(公通字【2007】43号)/重要信息系统灾难恢复规划指南国信办/信息系统灾难恢复规范(GB/T20988-2007)o1.2 设计原则从硬件平台的目标来看,首要需要实现的是第一阶段目标,在第一阶段目标实现的基础上实现第二阶段的目标。因此,硬件平台设计中应遵循以下原则:安全性:XXXXX重要系统24小时运行,安全是非常重要,服务器、存储系统和数据传输等方面都需要考虑安全性,在此基础上,才能考虑下一步的稳定性设计。稳定性:网络、服务器、存储等建设主要目标之一是就是稳定,应该保证业务的连续性,服务器和存储系统都需要保证应用的稳定运行,在遇到突发情况时备机和备份系统发挥作用,确保业务能够持续。可靠性:网络、服务器和存储的建设不可忽视的是可靠性的提升,比如通过网络、服务器之间的双机、存储级别的同步来实现高可用,网络有足够的带宽适应突增的数据流量、保证应用系统的可靠性。兼容性:硬件和软件设施都应该有很好的兼容性,需要合理的利用资源,利用虚拟化等技术,保证能和其他的产品很稳定的兼容在一起。1.3 建设内容XXXXX现有业务系统分为数据库服务器、应用服务器两个类别。建成后的容灾中心将实现如下目标:容灾级别容灾目标同城应用级容灾要求生产中心故障后,允许人工干预切换到备份中心,做到数据接近零丢失,应用恢复时间小于2小时。针对XXXXX应用系统的情况,将XXXXX容灾中心建设划分为二个阶段,具体如下:1.3.1 第一阶段建设内容第一阶段建设内容:令容灾基础设施建设:完成容灾中心机房、SAN网络、链路等基础设施建设;令数据级容灾建设:各应用系统的数据级容灾建设,实现跨中心的数据镜像,零数据丢失;令实现各应用系统数据集中备份、异地存放;令建立容灾应急预案和演练流程。132第二阶段建设内容第二阶段建设内容:令应用级容灾建设:完成各应用系统的应用级容灾建设,通过跨中心的应用系统集群、双活中心建设,实现零数据丢失,2小时内完成业务接管;令完善容灾应急预案和演练流程。1.4 总体设计1.4.1 容灾技术选择容灾技术选择原则容灾技术选择依据以下这些原则:1 .满足不同应用需求的容灾数据损失(RP0)、及应恢复时间(RT0),数据一致性等具体要求。2 .支持本地的系统加固以及本地系统的弹性构架。而弹性构架是对IT系统的长期发展直观重要,主要是指IT系统横向、纵向的扩展性。比如异构环境的支持、扩展。而系统本地加固与远程容灾的技术必须是互不冲突的。3 .在能够满足以上两项要求的同时,最经济。.支持容灾各层的总体切换。1.4.L2技术选择前面对各种数据复制技术进行了深入分析,根据XXXXX各应用系统容灾建设需求,选择如下技术实现容灾:应用系统容灾需求容灾技术数据级容灾RP0=0,RTO<2小时异构盘阵间镜像应用级容灾RP0=0,RT(K2小时集群1.4.2容灾架构设计1.4.2.1镜像实现数据级容灾此次XXXXX容灾系统建设,建议采用异构盘阵间镜像,逐步实现从数据级容灾到应用级容灾的建设。利用镜像技术,实现异构盘阵间的数据同步,来构建容灾方案。就是将生产中心和灾备中心之间的SAN存储区域网络通过光纤连接起来,建立城域SAN存储网络。然后,通过跨阵列磁盘镜像技术来实现同城容灾。从原理上讲,在城域SAN存储网络上的两套磁盘系统之间的镜像,和在一个机房内的SAN上的两个磁盘系统之间镜像并没有任何区别。利用光纤将生产中心和灾备中心的SAN网络连接起来,构成城域SAN网络以后,我们就可以非常方便的使用镜像技术实现生产中心磁盘系统和灾备中心磁盘系统之间的数据同步了。如下图所示:1.AN 数据写入流程: 1.客户端向服务器发出写请求。 2.数据由限务器同时写入生产中心及容灾中心阵网。 3.生产中性阵列及容灾中心阵列先后向服务器确认数据写完。 4.服务器向客户端确认数据写完。I生产中心容灾中心利用容灾软件,我们可以创建任意一个逻辑卷(Volume)供业务主机使用,实际上是由个完全对等的,容量相同的磁盘片构成,两的个磁盘片上的数据完全一样,业务主机对该Volume的任意修改,都将同时被写到位于生产中心和灾备中心的两个磁盘系统上。采用这种方式,生产中心的磁盘阵列与同城容灾中心的磁盘阵列对于两地的主机而言是完全同等的。利用城域SAN存储网络和镜像功能,我们可以非常轻松的实现数据系统的异地容灾。并且消除了复制技术(无论是同步还是异步)的切换的动作,从而保证零停机时间,零数据损失的实现。1.4.2.2 容灾方案优势 零停机时间,业务不中断。无论是生产中心还是容灾中心的磁盘阵列发生问题,都不会导致应用停顿,从而导致业务中断。 发生灾难时,无需手工活自动切换来恢复应用,应用会无缝的继续进行。从而也不会造成人为的错误发生。 由于应用不会中断,数据的一致性也没有任何风险,不会像其他的容灾方案,在容灾切换后,数据库仍然有启动不成功的可能性。 跨磁盘阵列镜像一旦发生灾难,修复后,跨阵列的可以实现增量的数据同步,而不需要重新同步所有数据,对系统的影响极小。 跨整列的镜像,支持在不同品牌,不同型号的磁盘阵列之间进行。可以最大限度的保护用户以前的投资。 跨磁盘阵列镜像还可以通过调整读写机制,提高系统的读写性能。 基于SAN的容灾技术,其容灾距离可以在100公里的范围内,得到很好的想能保障。 可扩充性好,不局限于某一品牌磁盘产品 可控的切换时间RTO表示所能接受的业务中断时间,从某种程度上讲,也就取决于在生产中心宕机时,将业务切换到容灾中心的时间长度。系统的切换时间:数据库启动、状态检查5分钟数据库切换10分钟中间件启动一1分钟网络切换1分钟4应用级的容灾容灾分为数据级容灾和应用级容灾。本次XXXXX的容灾系统设计,将提供应用级别的容灾方案。所谓应用级的容灾,是指在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备用应用系统(可以是互为备份)。1.4.2.3 本地Cluster>同城异地Cluster备份、Cluster,复制等技术都是为防止系统或数据故障时业务仍然可用。其中,CkISter技术可以处理以下原因造成的故障:系统硬件故障如数据/系统磁盘的损坏将导致数据不能访问,并进而可能导致应用进程终止或系统停机,甚至系统不能重启动;网卡的损坏可使终端用户无法访问系统服务;CPU或内存的失效则会导致系统的死机;应用程序或操作系统出错由于操作系统或应用程序中可能存在不完善的地方,当碰到某种激发事件时,应用程序非正常终止或系统崩溃(只能通过改善程序或系统来解决);人为错误一些人工的误操作,如删除系统或应用文件,终止系统或应用服务进程,也会导致系统服务的无法访问;自然灾害由于一些意外的不可抗拒的因素,如雷击、火灾、洪灾等导致的计算机系统破坏,将会使一般系统的恢复非常困难和耗时,导致业务系统长时间的中断(通过容灾系统来解决,正常的停机主要指计划内的系统升级、安装软件、系统备份等过程。为保证整个容灾系统的高可用,本方案将采用本地Cluster和同城异地Cluster相结合的方式实现应用级容灾。1.4.2.3.1本地Cluster本地Cluster系统应用非常广泛,大部分关键的业务系统都采用Cluster技术来防止单机故障。一般来说,Cluster主要由硬件和软件两部分组成。硬件部心跳线;软件部分有:对资源的监控和切换,分有:多台服务器设备,共享磁盘,心跳协议,日志管理。ChlStet硬件 相同操作系统的两台或以上服务器 共享磁盘 心跳ChISkT软件 资源监控和管理- 磁盘- 应用- 网络心跳协议日志Cluster会在两条心跳链路上传输侦测包,实时监测其他主机系统和各种软硬件资源的运行情况,如应用进程、网卡、IP、磁盘、文件系统等,当任何一种资源失效时,CLUSTER即会按照预先定义的规则快速实行相应的硬件或应用切换。例如:- 当一台机器上的工作网卡发生故障时,CLUSTER会自动地切换到另一块网卡;- 当一台主机发生故障或关机时,CLUSTER会自动地将其上的应用切换到另一台机器;- 当应用服务进程非正常终止时,CLUSTER会自动重起相关进程,或将服务进程切换到其他机器上三当系统需要进行维护时,可手工将应用从一台机器切换到其他机器。142.32同城Cluster同城ClUSter一般也称为园区网Cluster(CampusCIUSter)或中距离Cluster(Middle-Area-NetworkCluster),以区别于本地ClUSter。同城ClUSter的实现,得益于光纤技术的发展。因为以前采用SCSl线缆共享磁盘的方法,由于SCSI线缆的长度限制,无法将两台组成Cluster的服务器隔离很远。但采用光纤连接主机和存储设备,可以将主机与磁盘的距离延伸很远。因此,同城CIUSter都采用光纤连接存储设备。另外,同城CIUSter还依赖于跨磁盘阵列的镜像技术(一般由VolumeManager软件实现)。这样每台服务器本地连接一份磁盘阵列,两个阵列通过VolumeManager进行镜像,就可以将两个物理上完全独立的系统组成一个Cluster系统,从而可以防止小范围灾难事件的发生(例如机房失火)。结构如下所示:因此,在许多实际应用中,都把同城Cluster做为同城容灾的解决方案。Cluster方案在成本、切换速度、对系统的性能影响等方面都有很大优势。例如,当生产中心磁盘故障时,对整个系统没有任何影响,无需进行应用切换,从而不对业务造成的影响。1.5分阶段建设容灾系统建设是一个复杂的系统工程,建议XXXXX分阶段进行建设,这样对业务系统的影响最小、可以在建设中逐步积累经验。1.5.1 第一阶段建设1.5.1.1 基础设施建设基础设施建设包含容灾机房的建设(包括场地租用、SAN网络建设)、裸光纤租用和生产中心调整。容灾机房建设容灾机房需要考虑如下各子系统: 电力系统 空调系统 消防系统 安全系统 标准机架 综合布线系统 防震系统1.5.1.1.2 裸光纤链路租用或单独部署裸光纤。1.5.1.1.3 连接设备建议采用CWMD设备用于连接两地SAN网络,实现波分复用。1.5.1.1.4SAN交换机1.5. 使用适当端口的SAN交换机。1.6. 1.2数据级容灾建设针对系统:数据库服务器、应用服务器方案效果:双中心数据完全一致,零数据丢失;单一存储设备故障,零切换;容灾效果:容灾等级达到国信办容灾最高等级5级1.5.L2.1数据容灾架构15122容灾资源要求 容灾中心SAN网络:本方案中数据容灾是基于裸光纤链路实现的远程镜像,因此在生产中心及容灾中心必须首先构建好本地的SAN网络;当前的生产中心已经具备了基本SAN架构,容灾中心新购两台SAN交换机,实现物理设备冗余。 容灾链路:在两个中心之间的SAN链路,可以通过租用裸光纤来实现生产中心和容灾中心的SAN链路直联。建议采作用两条不同的电信运营商的裸光纤链路,以实现冗余。 容灾中心存储:容灾中心需要采购一台或两台存储设备,用于应用服务器和数据库服务器的数据容灾,采用软件实现跨中心镜像容灾,磁盘阵列的品牌可以与现有磁盘阵列不同。15L3各应用系统数据异地备份容灾建设在XXXXX容灾系统第一阶段建设中,针对除第一级应用系统外的其他系统,通过数据备份的方式实现数据异地备份与存放,增强数据异地容灾的保护作用。数据中心和容灾中心之间采用的是裸光纤链路,同时采用了CWD设备实现波分复用,带宽资源丰富,因此,在数据中心和容灾中心构建统一的备份域,通过一套备份软件实现数据本地和异地备份,实现数据容灾备份。1.5.2第二阶段建设1.521应用级容灾建设针对系统:数据库服务器、应用服务器方案效果:双中心数据完全一致,零数据丢失;单一设备故障,零切换;数据中心站点故障,零数据丢失、2小时内恢复业务:容灾效果:容灾等级达到国信办容灾最高等级6级1.52L1设计描述应用容灾: 两地数据已通过镜像技术实现同步,零数据丢失; 通过ClUSter技术,在本地和远端构建独立的集群组,通过站点切换技术实现两个中心之间的集群组切换,实现零数据丢失、单个业务10分钟内实现业务切换。 通过应用负载均衡设备,实现双中心应用服务器的自动负载,零切换。网络容灾:当生产中心发生灾难,应用程序切换并正常接管工作后,还必须完成容灾中的网络设备切换及应用服务器的网络解析,从而使客户端自动地联系到容灾中心的应用服务器上,正常开展工作。这样,就真正意义上的实现了整个生产中心到容灾中心的切换。1.52L2容灾资源要求本地及容灾中心SAN网络:第一阶段已经建设完成。容灾链路:TCP/IP链路。应用服务器切换所有需要的TCP/IP网络链路,可以在租用裸光纤的链路上进行加载,对于生产中心和容灾中心的TCP/IP网络链路的要求是,只需连个中心之间的IP地址能够Ping通即可。容灾中心主机:为了实现应用的接管,针对各应用系统容灾中心各添加一台相应的服务器,作为数据库及应用的接管服务器。考虑到投资和灾难发生的概率,建议各采用一台与生产中心能力相同或者略高的服务即可。容灾中心存储:第一阶段已经建设完成。2详细设计2.1基础设施建设基础设施建设是其他系统容灾建设的基础,其包括托管机房租用、链路租用、波分复用设备、SAN交换机、网络负载均衡器、网络安全设备、网络设备和管理服务器等建设。1)建设建议:a)沿用和传承:网络设备、网络安全设备、SAN交换机、PC服务器等设备,在价格同等的情况下,尽量采用现在正在使用品牌的同等设备,方便管理与维护;b)采用知名品牌、占有率高的设备:对于没有采用过的设备,尽量采用市场占有率比较高的知名品牌的设备。2)各部分建设说明:a)容灾机房建设:容灾机房可以采用自建或租用的方式;b)链路租用:分别租用电信和网通的两条裸光纤链路,用于双中心的SAN和网络互联,租用电信和网通广域网链路,形成广域网连接,下面将与波分复用设备一同设计;c)波分复用设备:建议采用支持8个波长或者16个波长的设备;d)SAN交换机:采用4GB设备,SAN网络设计将在存储系统设计中详细阐述;2.1.1网络系统设计2.LL1设计原则高网络服务质量保证网络提供最优服务品质,满足客户各种业务需求。最大端到端延迟时间V100mS网络丢包率vi%高可用性可提供的网络利用率99.99%,每年网络不可用时间小于53秒。核心采用双机备份,保证在一台设备或一个断口中断时,客户业务也能够畅通无阻。网络设备及线路全部采用冗余配置,保证网络持续联通。高扩展性无限的扩展空间-满足客户扩展与互联互通需要高安全性完善的安全机制-避免网站遭受攻击逐步完善防病毒、入侵检测、安全漏洞扫描等安全防护措施,帮助客户免遭病毒和黑客袭击。可管理性2.1. 通过专业的管理工具,为客户提供网络性能监控,按提供性能分析报告。2.2. 1.2网络系统设计总体说来,XXXXX在网络相关的配套设施建设方面还是比较完善的,包括机房的建设上,基本上能够满足日常运行的需要。本次网络系统总体设计,我们将对XXXXX的网络系统进行总体规划,包括数据中心和广域网。架构要点:1)两路、两中心:XXXXX同容灾中心之间通过两条链路实现互联,即,租用两条ISP的链路,实现每各容灾中心通过两条链路同数据中心、容灾中心的分别连接,保障两个数据中心之间的数据负载均衡;2)CM)M应用:通过CM)M技术,实现一对光纤资源复用成8个波长,实现网络、SAN环境的双波长高速互联;3)路由自动切换:采用原有的路由协议,实现广域网链路的自动切换。2.1.2双中心互联设计数据中心、容灾中心之间搭建的网络平台,不单要实现两个网络系统之间的信息交互,还需要为数据中心、容灾中心之间的数据传输提供通道,包括基于SAN架构的同城容灾,基于IP网络的统一集群,以及备份系统等都需要提供链路和传输平台;因此,双中心之间的网络设计十分重要。2.L2.1双中心之间链路选择双中心之间传输的数据,既有通过IP网络传输的数据,也有通过SAN传输的数据;因此,如果租用链路的话,需要租用多条通讯链路。为了保护用户投资,合理充分利用链路资源,建议租用两条裸光纤,通过CWDM技术,对光纤链路进行复用。2.122双中心之间网络设计在数据中心、容灾中心租用不同运行商的两条裸光纤,通过CWDM技术,对光纤链路进行复用。数据中心、容灾中心的互联可以采用CWDM技术,通过OADM和对应的CWDM收发器实现8路100OMbps信号以不同波长复用在单一光纤上,实现新老数据中心备份。通过点到点配置波分复用设备,最多允许客户在一对单模光纤束中增减八个通道(千兆位以太网和/或光纤通道)。因此,客户几乎不需要增加光纤。如果将冗余通道增减到第二对单模光纤束中,还可以建立冗余点到点链路。2.2数据级容灾设计2.2.1 系统设计221.1方案的结构原理设计解决方案将采用基于软件的镜像技术,来构建高可用方案。利用软件镜像技术构建高可用系统,需要在生产中心和灾备中心之间建立城域SAN存储区域网络,通过裸光纤连接起来;这样就可以通过跨阵列磁盘镜像技术来实现同城容灾,高可用方案的结构如下图所示:1.AN数据写入流箪 1.客户需向服务器发出写请求 2.数据由服务翳同时写入生产中心及容 灾中心阵冽. 3.生产中心阵列及容灾中心阵列先后向 服务翳确:认数据写完. 4.服务器向客户端确认数据写完.;Rj 号:生产中心从原理上讲,在城域SAN存储网络上的两套磁盘系统之间的镜像,和在一个机房内的SAN上的两个磁盘系统之间的镜像并没有任何区别。利用光纤将生产中心和灾备中心的SAN网络连接起来,构成城域SAN网络以后,我们就可以非常方便的实现生产中心磁盘系统和灾备中心磁盘系统之间的镜像了。如下图所示。这里,逻辑卷“VolumeA”是业务系统访问磁盘的逻辑设备名,所有业务系统对磁盘系统的访问,都将通过VOlUme实现。我们可以看到,利用VolumeManager,我们可以创建任意一个逻辑卷(VoIUIne)供业务主机使用,比如“VolumeA",这个"VolumeA”实际上是由两个完全对等的,容量和“VolumeA”相同的磁盘片构成的,我们这里可以称在生产中心磁盘系统上的磁盘片为“VolumeA:Plex1”,而称在灾备中心磁盘系统上的磁盘片为“VolumeA:Plex2",这两个磁盘片上的数据完全一样,业务主机对该Volume的任意修改,都将同时被写到位于生产中心和灾备中心的两个磁盘系统上。采用这种方式,生产中心的磁盘阵列与同城容灾中心的磁盘阵列对于两地的主机而言是完全同等的。利用城域SAN存储网络和镜像功能,我们可以非常轻松的实现数据系统的异地容灾。22L2系统架构系统拓扑图如下:=G容灾中心通过两对裸光纤,让两个机房的SAN交换机组成一个相当于本地的完整SAN网络,两地机房的服务器既可以通过本地SAN交换机访问本地的SAN存储,也可以通过复用的裸光纤来访问远端机房的SAN存储;都可以对放置在两地机房中的存储进行读写操作;2.2.2系统故障响应高可用系统建设完成后,故障和灾难主要有以下几情况:1 .生产中心存储系统不可用2 .容灾中心存储系统不可用3 .生产中心和容灾中心SAN链路故障2.2.2.1 生产中心存储系统故障生产中心存储系统故障意味着灾难,来看一下拟建后的高可用系统是如何响当生产中心的存储系统发生故障(灾难)时,由于同城容灾中心的存储是它的镜像,所以操作系统会自动隔离生产中心的存储,转而对容灾中心的存储进行访问。从上图我们看到,业务系统可以通过城域SAN网络直接访问灾备中心的磁盘系统的数据,而不需要有任何针对业务系统的动作。也就是说,生产中心磁盘系统的灾难,对业务系统是透明的,应用和数据库不会因为生产中心磁盘系统的故障而停止;更重要的是,因为应用和数据库不会因为灾难而异常中止,从而避免了发生数据库损坏的可能。生产中心磁盘系统故障之后,只需要更换损坏的磁盘系统,然后利用VOlUmeManager重新生成镜像即可,重新生成镜像的过程,实际上就是将数据从灾备中心磁盘系统复制到生产中心磁盘系统的过程。值得注意的是:整个过程对应用完全透明,不需要也不会中断业务系统的正常运行。2.2.2.2 灾备中心存储系统故障灾备中心数据系统故障,这种故障就同上一种故障类似,但对业务系统的影响更小。2.2.2.3 中心和灾备中心SAN链路故障相对于以上两种灾难,这种故障在高可用系统建立以后,出现的概率会更大一些,导致链路故障的原因很多,包括光纤断裂,光端设备故障等,都会导致链路中断。针对链路故障问题,响应步骤如下:1. SAN链路发生故障2. 生产中心的VolUmeManager利用DCO日志记录VoIUme:Plex1因业务数据的变化而变化的数据块,灾备端Volume:Plex2的数据不会作废3. 一旦SAN链路恢复正常,VolumeManager的FMR功能模块,会根据DCO日志记录的情况,将VoIUme:Plex1中链路中断后更新的业务数据拷贝到灾备端VOIUme:Plex2,实现增量更新。2.3应用级容灾设计2.3.1 系统构架2.3.2 系统部署XXXXX应用级容灾建设分为7个内容,分别是容灾机房、网络层建设、主机层建设、存储层建设、数据库层建设、应用层建设和容灾集中管理平台建设。1 .容灾机房机房建设这里不做深入阐述。2 .网络层建设:配置CWDM设备,租用两条裸光纤,通过链路复用技术实现生产中心和容灾中心之间IP网络和SAN网络数据的传输。配置SAN交换机,用于容灾中心SAN网络建设,实现与生产中心SAN网络的高速互联。配置路由器,用于容灾中心网络搭建。配置防火墙,用于对服务器访问的安全控制。3 .主机层建设容灾中心配置与应用系统相对应的、高性能主机与生产中心主机通过CLlJSTER远程集群功能实现主机的高可用性。生产中心、容灾中心任意一台或两台主机出现故障,业务都不会中断。4 .存储层建设容灾中心配置高性能存储,与生产中心存储通过卷镜像技术实现数据跨阵列远程镜像,生产中心、容灾中心任意一台存储出现故障,业务都不会中断。系统数据通过备份软件,集中备份到生产中心VTL上,定时将备份数据复制到容灾中心VTL上,实现数据的异地备份。2.3.3 容灾软件部署此次容灾项目建设的核心就是容灾软件的部署,容灾软件的部署涉及到主机、存储和数据库层面。采用跨阵列磁盘镜像技术来实现同城应用级容灾,实现生产中心与容灾中心在线数据完全同步,保证了数据零丢失,应用零切换。在各层次部署相应的组件来实现主机、存储和数据库层面容灾,具体部署如下:a)RemoteMirror:利用RemoteMirror功能,在生产中心和容灾中心的两台存储之间形成跨阵列镜像;生产中心、容灾中心任意一台存储出现故障,业务都不会中断。镜像进程高度可控,可以随时暂停、继续、终止,并能指定控制在一定的性能范围内实施数据镜像。故障修复时通过增量数据同步功能,对系统的影响极小。b)采用动态多路径组件实现主机对存储的多路径读写;在I/O路径出现故障时,确保可以访问存储设备,保证数据的可用性;通过I/O路径优化算法改进I/O性能。其主要功能如下:a.光纤多通道的FaStfailover快速切换;b.I/O路径优化,提供六种算法:平衡路径,循环,最小队列长度,自适应,优先级,单个活动路径;c.自动发现光纤路径;d.动态监测多路径的状态;e.异构环境支持,支持所有主流的磁盘阵列。c)CLUSTER:是集群软件,采用CLUSTER控制启动和停止各应用进程。数据写入流程如图所示:1.AH应用服务4.数据摩服务器确认数据写数据写入流程:1.应用服务B向黑掘廛服务器发囹写请求:2.数据*IS务叁同时写入生产中心及容宾中心阵列:3.生产中心阵列及容灾中心阵列先后向数据璋确认数据写完:图6:数据写入流程数据读取流程如图7所示:相即60KIl以内;生产中心容灾中心I数据读取流程二;V应用服务器同效据摩服务看发出读谙索;i.数维由数据库股务琴就近从本地m中心存储*读取二3,数箱库服务器向应用服务等提交读取的数据。2.3.4 系统故障和灾难响应容灾系统建设完成后,灾难和故障主要有以下7种情况:1 .生产中心存储系统不可用2 .容灾中心存储系统不可用3 .生产中心和容灾中心SAN链路故障4 .生产中心一台服务器不可用5 .生产中心所有服务器不可用6 .生产中心和容灾中心之间心跳链路故障7 .生产中心所有服务器和存储系统不可用2.341生产中心存储系统故障当生产中心存储系统发生故障时,数据库将得不到生产中心存储数据写完确认,当等待时间超过容灾软件设置的故障时间阀值时,容灾软件就会自动隔离生产中心的存储,此时容灾中心存储确认数据写完,数据库就向应用服务器提交确认。生产中心数据库可以通过SAN网络直接访问容灾中心存储系统的数据,因此生产中心存储系统故障,对业务系统是透明的,应用和数据库都不会因为生产中心存储系统的故障而停止。生产中心存储系统故障修复后,管理人员利用VolUmeManage将增量数据从容灾中心存储系统复制到生产中心存储系统,数据同步后,生产中心存储系统将重新提供服务。2.342容灾中心存储系统故障容灾中心存储系统故障,与生产中心存储系统故障类似。2.34.3生产中心和容灾中心SAN链路故障在容灾系统建立后,系统故障中出现概率比较大的是SAN链路故障。两条裸光纤San链路中断任意一条,性能将会受到影响,但业务不会中断。两条裸光纤San链路都中断,响应步骤如下:D根据生产中心和容灾中心主机对资源的争夺情况判断存活的存储,没有争夺到存活权的存储将被自动隔离。2)这里阐述生产中心存储存活的情况,而容灾中心存储存活的情况类似。此时生产中心存储确认数据写完,数据库就向应用服务器提交确认。生产中心的VolumeManager利用DCO(DataChangeObject)日志记录Volume:Plex1变化的数据块;3)一旦SAN链路恢复正常,VolumeManager的FMR(FastMirrorResync)功能模块,会根据生产中心DCO日志记录的情况,将链路中断后VOIUme:Plex1中更新的业务数据拷贝到容灾中心VoIUme:Plex2,实现增量更新。两个存储数据同步后,容灾中心存储将重新提供服务。VolumeManager用DCo和FMR技术实现增量同步的过程如下图所示:图:生产中心和容灾中心SAN链路故障23.4.4生产中心和容灾中心之间IP网络链路故障当生产中心和容灾中心之间的两条裸光纤IP链路中断任意一条,性能将会受到影响,但业务不会中断。两条裸光纤IP链路都中断,应用服务器C分配不到服务请求,同时由于心跳中断,生产中心会认为容灾中心的数据库服务器C发生故障,并将该数据库服务器C从集群中隔离出去。整个过程对应用系统没有任何影响,在生产中心仍然保持一个由数据库服务器A和数据库服务器B构成的集群,仍同时对生产中心和容灾中心存储进行读写。当IP网络链路恢复后,Cluster将容灾中心的数据库服务器C节点动态加入集群,应用服务器C可分配到服务请求。整个过程自动完成,对业务系统不会产生任何影响。2.3.4.5生产中心一台数据库服务器不可用生产中心数据库服务器A发生故障,所有业务全部由生产中心数据库服务器B和容灾中心数据库服务器C承担。如图:生产中心容灾中心:自动接管容灾中心:图15:生产中心一台服务器不可用同样的,在数据库服务器A的故障修复以后,其将自动分担业务。2.346生产中心所有数据库服务器不可用当生产中心所有的数据库服务器系统都发生故障,容灾中心数据库服务器C将自动接管所有的业务。2.3.4.7生产中心所有数据库服务器和存储系统不可用生产中心所有数据库服务器和存储系统不可用,这种情况一般只有在重大灾难的情况下才会发生,包括自然灾难和人为灾难。这种情况下,容灾中心将自动、快速的、准确地接管所有重要业务系统。24各应用系统数据异地备份容灾设计2.4.1备份系统建设原则一个备份系统具有以下基本特点:/为用户关心的系统,往往是用户的关键的核心系统提供数据保护。/备份系统是用户数据安全的最后防线,所以这个防线的可靠性,稳定性至关重要。成本合理的情况下,这条防线越安全越好。,备份的目的是数据恢复,数据和系统的恢复时间越短,用户的损失就越小。/建设备份系统的投资,相对整个系统而言,相当小,也就是说,我们通过备份系统可以用相对较低的成本,为关键的核心系统体统必要的保护。/因此,我们在建设备份系统的时候,首先应该考虑的是如何尽最大可能提供最安全的保护,同时提供最快的数据和系统的恢复能力。备份系统建设需要关注的其他几个重要因素:开放性备份系统的开放性,包括对不同的服务器,磁带库,数据库,备份方式的备份支持,同时也包括对不同系统的开放的服务支持能力。可管理性一个备份系统涉及的系统比较复杂,对于一个庞大和复杂的系统运行环境,备份系统的可管理性直接影响到整个备份系统的效率和功能的灵活性。一个好的备份系统,可以满足用户针对不同的备份需要,针对不同的备份对象,提供灵活的备份策略机制。可扩展性一个好的备份系统,不仅能够满足目前的备份需要,同时应该能够满足将来的备份需要。备份软件的升级换代不仅仅是简单的软件更换,它涉及到管理方式的变更,管理程序的变更,员工的技能培训的变更,以及员工积累的故障诊断经验。为了有效的保护这些软投资,在一开始选择备份系统的阶段,考虑长远的备份系统扩展能力,将有效的保护这些投资。2.4.2备份方案设计根据备份客户端的FCHBA卡的配置情况,数据备份可以采取LAN-Free(SAN备份)结合BaCkUPoverLAN(局域网备份)的备份方案。在物理连接方案上,备份管理服务器和备份所使用的磁带库通过FC卡联入SAN网络环境。在SAN交换机上建立独立的备份Zone,备份的数据如经过SAN交换机传递,均从备份Zone所设的端口流入或流出,这样与生产Zone分离,备份的数据与生产数据不会造成相互影响和冲突。另外,备份管理服务器通过与核心业务系统带外网络LAN连接,连入的管理LAN中。在备份方案选择方面,XXXXX某Zone中的服务器可以采取LAN-free或BackupoverLAN的方式进行数据备份,分别描述如下: BackupOverLAN方式 采用该备份方式的服务器,没有配置FCHBA卡,不能够访问SAN网络环境。在备份时的控制信息和数据信息均通过管理网传至备份管理服务器,备份管理服务器接收控制信息和数据信息并将备份数据写入带库; 1.AN-Free方式采用该备份方式的服务器,配置有FCHBA卡,接入到SAN网络环境中。在做数据备份工作时,仅备份时的控制信息通过管理网传递至备份管理服务器用于数据的管理,而备份的真实数据则通过FC卡和SAN交换机直接写入带库(即LAN-Free方式)。因此,不存在备份数据对网络造成较大压力问题。构建统一的备份域在数据中心和容灾中心之间