深登运维规划方案_20120720-by-yxc.docx
《深登运维规划方案_20120720-by-yxc.docx》由会员分享,可在线阅读,更多相关《深登运维规划方案_20120720-by-yxc.docx(52页珍藏版)》请在课桌文档上搜索。
1、中国证券登记结算有限公司深圳分公司一体化运维管理平台规划UltrQQOuUer北京神州泰岳软件股份有限公司2024年4月28日目录1 引言41.1 编写目的41.2 项目背景41.3 定义41.4 参考资料42 基于目前管理现状的分析53 总体规划思想64 总体规划方案84.1 总体技术架构84.2 统一的配置管理子系统CMDBIl4.2.1 采用ADDM统一采集124.2.2 可视化展示和管理CI和关系124.2.3 故障定位与变更影响分析134.3 集中监控管理子系统144.3.1 面向虚拟化的监控管理144.3.2 机房环境的统一监控(可选)174.3.3 面向业务过程的监控184.4
2、自动化运维子系统194.4.1 自动化技术架构194.4.2 功能实现214.5 服务流程子系统升级294.5.1 平台升级294.5.2 建立知识库管理系统294.5.3 建立值班作业计划管理流程314.6 综合分析展现子系统334.6.1 业务影响视图展示334.6.2 建立信息中心统一门户系统344.6.3 建立丰富的大屏展现系统374.7 各子系统间的逻辑关系设计404.7.1 CMDB与监控的数据同步关系设计404.7.2 CMDB与服务流程之间的关系设计424.7.3 监控与自动化之间的关系设计434.7.4 服务流程与自动化之间的关系设计444.7.5 监控与服务流程之间的关系设
3、计454.7.6 监控与第三方管理平台的关系设计(可选)465 项目实施规划475.1 整体部署架构设计475.2 软、硬件配置建议485.3 分阶段建设建议491引言1.1 编写目的本文档根据中国登记结算有限公司深圳分公司运维现状和预期目标进行详细的设计,旨在为IT运维二期提供解决方案路线和参考。1.2项目背景阐述中国登记结算有限公司深圳分公司的IT运维背景1.3 定义术语、规范的定义)1.4 参考资料本解决方案所参考的技术资料2基于目前管理现状的分析IT运维管理的建设,需要经历一个长期的过程,通过循序渐进,逐步提高的建设思路来达到管理目标。而随着IT技术的日新月异,企业的IT技术也逐步形成
4、了高水平、高技术、高成本的运营模式,主动化、自动化、标准化的运维管理体系成为了IT运维发展的重要目标之一。随着中国证券登记结算有限公司深圳分公司的IT运维管理建设,目前已经形成了面向全范围内的IT设备集中监控和标准的IT服务流程管理。在集中监控层面,采用神州泰岳集中监控管理系统Ultra-NMS和BMC底层采集代理产品BMCPatrolAgent实现了面向生产网、办公网、Prop外联网、管控网、开发测试网等,涵盖网络、主机(AlX、UnixWindows、1.inux.AS400等)、数据库、中间件、AWS等集中的监控管理;在服务流程方面,采用BMCRemedy平台建立了服务台、事件、问题、变
5、更、配置等管理流程,实现了分公司日常运维管理工作的标准化。以此形成了一个符合日常运行管理的标准管理体系,从监控和服务流程管控等方面提升了分公司的运维管理能力。但随着技术的不断发展和管理需求的不断提出,这种仅面向监控和服务流程的管理已略显不足,我们需要更为全面的管理体系来实现深圳分公司的主动化、自动化和标准化的运维管理。主动化运维则不仅仅是主动的监控管理,其更深层次的目标则为面向整个分公司的统一资产的集中运维、业务关系的深化分析、业务逻辑的构建,并以此作为基础形成精细化的监控管理和故障定位。自动化则要求在以全分公司资产作为基础,在此基础上形成自动化控制手段,以标准的自动化手段实现对服务器的统一和
6、和规划操作,以降低风险、提升工作效率。标准化则要求以标准的流程进行约束,并形成以统一的资产作为核心,进行上层的流程流转和控制,形成标准的流程管控体系。为此,在主动化、自动化、标准化的要求下,需要形成以统一资产管理(CMDB)为核心,支撑集中监控管理(NMS)、服务流程管理(Remedy)、自动化管理(Blade1.OgiC)的统一运维管理体系。同时,为了更全面更有效的利用、分析管理数据,为系统规范、系统分析、决策判断提供准确的依据,需要通过综合分析展现平台,进行多视角、多维度的分析,直观展示业务、应用及系统的运行状况、发展趋势,为系统扩容优化、业务质量考核提升提供运维数据支持。并增强运维体验,
7、以人性化和丰富化的展现手段呈现日常管理情况,不断增强运维平台展示效果,提升运维管理的主动性和积极性。3总体规划思想基于中国登记结算有限公司深圳分公司的IT运维管理现状分析,为更进一步提升日常的管理效率,从整体上提高深圳分公司的IT运维管理能力,保隙日常业务的稳定运行,建设成真正意义的主动化、自动化和标准化运维管理体系,需要结合目前深圳分公司的建设情况,在已有的平台基础上进行统一的规划和建设,形成面向监、管、控全面的运维平台。根据前面的分析,本次将以建设一个统一的运维管理平台为出发点,以统一CMDB作为核心,支撑集中监控系统、服务流程系统、自动化运维系统和综合分析展现系统。即以此形成一个平台、五
8、个子系统的运维架构。附图1.总体设计思想以CMDB为核心,建立一个平台五个子系统一个平台即指整体的IT运维管理平台,从主动化、自动化、标准化的运维管理目标出发进行建设,形成面向深圳分公司的统一运维管理。 统一CMDB管理:以统一的CMDB作为核心,通过CMDB建立资源模型,并树立Cl之间的关系,形成面向整体业务的逻辑进行管理,并以此支持集中监控、服务流程、自动化系统和综合分析展现系统的数据消费,形成集中的管理界面呈现和本文档仅限北京神州泰岳软件股份有限公司和被呈送方内部使用,未经许可,请勿扩散到第三方。第6页共51页分析,从而达成主动化、自动化和标准化的管理目标。 集中监控管理:采用目前已有的
9、集中监控系统,在目前已实现的监控管理基础上,新增对虚拟化的监控,并实现对跑批业务的集中监控,形成试点和管理标准,从以往关注IT组件层面的监控管理提升到端到端的面向业务的管理,实现对应用层面,业务流程层面,用户层面全方位深入的监控和管理,并为业务系统运维的后期管理提供可参考模型。 标准服务流程管理:借助现有的Remedy流程系统,进行服务流程的控制,并开发相应的接口,实现与集中监控、自动化之间的接口, 自动化运维管理:采用自动化系统进行日常变更操作的自动化、和规划和巡检的自动化,并通过与统一CMDB、集中监控、Remedy流程的结合形成真正意义上的监管控一体化运维体系,充分发挥平台一体化优势,充
10、分利用产品功能,避免孤岛系统建设。 决策分析深化:采用集中化的管理门户和报表,将各类数据源进行统一展示和分析,使用者在个性化的视图中对多个系统数据进行浏览和处理,并建立丰富化和人性化的展现体系,如大屏展现,将管理数据以美观丰富的界面层面给管理者,提升管理的积极性。五个子系统: 统一CMDB子系统:采用AtriUmCMDB进行搭建,并通过梳理建立Cl之间的模型关系。 集中监控子系统(监):采用NMS集中监控系统搭建(已有)。 服务流程子系统(管):采用Remedy服务流程进行搭建(已有)。 自动操作维护子系统(控):采用Blade1.OgiC进行搭建。 综合分析展现子系统:采用UItra-ReP
11、ort、UIP、ShOW进行建设(部分已有)。为了形成一体化的运维管理,还需要梳理五个子系统之间的逻辑关系,形成数据的统一流转和消费。4总体规划方案 .1总体技术架构总体技术架构采用一个综合运维平台、五大子系统进行构建,即由五大子系统构建成符合深圳分公司的IT运维管理平台。五大子系统包括统一CMDB子系统、集中监控子系统、服务流程子系统、自动化管理子系统、综合分析展现子系统。五大子系统以CMDB作为核心,支撑周边系统运行,采用数据同步、消费等支持关系,构建出一体化的运维体系:半食白一用M1i啊T理I三三l819T,他踩U碎石发布攫主机雷控中诩拙控机店皆亚苓系唉C相片曾控Trgp告警I已有窿口f
12、待谏椿口O已有功能。待0功能数据库附图2.总体技术架构在架构设计中,充分考虑到深圳分公司目前已经建设的系统情况,采用统一CMDB作为核心,结合现在正在稳定运行的集中监控系统和服务流程系统,并通过新增相关功能模块实现监控的全面化和深度化,通过接口的开发实现数据的同步和消费,从而形成以CMDB为核心,支撑监、管、控和综合分析展现的IT总体运维框架。整体架构逻辑说明如下:1、采用CMDBADDM进行综合数据采集。针对被管对象的数据,涵盖网络(安全设备)、主机、数据库、中间件、业务系统的资源数据由CMDBADDM进行统一的采集入库,并通过CMDB构建Cl之间的逻辑关系,形成逻辑关系视图。2、采用现有集
13、中监控系统进行运行数据的采集。采用现有的Ultra-NMS实现对被管对象,涵盖网络(SNMP)、主机(BPM)、数据库(BPM)、中间件(BPM)、业务系统(接口)的运行数据采集,并通过与CMDB采集数据进行同步,将CMDB的部分资源数据同步入NMS。3、机房环境监控系统通过接口向集中监控系统传递告警事件,主要采用TraP告警的方式,传递告警事件,形成集中的告警管理。4、集中监控系统在告警产生时,通过接口将事件传递至服务流程系统,在服务流程系统中自动生成工单并处理。在事件处理完毕后,服务流程系统返回参数至集中监控系统,进行告警清除。5、CMDB提供数据为服务流程系统进行消费,并通过关系建立,在
14、流程中可提供可视化的业务关系视图和业务影响视图,为审批决策提供参考数据。在变更流程审批通过且变更实施后,将自动改变CMDB的Cl属性或关系。6、服务流程系统驱动自动化流程,并在需要自动化操作时进行关联,并由自动化系统驱动指令进行下发,执行变更操作,并将变更的结果返回服务流程变更流程,告知变更成功,若变更不成功,则通过TraP告警的方式告知集中监控系统进行处理。7、数据最终以综合分析展现系统中进行统计分析、综合呈现。下面以一个业务场景进行整体架构的描述:以用户申请安装一个虚拟机环境为例。综合运维管理平台采用ADDM自动发现ESXSerVer的资产信息,并进行入库,通过CI关系的梳理,形成该ESX
15、Server与相关业务之间的关系。由NMS进行系统运行状态的采集,采集其关键KPlS的性能和告警信息,在正常运行的情况下,可进行资源的申请。由该用户发出服务请求,通过Remedy平台建单进行审核,相关审核人员可通过Remedy工单系统查看到该资源对应的业务系统关系,并判断其资源占用是否会影响到现有业务系统的稳定运行。若会产生影响,则审核不能通过,若不会产生影响,且在允许的情况下,则通过审核。通过审核的变更调用与自动化BIade1.ogiC的接口,自动下发指令,由系统自动安装该虚拟机及相应的应用软件。在自动化操作完成后,将发送状态至Remedy流程平台,告知关闭工单,并改变CMDB中的Cl数据。
16、若自动化操作不成功,工单不关闭,发送TraP告警至Ultra-NMS进行告警展示,并进入服务流程进行该告警的处理,在告警处理完毕后,返回Ultra-NMS进行告警清除,关闭工单。这样,一个标准的、自动化的运维变更就完成了虚拟机环境的申请和自动安装,并通过后续的统计分析和展现,对整体运维工作进行结果汇总,以达到考核管理的目的。 .2统一的配置管理子系统CMDB配置管理系统(CMS)是整个IT服务的数据中心,它上承服务,下启IT,CMS是整个服务数据的基础,它的构建将是基础性的,在完成整个服务平台建设后,它将成为串接所有流程数据的中心,CMS的核心在于CMDB,因此本次设计,我们将以统一的CMDB
17、作为核心,起到承上启下的作用,为整个深圳分公司的IT运维建设提供数据基础。基于对深圳分公司现有IT运维建设的分析,设计采用BMCAlriumCMDB来构建分公司运维的统一数据模型,并制成整个分公司的运维体系建设。B至ManQr6Mnogr:C&otog支持定义服务H景.包含服务相关的条款.描述.成本.港阳等业务相关信实现业务与技术关联.创独和悔护企业级的DH1.和DM1.从CMDB中8人或肾出数累侪看与修改C(M模型KGCI和Cl关系在不问题靠集和不同效据健供Ir的数据中.确保产IaX体和分类信是的an从多个数据集实例中迸行Cl和C卜关系调和.生成的生产效燃集迸行事阿受更彰府分析M置Cl与外部
18、联环数檄的关系BMCAtnumCoreConsole附图3.统一CMDB数据消费以统一的CMDB作为数据基础,为集中监控系统提供更为丰富的资源数据,并在变更后将数据自动同步至集中监控系统中;为服务流程系统提供数据支撑和关系消费;并为统计分析提供数据来源。因此统一CMDB的构建在本次项目中尤为重要,除了建立灵活的数据消费关系外,还需要深入业务进行Cl关系的梳理,保证业务逻辑结构清晰、准确,从而更准确的为其他子系统提供准确的数据消费。4.2.1 采用ADDM统一采集CMDB作为统一的数据源,建立业务模型、Cl关系,其底层需要有数据来源作为支撑,如靠手工的方式进行数据的录入,是无法满足运维体系的建设
19、的。因此本次设计中,我们新增BMCADDM(BMCAtriumDiscoveryandDependencyMapping),通过ADDM自动采集IT架构信息与状态,并通过调和引擎实现与CMDB的数据互通与校验,将从根本上保障配置信息的时效性、精确度。通过ADDM的自动采集,使得CMDB系统发现更为全面的资源数据,并可促使CMDB成为一个自我进化的子系统,以此更全面的支撑IT运维管理的建设。4.2.1.1 通过BMCADDM自动发现资源属性BMCADDM提供对任何发现设备的查询能力,查询范围包括:BIOS,描述信息,DNS名称,IP地址,标签,位置,MAC地址,制造商,型号,开放的TCP端口,操
20、作系统类型,处理器速度,处理器/架构,软件补丁,软件产品,系统名称,以及对象类型。因此本次借助BMCADDM,实现对深圳分公司的所有IT资产的自动发现和采集,并进行入库,形成统一的CMDB管理库,供其他子系统消费。4.2.1.2 通过BMCADDM自动发现Cl关系在自动发现资产设备后,通过直接集成同步至BMCAtriumCMDB中,并采用BMCServiceImpactManager和ServiceModelEditor创建和维护业务服务模型,建立CI之间的关系,形成业务影响视图,供业务影响分析消费使用。其CI模型和关系同时也将支撑BMCRemedy服务流程平台(如BMCRemedy服务台,B
21、MC配置管理,BMCRemedy变更管理以及BMCRemedy资产管理)进行消费。4.2.2 可视化展示和管理Cl和关系通过ADDM可自动发现CI之间的关系,CI和关系的展示底层服务器端使用AdobeFIex技术,可动态生成基于flash的Web视图,客户端同时支持B/S和C/S方式访问,支持IE和Firefox浏览器。可视化Cl和关系展示工具不仅能显示相关配置项和关系,还能在界面上直接编辑,所见即所得的编辑方法,能修改Cl和关系的属性,能用拖拽的方式创建新的Cl和关系,能立刻保存编辑结果到CMDB中。附图4.Cl关系可视化查询功能:不仅能查询指定的某个类的实例,而且能同时设置多个类的属性作为
22、查询条件,例如可支持查询:安装了MSSQ1.2000的Dell服务器;运行于AAA服务器上的VMWare虚拟系统BBB等等。CI和关系能够以业务模型的形式,展示各个CI之间的拓扑链接关系,拓扑视图中的CI能任意拖动,转换各种视角和排列方式:循环、有机、分层和正交;拓扑图型显示和数据列表可以在一个视图中随意切换。系统用户能按照自己的需求,把查询的结果或者所见到的内容保持成视图,每个能管理自己的视图,视图中的CI和关系是CMDB当中的一组配置项及关系的集合。过滤器是按照类、或者类的属性设置查询过滤条件,不同用户能管理和定义过滤器,管理员可以管理公共过滤器,过滤器能过滤关系和类,能立刻生效与用户视图
23、。CI和关系的模型或者某个独立的CI能够通过UR1.的方式展示,能与第三方应用集成。4.2.3 故障定位与变更影响分析通过CMDB对Cl与业务系统的关系梳理,形成业务逻辑拓扑图。当监控系统产生故障告警时,通过与服务流程的接口,可实现故障告警的自动建单和流转。为此,当生成事件工单时,通过工单界面新增”业务影响关系”按钮,可弹出与该设备相关的Cl关系模型图。通过该业务模型,可判断该故障所影响的范围,以及影响的深度。同时,当产生业务告警时,在流程中通过业务影响关系,可快速判断影响业务系统的重要组件,从而加速故障处理能力。CMDB还将支撑变更流程,在变更前,需要了解此变更会影响的设备、系统、应用范围,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深登运维 规划 方案 _20120720 by yxc

链接地址:https://www.desk33.com/p-1372025.html