深登运维规划方案_20120720-by-yxc.docx
中国证券登记结算有限公司深圳分公司一体化运维管理平台规划UltrQQOuUer北京神州泰岳软件股份有限公司2024年4月28日目录1 引言41.1 编写目的41.2 项目背景41.3 定义41.4 参考资料42 基于目前管理现状的分析53 总体规划思想64 总体规划方案84.1 总体技术架构84.2 统一的配置管理子系统CMDBIl4.2.1 采用ADDM统一采集124.2.2 可视化展示和管理CI和关系124.2.3 故障定位与变更影响分析134.3 集中监控管理子系统144.3.1 面向虚拟化的监控管理144.3.2 机房环境的统一监控(可选)174.3.3 面向业务过程的监控184.4 自动化运维子系统194.4.1 自动化技术架构194.4.2 功能实现214.5 服务流程子系统升级294.5.1 平台升级294.5.2 建立知识库管理系统294.5.3 建立值班作业计划管理流程314.6 综合分析展现子系统334.6.1 业务影响视图展示334.6.2 建立信息中心统一门户系统344.6.3 建立丰富的大屏展现系统374.7 各子系统间的逻辑关系设计404.7.1 CMDB与监控的数据同步关系设计404.7.2 CMDB与服务流程之间的关系设计424.7.3 监控与自动化之间的关系设计434.7.4 服务流程与自动化之间的关系设计444.7.5 监控与服务流程之间的关系设计454.7.6 监控与第三方管理平台的关系设计(可选)465 项目实施规划475.1 整体部署架构设计475.2 软、硬件配置建议485.3 分阶段建设建议491引言1.1 编写目的本文档根据中国登记结算有限公司深圳分公司运维现状和预期目标进行详细的设计,旨在为IT运维二期提供解决方案路线和参考。1.2项目背景阐述中国登记结算有限公司深圳分公司的IT运维背景1.3 定义术语、规范的定义)1.4 参考资料本解决方案所参考的技术资料2基于目前管理现状的分析IT运维管理的建设,需要经历一个长期的过程,通过循序渐进,逐步提高的建设思路来达到管理目标。而随着IT技术的日新月异,企业的IT技术也逐步形成了高水平、高技术、高成本的运营模式,主动化、自动化、标准化的运维管理体系成为了IT运维发展的重要目标之一。随着中国证券登记结算有限公司深圳分公司的IT运维管理建设,目前已经形成了面向全范围内的IT设备集中监控和标准的IT服务流程管理。在集中监控层面,采用神州泰岳集中监控管理系统Ultra-NMS和BMC底层采集代理产品BMCPatrolAgent实现了面向生产网、办公网、Prop外联网、管控网、开发测试网等,涵盖网络、主机(AlX、UnixWindows、1.inux.AS400等)、数据库、中间件、AWS等集中的监控管理;在服务流程方面,采用BMCRemedy平台建立了服务台、事件、问题、变更、配置等管理流程,实现了分公司日常运维管理工作的标准化。以此形成了一个符合日常运行管理的标准管理体系,从监控和服务流程管控等方面提升了分公司的运维管理能力。但随着技术的不断发展和管理需求的不断提出,这种仅面向监控和服务流程的管理已略显不足,我们需要更为全面的管理体系来实现深圳分公司的主动化、自动化和标准化的运维管理。主动化运维则不仅仅是主动的监控管理,其更深层次的目标则为面向整个分公司的统一资产的集中运维、业务关系的深化分析、业务逻辑的构建,并以此作为基础形成精细化的监控管理和故障定位。自动化则要求在以全分公司资产作为基础,在此基础上形成自动化控制手段,以标准的自动化手段实现对服务器的统一和和规划操作,以降低风险、提升工作效率。标准化则要求以标准的流程进行约束,并形成以统一的资产作为核心,进行上层的流程流转和控制,形成标准的流程管控体系。为此,在主动化、自动化、标准化的要求下,需要形成以统一资产管理(CMDB)为核心,支撑集中监控管理(NMS)、服务流程管理(Remedy)、自动化管理(Blade1.OgiC)的统一运维管理体系。同时,为了更全面更有效的利用、分析管理数据,为系统规范、系统分析、决策判断提供准确的依据,需要通过综合分析展现平台,进行多视角、多维度的分析,直观展示业务、应用及系统的运行状况、发展趋势,为系统扩容优化、业务质量考核提升提供运维数据支持。并增强运维体验,以人性化和丰富化的展现手段呈现日常管理情况,不断增强运维平台展示效果,提升运维管理的主动性和积极性。3总体规划思想基于中国登记结算有限公司深圳分公司的IT运维管理现状分析,为更进一步提升日常的管理效率,从整体上提高深圳分公司的IT运维管理能力,保隙日常业务的稳定运行,建设成真正意义的主动化、自动化和标准化运维管理体系,需要结合目前深圳分公司的建设情况,在已有的平台基础上进行统一的规划和建设,形成面向监、管、控全面的运维平台。根据前面的分析,本次将以建设一个统一的运维管理平台为出发点,以统一CMDB作为核心,支撑集中监控系统、服务流程系统、自动化运维系统和综合分析展现系统。即以此形成一个平台、五个子系统的运维架构。附图1.总体设计思想以CMDB为核心,建立一个平台五个子系统一个平台即指整体的IT运维管理平台,从主动化、自动化、标准化的运维管理目标出发进行建设,形成面向深圳分公司的统一运维管理。 统一CMDB管理:以统一的CMDB作为核心,通过CMDB建立资源模型,并树立Cl之间的关系,形成面向整体业务的逻辑进行管理,并以此支持集中监控、服务流程、自动化系统和综合分析展现系统的数据消费,形成集中的管理界面呈现和本文档仅限北京神州泰岳软件股份有限公司和被呈送方内部使用,未经许可,请勿扩散到第三方。第6页共51页分析,从而达成主动化、自动化和标准化的管理目标。 集中监控管理:采用目前已有的集中监控系统,在目前已实现的监控管理基础上,新增对虚拟化的监控,并实现对跑批业务的集中监控,形成试点和管理标准,从以往关注IT组件层面的监控管理提升到端到端的面向业务的管理,实现对应用层面,业务流程层面,用户层面全方位深入的监控和管理,并为业务系统运维的后期管理提供可参考模型。 标准服务流程管理:借助现有的Remedy流程系统,进行服务流程的控制,并开发相应的接口,实现与集中监控、自动化之间的接口, 自动化运维管理:采用自动化系统进行日常变更操作的自动化、和规划和巡检的自动化,并通过与统一CMDB、集中监控、Remedy流程的结合形成真正意义上的监管控一体化运维体系,充分发挥平台一体化优势,充分利用产品功能,避免孤岛系统建设。 决策分析深化:采用集中化的管理门户和报表,将各类数据源进行统一展示和分析,使用者在个性化的视图中对多个系统数据进行浏览和处理,并建立丰富化和人性化的展现体系,如大屏展现,将管理数据以美观丰富的界面层面给管理者,提升管理的积极性。五个子系统: 统一CMDB子系统:采用AtriUmCMDB进行搭建,并通过梳理建立Cl之间的模型关系。 集中监控子系统(监):采用NMS集中监控系统搭建(已有)。 服务流程子系统(管):采用Remedy服务流程进行搭建(已有)。 自动操作维护子系统(控):采用Blade1.OgiC进行搭建。 综合分析展现子系统:采用UItra-RePort、UIP、ShOW进行建设(部分已有)。为了形成一体化的运维管理,还需要梳理五个子系统之间的逻辑关系,形成数据的统一流转和消费。4总体规划方案 .1总体技术架构总体技术架构采用一个综合运维平台、五大子系统进行构建,即由五大子系统构建成符合深圳分公司的IT运维管理平台。五大子系统包括统一CMDB子系统、集中监控子系统、服务流程子系统、自动化管理子系统、综合分析展现子系统。五大子系统以CMDB作为核心,支撑周边系统运行,采用数据同步、消费等支持关系,构建出一体化的运维体系:半食白一用M1i啊T理I三三l«819T,他踩U碎石发布攫主机雷控中诩拙控机店皆亚苓系唉C相片曾控Trgp告警I已有窿口f待谏椿口O已有功能。待0功能数据库附图2.总体技术架构在架构设计中,充分考虑到深圳分公司目前已经建设的系统情况,采用统一CMDB作为核心,结合现在正在稳定运行的集中监控系统和服务流程系统,并通过新增相关功能模块实现监控的全面化和深度化,通过接口的开发实现数据的同步和消费,从而形成以CMDB为核心,支撑监、管、控和综合分析展现的IT总体运维框架。整体架构逻辑说明如下:1、采用CMDBADDM进行综合数据采集。针对被管对象的数据,涵盖网络(安全设备)、主机、数据库、中间件、业务系统的资源数据由CMDBADDM进行统一的采集入库,并通过CMDB构建Cl之间的逻辑关系,形成逻辑关系视图。2、采用现有集中监控系统进行运行数据的采集。采用现有的Ultra-NMS实现对被管对象,涵盖网络(SNMP)、主机(BPM)、数据库(BPM)、中间件(BPM)、业务系统(接口)的运行数据采集,并通过与CMDB采集数据进行同步,将CMDB的部分资源数据同步入NMS。3、机房环境监控系统通过接口向集中监控系统传递告警事件,主要采用TraP告警的方式,传递告警事件,形成集中的告警管理。4、集中监控系统在告警产生时,通过接口将事件传递至服务流程系统,在服务流程系统中自动生成工单并处理。在事件处理完毕后,服务流程系统返回参数至集中监控系统,进行告警清除。5、CMDB提供数据为服务流程系统进行消费,并通过关系建立,在流程中可提供可视化的业务关系视图和业务影响视图,为审批决策提供参考数据。在变更流程审批通过且变更实施后,将自动改变CMDB的Cl属性或关系。6、服务流程系统驱动自动化流程,并在需要自动化操作时进行关联,并由自动化系统驱动指令进行下发,执行变更操作,并将变更的结果返回服务流程变更流程,告知变更成功,若变更不成功,则通过TraP告警的方式告知集中监控系统进行处理。7、数据最终以综合分析展现系统中进行统计分析、综合呈现。下面以一个业务场景进行整体架构的描述:以用户申请安装一个虚拟机环境为例。综合运维管理平台采用ADDM自动发现ESXSerVer的资产信息,并进行入库,通过CI关系的梳理,形成该ESXServer与相关业务之间的关系。由NMS进行系统运行状态的采集,采集其关键KPlS的性能和告警信息,在正常运行的情况下,可进行资源的申请。由该用户发出服务请求,通过Remedy平台建单进行审核,相关审核人员可通过Remedy工单系统查看到该资源对应的业务系统关系,并判断其资源占用是否会影响到现有业务系统的稳定运行。若会产生影响,则审核不能通过,若不会产生影响,且在允许的情况下,则通过审核。通过审核的变更调用与自动化BIade1.ogiC的接口,自动下发指令,由系统自动安装该虚拟机及相应的应用软件。在自动化操作完成后,将发送状态至Remedy流程平台,告知关闭工单,并改变CMDB中的Cl数据。若自动化操作不成功,工单不关闭,发送TraP告警至Ultra-NMS进行告警展示,并进入服务流程进行该告警的处理,在告警处理完毕后,返回Ultra-NMS进行告警清除,关闭工单。这样,一个标准的、自动化的运维变更就完成了虚拟机环境的申请和自动安装,并通过后续的统计分析和展现,对整体运维工作进行结果汇总,以达到考核管理的目的。 .2统一的配置管理子系统CMDB配置管理系统(CMS)是整个IT服务的数据中心,它上承服务,下启IT,CMS是整个服务数据的基础,它的构建将是基础性的,在完成整个服务平台建设后,它将成为串接所有流程数据的中心,CMS的核心在于CMDB,因此本次设计,我们将以统一的CMDB作为核心,起到承上启下的作用,为整个深圳分公司的IT运维建设提供数据基础。基于对深圳分公司现有IT运维建设的分析,设计采用BMCAlriumCMDB来构建分公司运维的统一数据模型,并制成整个分公司的运维体系建设。B至ManQr6Mnogr:C&otog支持定义服务H景.包含服务相关的条款.描述.成本.港阳等业务相关信实现业务与技术关联.创独和悔护企业级的DH1.和DM1.从CMDB中8人或肾出数累侪看与修改C(M模型KGCI和Cl关系在不问题靠集和不同效据健供Ir的数据中.确保产IaX体和分类信是的an从多个数据集实例中迸行Cl和C卜关系调和.生成®的生产效燃集迸行事阿受更彰府分析M置Cl与外部联环数檄的关系BMCAtnumCoreConsole附图3.统一CMDB数据消费以统一的CMDB作为数据基础,为集中监控系统提供更为丰富的资源数据,并在变更后将数据自动同步至集中监控系统中;为服务流程系统提供数据支撑和关系消费;并为统计分析提供数据来源。因此统一CMDB的构建在本次项目中尤为重要,除了建立灵活的数据消费关系外,还需要深入业务进行Cl关系的梳理,保证业务逻辑结构清晰、准确,从而更准确的为其他子系统提供准确的数据消费。4.2.1 采用ADDM统一采集CMDB作为统一的数据源,建立业务模型、Cl关系,其底层需要有数据来源作为支撑,如靠手工的方式进行数据的录入,是无法满足运维体系的建设的。因此本次设计中,我们新增BMCADDM(BMCAtriumDiscoveryandDependencyMapping),通过ADDM自动采集IT架构信息与状态,并通过调和引擎实现与CMDB的数据互通与校验,将从根本上保障配置信息的时效性、精确度。通过ADDM的自动采集,使得CMDB系统发现更为全面的资源数据,并可促使CMDB成为一个自我进化的子系统,以此更全面的支撑IT运维管理的建设。4.2.1.1 通过BMCADDM自动发现资源属性BMCADDM提供对任何发现设备的查询能力,查询范围包括:BIOS,描述信息,DNS名称,IP地址,标签,位置,MAC地址,制造商,型号,开放的TCP端口,操作系统类型,处理器速度,处理器/架构,软件补丁,软件产品,系统名称,以及对象类型。因此本次借助BMCADDM,实现对深圳分公司的所有IT资产的自动发现和采集,并进行入库,形成统一的CMDB管理库,供其他子系统消费。4.2.1.2 通过BMCADDM自动发现Cl关系在自动发现资产设备后,通过直接集成同步至BMCAtriumCMDB中,并采用BMCServiceImpactManager和ServiceModelEditor创建和维护业务服务模型,建立CI之间的关系,形成业务影响视图,供业务影响分析消费使用。其CI模型和关系同时也将支撑BMCRemedy服务流程平台(如BMCRemedy服务台,BMC配置管理,BMCRemedy变更管理以及BMCRemedy资产管理)进行消费。4.2.2 可视化展示和管理Cl和关系通过ADDM可自动发现CI之间的关系,CI和关系的展示底层服务器端使用AdobeFIex技术,可动态生成基于flash的Web视图,客户端同时支持B/S和C/S方式访问,支持IE和Firefox浏览器。可视化Cl和关系展示工具不仅能显示相关配置项和关系,还能在界面上直接编辑,所见即所得的编辑方法,能修改Cl和关系的属性,能用拖拽的方式创建新的Cl和关系,能立刻保存编辑结果到CMDB中。附图4.Cl关系可视化查询功能:不仅能查询指定的某个类的实例,而且能同时设置多个类的属性作为查询条件,例如可支持查询:安装了MSSQ1.2000的Dell服务器;运行于AAA服务器上的VMWare虚拟系统BBB等等。CI和关系能够以业务模型的形式,展示各个CI之间的拓扑链接关系,拓扑视图中的CI能任意拖动,转换各种视角和排列方式:循环、有机、分层和正交;拓扑图型显示和数据列表可以在一个视图中随意切换。系统用户能按照自己的需求,把查询的结果或者所见到的内容保持成视图,每个能管理自己的视图,视图中的CI和关系是CMDB当中的一组配置项及关系的集合。过滤器是按照类、或者类的属性设置查询过滤条件,不同用户能管理和定义过滤器,管理员可以管理公共过滤器,过滤器能过滤关系和类,能立刻生效与用户视图。CI和关系的模型或者某个独立的CI能够通过UR1.的方式展示,能与第三方应用集成。4.2.3 故障定位与变更影响分析通过CMDB对Cl与业务系统的关系梳理,形成业务逻辑拓扑图。当监控系统产生故障告警时,通过与服务流程的接口,可实现故障告警的自动建单和流转。为此,当生成事件工单时,通过工单界面新增”业务影响关系”按钮,可弹出与该设备相关的Cl关系模型图。通过该业务模型,可判断该故障所影响的范围,以及影响的深度。同时,当产生业务告警时,在流程中通过业务影响关系,可快速判断影响业务系统的重要组件,从而加速故障处理能力。CMDB还将支撑变更流程,在变更前,需要了解此变更会影响的设备、系统、应用范围,以便制定有效的变更方案。例如:对QASEPl设备做变更,在变更单规划时,关联需要变更的CIQASEPl,对QASEPl做变更影响分析,自动显示会影响PBANK服务,将变更影响分析结果以附件形式保存在变更规划中。耳声i一如果对该I1.Jl-务器做变更 .3集中监控管理子系统43.1面向虚拟化的监控管理虚拟化技术在日前发展迅速,虚拟化平台的建设和使用将成为深圳分公司后期IT建设的重点工作之一,虚拟化资源实体与物理实体一样,仍需要对其进行监控和维护。各虚拟化厂商针对各自的虚拟化平台均提供了特定的管理工具(例如:VMware的V-Center),但由于这些特定的管理工具重点关注的是对虚拟化平台的“配置管理”,而非监控管理(尽管这些工具本身提供了一定的监控管理能力),因此需要通过本次项目的建设,实现对面向虚拟化的监控管理,而且借助目前已有的集中监控平台,形成统一的一体化监控体系。虚拟化的监控则需要实现基本的设备管理、性能管理、拓扑管理、告警管理等,并实现业务与虚拟机之间的关系。针对VM-Ware虚拟环境,要求在管理中需实现虚拟机的集中管理功能,能自动生成V-Center与虚拟服务器之间的资源结构关系,能体现出当VM在ESX之间发生切换时拓扑图的动态切换,且能够产生VM切换的变更告警,鼠标放置在资源上时,能显示该资源的部分关键属性及性能指标。附图6.虚拟机切换告警针对虚拟化的监控,我们采用Ultra-NMS集中监控管理系统,借助BMCBPM监控代理,通过在V-Center上部署管理Agent,并通过KMforVMware,自动发现虚拟机设备相关信息,并通过与UItra-NMS的集成,实现对虚拟化主机的监控。监控范围包括: 针对V-center的状态进行监控,出现故障时触发生成告警。 能自动生成Data-Center的资源对象。 能生成CkIStei资源对象,对ClUSter的状态,使用CPU、内存的情况进行监控,包括:CPU利用率、内存利用率、当前可利用的CPU资源、当前可利用的内存资源、过去一天的动态迁移次数、过去一小时的动态迁移次数、过去一周的动态迁移次数等。真实的虚拟化拓扑视图,可通过拓扑视图直观展现出虚拟化设备相关信息。附图7.虚拟机拓扑视图 能完成对ESX物理机(CPU、内存、磁盘、网卡、光纤存储卡)、资源池、存储的监控。包括:CPU利用率、内存利用率、交换分区使用率、CPU利用率(单个)、带宽利用率、磁盘读写请求数、虚拟机昨日迁入数、上一个小时动态移入数、虚拟机昨日迁出数、上一个小时动态移出数等。 能对Data-Store的剩余空间、空间使用率进行监控。 能对Resoure-pool资源池进行监控,包括预留的CPU资源、可用的CPU资源、预留的CPU资源类型、CPU资源最大限制、预留内存资源、可用的内存资源、预留的内存资源类型、内存最大限制、虚拟机个数等进行监控。 能对VM虚拟机的物理内存、所属ESX、CPU个数、操作系统版本、虚拟机文件名、CPU利用率、内存利用率、当前可用空间(MB)、磁盘读写请求数、网络数据包传输量(MbPS)等进行监控。 能实现在虚拟机切换时产生告警。 综合虚拟化环境中运行的应用程序、虚拟化平台自身及其下的物理运行环境,并进行关联分析,并准确了解最终用户体验到的此类虚拟化业务应用的性能。包括网络设备和服务器平台。如:SAN存储、光纤交换机、数据库、应用中间件、小机UNIX等。4.3.2 机房环境的统一监控(可选)目前深圳分公司建设了面向机房环境的监控管理,机房监控管理系统为单独的管理系统,针对机房温度、湿度、UPS、空调等进行监控,当产生故障时也会以相应的告警方式进行展示和通知。但管理人员需要登录专门的机房环境监控平台,进行相应的指标查看、故障处理等。这种管理方式相对较为繁琐,且无法形成一体化的运维体系,易形成信息孤岛,特别是在产生故障时,需运维人员通过单独的审核流程(或直接)进行故隙处理,无法进行工作状态和运行状况的综合管制和统计分析。在综合运维管理的体系建设下,需将机房环境监控统一纳入到运维管理平台中,实现机房环境与IT设备一视同仁的监控管理,在产生故障告警时通过综合运维平台统一发送告警通知,且统一通过标准的服务流程进行工单的建立和审批,从而进行标准化的事件流程处理。因此在本次设计中,通过与机房环境监控平台的接口开发,实现对机房环境监控的接入。即通过Tr叩告警的方式接入机房环境监控平台的告警信息,通过集中建立系统Ullra-NMS的事件标准化对告警进行解析,并针对告警情况进行级别的设定,以通知相应的管理人员进行故障的处理。为此,可通过集中监控系统统一查看到机房环境的告警信息,并通过集中监控系统统一调用服务流程系统的接口,进行工单的生成和派发工单,并统一在工单处理完成之后进行告警的清除。形成真正意义上的一体化监控管理,以符合一体化运维管理的总体目标。4.3.3 面向业务过程的监控通过跑批系统传递的业务数据,形成业务过程的逻辑视图,并可在视图中展现出跑批业务的每个节点的响应时间、成功状态,以确保对业务过程的全面监控。附图8.跑批业务流程过程视图针对跑批业务过程的监控,需通过与深圳分公司跑批系统之间进行接口的开发,主要通过Webservice接口的方式,由跑批业务系统将每个过程的数据传递(通过BusinessRelation接口)至集中监控管理子系统Ultra-NMS,通过在Ultra-NMS系统中通过Bizimpact模块实现业务过程关系自动生成,采取业务模拟的方式进行跑批业务过程中的每一个环节的响应时间、等待时间、预期完成时间等关注指标的监控。在未按照预期范围执行成功的节点产生相应的告警提示,从而实现对跑批业务的每一个环节进行监控,以实现对业务环节中所产生的故除进行快速定位和处理。这种关系通过定期的传递,存于NMS数据库中,当关系改变时,改变的关系传递至NMS,NMS将自动同步改变后的关系,并自动生成新的业务过程图。通过对跑批业务过程的监控,形成面向深圳分公司的业务监控试点,形成管理规范,为后续的业务监控打下基础,确保后续业务监控建设的顺利推广。4.4自动化运维子系统随着深圳分公司业务系统的发展,IT资产规模不断扩大,信息化系统对业务的支撑作用日益加强,因此如何进行信息化系统的维护越来越重要。而在IT运维管理体系的建设中,需要时间监、管、控为一体的运维管理手段,从而达到主动化、自动化、标准化的管理。目前深圳分公司借助BMCRemedy平台建立了标准的变更管理流程,但随着业务的不断扩展,仅靠变更管理流程还不能解决繁重的变更需求。主要表现在如下几个方面: 业务系统上线,升级频繁,变更的具体实施操作完全依赖手工完成,时间紧,任务重,变更实施人员往往无法在预定的变更窗口时间内完成变更实施和验证,而高强度的手工操作容易导致操作失误和变更失败,并可能直接酿成生产事故。如手工执行补丁的升级,容易造成补丁安装错误,导致业务系统无法正常运行的情况。 变更验证耗时长。在业务系统的上线与变更中,由于主要依靠手工进行,每一次变更所耗费的时间过多,并且只能做到抽查,缺乏有效的工具帮助进行变更验证。 变更管理流程记录外的系统更改和配置更改,将成为系统的隐患。因此需要对用户登录系统终端进行操作的记录,查询和审计功能,快速探测非法更改。 为保障安全生产和系统稳定运行,深圳分公司需要进行面向服务器,网络设备,中间件,数据库和应用的巡检,且在巡检实施过程中,主要依靠手工和少量脚本,缺乏必要的工具支撑,巡检周期长、工作量大且繁琐,重复劳动较大,只能做到抽查而无法覆盖全部设备,容易产生漏检等情况,且人工巡检的方式容易产生误操作,对系统运行造成了较大的安全隐患。因此在本次规划中,通过BMCBladelOgiC自动化运维平台为深圳分公司搭建自动化运维体系,实现日常运维工作的自动化操作和安全审计,如健康检查,安全与操作审计,操作系统安装,软件安装,配置变更,常规与例行作业等日常运维操作的自动化,以提高运维效率,保障安全生产。4.4.1 自动化技术架构本次采用Bladelogic实现对深圳分公司的自动化运维体系的建设,通过安装在被管服务器上的代理(Agent)实现自动操作。操作员登陆到平台的客户端,以作业的形式定义操作内容,操作对象,运行时间等,提交到平台核心。核心发指令到被管服务器上管理Agent,完成操作并返回操作结果,如下图所示:附图9.自动化运维平台部架构被管限务器该Agent与针对服务器监控的BPM不同,需要在服务器上单独进行部署。BPM主要针对被管对象进行数据采集,而BladelogicAgent主要实现对服务器进行指令的执行。由于统一CMDB采用ADDM进行数据采集,能自动发现设备全面的资产属性,因此在自动化执行过程中,需考虑到与ADDM自动发现不同的应用场景,以保证系统之间不重复采集,减少对系统资源的占用。因此自动化部署主要需要考虑到如下应用场景:1、CMDB通过ADDM自动发现设备属性信息、Cl之间的关系,形成业务影响视图,供Remedy服务流程进行消费,此时自动化过程并未执行。2、当需要进行自动化变更时,通过Remedy服务流程系统进行工单的审核,此时可查看到该变更对业务的影响,并判定是否通过该变更审核。在审核通过后,由BIadelOgiC发送指定至被管对象上的Agen3自动执行操作。此时Bladek)gicAgent不自动发现设备属性信息,而通过CMDBADDM进行设备信息的采集。因此,BladeIogiCAgent主要针对服务器进行指令的执行和操作合规的审计,三ADDM主要通过自动发现采集设备的属性信息。在自动化执行成功后,通过流程进行控制,并由ADDM自动发现自动更改CMDB中的CI数据。4.4.2 功能实现采用Bladelogic主要针对深圳分公司的日常管理工作实现其自动化功能,包括自动化变更操作、合规化操作审计、日常巡检自动化等几个方面。4.4.2.1 变更等操作自动化执行变更等操作自动化执行要求变更能通过Remedy流程进行审核,在审核通过后采取自动化操作,因此自动化操作需要借助流程来进行控制,以保证操作的和规划,减少因为非法操作带来的业务风险。自动化变更操作主要针对如下几块内容进行建设:4.4.2.1.1 针对补丁的管理自动化变更首先需要针对平台补丁进行分析,并自动检查和安装操作系统补丁,通过自动化的控制,实现补丁的安全、合规安装,保证系统的健康型,并减少人为升级补丁导致的系统漏洞等隐患。二F三三二二三附图10.WindOWS补丁分析在安装完补丁后,可针对安装的补丁进行检查,并统计分析出补丁安装的报表。附图11.WindOWS补丁检查报表附图12.AIX补丁分析4.4.2.1.2 自动化应用程序分发在深圳分公司的日常运维管理中,需实现对应用程序进行分发,针对不同的业务系统和设备,进行程序的下发和安装等操作,因此采用BIadeIOgiC实现对服务器的诸多管理对象进行打包、分发、合规等操作。Bladelogic采用BMC独有的专利打包技术B1.Package,打包的对象可以是软件介质,服务,用户,配置项等。以实现对应用程序的自动化分发。酎图13.自动化应用程序分发为了保证系统的灵活性,在程序分发的过程中,可以分别定义作业的不同阶段(测试,下发介质,提交)的执行时间,同时可以对正在进行的作业强制中断,或对已经完成的变更作业进行回滚。如下图所示:rt,OM:1.,.<tj.ProgftsIPW,RvE(BSMA8EXks强制取消C=自动回滚1.力北'人数1川户收汾3用户卜g赤附图14.作业取消与回滚4.4.2.1.3虚拟机自动化操作虚拟机自动化操作则指在针对虚拟机的创建、起停、合规检查等等,其与集中监控系统的虚拟机监控不一样,虚拟机监控主要针对虚拟机的运行状况进行管理,而BIadelOgiC主要针对虚拟机的创建等动作,因此在针对虚拟机开通前,需结合集中监控系统、CMDB进行虚拟机环境的查看,以确保有足够的资源可开通虚拟机,在允许的情况下,进行虚拟机的自动安装和启停。如下图所示:Jf>HXM<M*m)b.DrMHn*21Cw<tr0RS2JRMun*MCM>-MfMIlMfMMI酎图15.虚拟机的自动化操作考虑到虚拟机进行变更时可能会造成集中监控系统产生告警,因此需要保证自动化操作通过流程进行控制,以保证操作的合规性,一方面保证操作安全,同时也减少不必要的告警。4.4.2.1.4自动化脚本执行自动化平台支持以集中的方式在多台被管服务器,服务器组上执行脚本,并统一收集执行结果,以减轻脚本执行的重复工作量,并保证脚本执行的安全性如下图所示:附图16.自动化脚本执行4.4.2.2合规划操作审计合规划操作审计主要针对自动化操作的审计功能,以保证每一步操作都遵循标准进行,从而减少非法变更所带来风险。合规化操作审计主要针对操作的审计、合规的审计和配置的跟踪。4.4.2.2.1 操作审计自动化平台具备单独登录功能,在完成自动化平台角色到操作系统用户的映射后,用户可以直接在服务器图标上点击右键,选择“nshhere",无须输入用户名/密码,便可打开服务器的consoleo同时,系统对用户的击键记录进行记录和审计,并可查询并出具相应的报表,如下图所不O附图17.操作审计报表另外,自动化平台能够对用户使用指令集进行限制,如下图所示:附图18.操作指令收集4.4.2.2.2 合规审计自动化平台支持基于值比对(goldenserver),以及基于规则的合规检查。如在基于goldenserver的比对中,用户首先定义goldenserver中的标准集合,集合可以包括文件,目录,服务,用户,细粒度配置项等,随后指定需要比对的服务器集合,系统自动高亮与标准集的偏移,如下图所示:附图19.合规比对完成规则定义后,BladeIogiC可应用这些规则对服务器或网络设备进行合规检查,高亮不合规的设备和条目,如下图所示:UJfWoriB6dnt<w19ORunM0tr28T2OMU4»57CoMOcncIOp>nlor¢5vrwreH11Urtt.IOfMMlWv11>m,GRwgW200,904然°。MgQSCOM190?20窗Rnat0ft7VX)06l8Secom()*M>c>wn-CRUnatgQ8T38190911RutHVtew0vmw«t11vMt-¼mmemoryrA附图20.不合规条目统计因此在深圳分公司的自动化系统中,通过合规审计,可自动列出不合规相关设备和条目,进行修正,以保证系统的健康性和稳定性。4.4.2.2.3配置跟踪自动化平台通过对用户指定的对象或对象集进行快照(Sn叩Shot)的方式,对配置进行追踪。并可以对配置相对标准的偏移进行比对。并在发现不同时自动发email或SnmPtrap。下图显示某次配置比对的结果:4.4.2.3日常巡检自动化在日常巡检中,有大量重复的工作需要执行,管理人员需要登录设备或系统进行关键指标的查看,或者输入相关的指令进行指标的检查。特别是不同的设备/系统设定不同的管理密码和权限,容易造成大量的管理工作重复和管理资源的浪费,且容易造成安全隐患。因此借助自动化实现针对服务器日常巡检的自动化,将日常重复的工作解放出来,提升巡检的效率和准确率,保证系统的健康度。Bladelogic所提供的细粒度配置项和强大智能判读逻辑,以致一般的检查规则无需编写任何脚本,通过直观的表达逻辑组合即可完成检查设置。因此深圳分公司无需开发脚本即可完成H常巡检的设置,所有巡检项目均可通过组合配置项属性检查实现。附图22.自动巡检配置自动巡检结果可通过报表的方式人性化展现,以自动巡检结果的可读性,保证巡检工作的高效。,MnNim>,_JCy¾iatConvMntNOfKofV<*RaM0240Q00180BXViivur12附图23.自动巡检报表4.5 服务流程子系统升级4.5.1 平台升级目前深圳分公司采用BMCRemedy建立了事件、问题、变更、发布、配置等标准流程,采用的Remedy版本为7.0,为了符合本次综合运维管理平台的建设,且更灵活的支撑深圳分公司的日常流程运转,本次拟定对BMCRemedy平台进行升级,将版本升级至7.604,且保证新的版本支持OraCle数据库,采取平滑升级的方式,所建立的流程不发生改变。4.5.2 建立知识库管理系统为了进一步提升深圳分公司的IT管理能力,促进技术管理人员之间的知识分享与传递,提升整体运维水平,本次将在体化运维管理的基础上建立一套面向深圳分公司内部的知识管理系统,采用Ultra-KM进行知识管理系统的搭建,同时制定完善的知识库管理流程和体系,协助深圳分公司进行知识的积累和共享,完善一体化运维的整体管理能力。整个知识管理的体系将通过对深圳分公司的目前知识体系结构、文档等进行梳理,并从管理的角度对知识的提交、审阅、检索、专家认证等进行不同功能粒度的建设,建立不同的管理人员,保证知识的有效和权威。同时,通过本次知识库管理系统的建设,为后续知识库与服务流程、集中监控等子系统之间的关联和共享做好基础。总体功能说明如下: 建立一个全辖共享的知识库体系,全中文界面,用户支持有帐号的登录和匿名登录,匿名登录为所有人员都可使用,系统支持同时、多人登录,登录后只能做查询和浏览操作;有帐号人员登录按照权限可分为:令系统管理员:拥有系统最高权限,对用户、知识及各种类别有增加、修改、删除的全部权限。知识审批员:按组织划分,有知识库的查询、浏览,知识的提交和审批、发布的权限令支持人