保险行业云管平台建设的重点和经验路径.docx
【摘要】做为直面用户的窗口,云管平台给用户感受是最为直接的,云管平台的设计好坏与否,直接影响着用户的使用体验和效率,本文就云管平台建设过程中的一些思考和经验与大家进行分享。一、刖百随云计算技术近年来的应用场景越来越多,云计算相关技术也逐渐成熟,平台的服务能力和种类越来越完善,基于分布式架构技术的IT技术在运营规模、技术能力、客户体验等方面表现出超越传统企业级IT的能力。传统企业及IT厂商也在加速在云计算领域的布局和转型,在分布式技术体系的标准化、产品化和云运维服务体系化等各个层面大力投入,持续推出企业级云计算产品并不断完善配套的技术支撑能力。国家不断出台信息化建设相关的各种政策和指导意见中都提到了云计算的建设要求和标准,大力推动政府和各企业利用云计算技术提高生产效率并进行业务创新。中国银保监会更是在2018年发布了中国保险业发展“十三五”规划纲要,纲要明确指出:要积极推动云计算、大数据在保险行业的创新应用,加快数据采集、整合和应用分析。但保险业上云对于安全、可靠和合规的要求极高。在企业IT架构从单体架构向分布式架构转变过程中,如何在提升效率的同时有效控制新技术引入带来的风险,成为摆在所有保险企业面前的一道难题。做为直面用户的窗口,云管平台给用户感受是最为直接的,云管平台的设计好坏与否,直接影响着用户的使用体验和效率,本文就云管平台建设过程中的一些思考和经验与大家进行一些分享。二、云管平台的定义众所周知云是分层的。目前大家公认的云架构是划分为基础设施即服务层(IaaS)平台即服务层(PaaS)和软件即服务层(SaaS)三个层次。这三个层次的组件实现的是对资源的管理和服务化,更多的是贴近于资源侧,不具有业务属性、流程管理、计量计费等内容,也称之为云平台。云管平台则是用户使用云平台的入口,它天生附带企业独有的业务特征和行业属性。资源的管理、风险的管控、IT资产管理,以及企业的组织架构都是云管平台得以成功构建并持续运行的基本元素。本文和大家分享的是云管平台的建设经验,并不涉及云平台的思考和构建细节。云管平台(CIoudManagementPIatform,简称CMP)最早是由Gartner提出的企业云战略中一种产品形态。为了更好地管理资源,Gartner对云环境进行了分层定义(见图1):云基础架构层(ClOUdlnfraStrUCtUre),通过云平台来协调管理包括网络、虚拟化、物理服务器、安全等资源在内的底层基础设施,并抽象成叩i形式向外暴露,便于其他软件或模块进行调用和集成。云基础架构层又可以进一步细分成两个部分:1、基础资源层:包括各种计算、网络,存储等基础设施,比如:虚拟化引擎、SDN.SDS等,处于这一部分的的产品和组件提供了云平台及云服务的实际承载载体,是云计算体系中提供应用程序运行的基础环境支撑。2、云平台层:即我们通常所熟知的OpenStackCloudStackVMWarevSphere>AWS.AZUre等。云平台向下管理各类云计算资源,使得IT基础设施以一种统一的、标准的API形式对外暴露,向上形成可编程的接口提供标准化可编程能力,屏蔽底层差异,实现软硬件解耦,使用户可以灵活的对资源和服务进行管理、申请和使用。云管理平台(CMP)层:CMP作为云计算平台的最顶层,它面对的是包括开发人员、IT运维人员、架构人员,甚至财务人员、运营管理人员等最终用户。用户在CMP上依据自身被赋予的权限进行资源的申请、回收、调整、审批等资源生命周期的管理工作。同时用户通过CMP统一进行资源的管理工作,也使得资源的分配情况通过CMP进行汇总和计量,为企业运营管理提供数据参考。三、云管平台的建设方式选择私有云通常有两种建设方式:一种为公有云私有化部署;另外一种即通过OpenStack构建。由于OPenStaCk的投入成本相对较低,相对公有云来说,OPenStaCk更加灵活,易于定制,更适合依据企业特点量身打造个性化云平台。对于公有云私有化部署方式,公有云厂商已经提供了一套完整的云管理平台,用户可以开箱即用或者做少量的定制开发即可满足需求。而通过OPenStaCk进行构建的私有云,就需要用户自行考虑如何构建或者购买第三方的专业云管产品。原生的OpenStack已经提供了Horizon组件,一个Dashboard图形界面工具,可以提供极其有限的资源管理。OPenStaCk的Horizon并不是完整意义上的CMP,其有限的功能对企业级云平台而言是不完备的,作为OPenStaCk的Dashboard项目,它还缺少很多核心功能。OpenStack社区也推荐采用专用性强的CloudManagementTools纳管云平台,这是被C)PenStaCk官方所认可的管理OPenStaCk的标准方法之一。所以,企业通常选择通过全新开发方式或者选择专业的云管产品来构建自己的云管平台。四、云管平台在设计时需要关注的重点从传统IT到云计算模式,企业IT的管理模式需要从“运行管理”向“服务运营''进行转变。转变的过程可能是纠结而痛苦的,但是IT部门不得不直面现实。当业务创新的速度开始倒退IT服务的响应能力时,研发和测试人员对IT资源与应用的持续交付效率、质量的要求越来越高。随着业务的持续发展,企业IT的规模也逐渐膨胀,运维工作量随着设备的增加而成几何指数增长。IT部门必须从既往的惯性中挣脱出来,逐渐将资源交付、应用上线服务化,从管理者身份向服务运营管理的角色过渡。在这一转变进程中,CMP扮演着“云服务中心”核心能力支撑平台的角色。云管理平台在云计算的体系结构中,是最贴近用户侧的一层,是用户使用服务和运营管理的入口,其核心作用在于整合基础设施,提供访问控制、服务管理、服务编排以及运营管理。云管平台的设计和实现主要关注在以下几个方面(图2):q整合基础设施容量和成本管理$CloudManagement服务编排能力M多租户管理能力'多云管理能力图2整合基础设施。IT的基础架构伴随着企业的发展而逐步演化,不同的场景中会引入不同的技术、形态。一个企业中,广泛存在着大量的不同品牌、不同形态的异构基础设施。在相当长的一段时间内,企业的IT基础环境中可能会同时存在公有云、私有云、传统虚拟化环境,以及传统物理服务器等多种技术形态。为了有效整合这些基础设施,形成标准的、统一的资源管理方式,提供一个一致的用户体验,正是云管平台所要完成的天然使命之一。多租户管理能力。企业内对于资源的管理,受财务管理模式、资源归属情况、组织架构形态等因素影响,对于资源的使用上存在多层次、多资源隔离的管理要求,比如:集团公司与分子公司之间存在资源归属的区分,资源管理权限上的差异。所以在企业私有云的CMP在建设上需要适配企业组织结构和管理方式,提供与之对应的角色权限对应关系,实现集中的访问控制,并依据管理模式的不同提供从单一租户到多租户支持的能力扩展。服务编排能力。用户希望获取的是一个灵活、高效的实现服务交付的诉求,而不是一个个独立的技术组件。为了有效的整合不同层级云平台的能力,需要对IaaS.PaaS,甚至SaaS进行服务的编排和整合,按照既定的工作流和依赖关系实现服务按某种顺序组合进行交付。云管理平台为服务编排能力提供了展示的舞台。服务运营管理。运营的最终目标是将IT基础设施池化,资源抽象化,将资源形成一种标准化服务能力,比如:服务目录就是将资源共性抽象化,形成标准的服务组件,以云计算服务形式对外展现。对于这些服务的运营管理展开来讲,就是将订单管理、流程管理、计量计费、S1.A管理等内容进行重新定义,而这些能力在传统ITSM的服务目录中都不具备。融合外围系统。大多数企业往往经过数年的发展,权鉴管理体系、流程管控体系、监控告警体系、配置管理系统等多种系统已然成形,并渗透到企业IT管理的方方面面。云平台在设计和建设的同时.,必然要和这些已经稳定运行的系统进行交互。因此,需要借助云管平台这个渠道,有效融合周边系统,实现IT信息的互通、共享和交互管理,实现信息及数据的收敛。多云管理能力。在企业的数据中心中,存在着多种应用环境,如:生产环境、开发环境、测试环境、预生产环境、灾备环境等。不同的环境都有着其各自独特的监管要求、管理要求、运维诉求和环境特征,无法纳管到同一套云平台中。生产系统追求的首要目标是稳定性、可靠性,资源利用率并非主要关注点。开发测试环境,变化速度快,资源申请回收频繁,资源利用率和使用的高效灵活在该环境中是一般企业的关注重点。这些差异是企业内部产生多云建设的根本诉求来源之一。另外,任何一种技术都存在着可以支撑的规模上限,伴随着企业不断扩张,数据中心达到一定规模后,必然会产生超出单一云平台所能容纳的计算资源数量,由此企业需要建设多套云平台来满足业务需求。还有些企业根据业务特征,选择部分业务放置在公有云上,部分业务私有化部署,对于这种混合云架构而言,资源维护的一致性是企业IT管理中重要的一环。云管平台正是解决多种云环境(包括混合云环境)管理的利器,CMP向下对接和纳管不同类型IT基础设施、向上支撑传统和云原生应用的能力,同时衔接企业已有的审批流程、监控体系、运维工具,给企业带来全新的创造力,重塑全局视野的管理体验。做为驾驭云计算平台的管理工具,构建CMP是唯一的出路。容量和成本管理。容量和成本管理对于确保企业数据中心拥有足够的资源和预算来支持不断增长的业务服务至关重要。利用云平台监控体系和其他监控手段,企业可以创建满足各种利益相关者需求的自定义数据视图,对云平台资源使用情况和运行状态进行展示和数据存储,对已经获取到的资源使用情况进行跟踪、分析、预测将有助于防止过度配置、控制和优化运营成本。S1.A管理。企业级的云管平台需要具备服务治理的能力,以保证云服务的交付质量。云管平台需要通过基于S1.A策略的资源池调度,确保云平台上的各项服务能够实现高可用、高可靠的特性,并且在资源管理过程中符合各项运维和安全方面的规定,并提供审计支持能力。在多云/混合云环境中,这种服务治理能力同时也有助于管理外部云服务供应商的服务交付质量。五、云管平台建设中的经验分享云管平台除去做为资源管理平台的入口职能以外,还涉及资源全生命周期管理过程中的相关流程管控,是云平台和企业周边系统的互通通道,也是多种信息的汇聚以及集中的展现的平台。云计算体系是一个复杂的系统工程,在云管平台建设过程中,涉及到企业方方面面的改变,不可避免的需要现有IT管理模式、组织架构、财务管理模式等众多领域或多或少的进行适配和调整,这里就其中几点和大家进行分享:1)运维及管理流程的变化云平台建设过程是一个IT环境标准化、自动化的落地过程。云计算技术是通过把公共组件标准化并最终服务化,使其对具体业务部门完全透明,降低运维部门自身的运维成本,同时提高业务部门的开发效率。在云平台出现以前,企业内部的IT管理方法大多已经成型且已运作多年,相关的资源管理流程、风险管控流程等环节中存在大量的线下流程和非标准流程,和云计算的批量化、自动化、智能化存在一定程度的冲突,并不完全适配。云管平台的建设,对这些既有流程形成了一定冲击,需要进行适当的改变以适配新的资源管理模式。举例来说:在传统IT组织架构下,数据中心可能会分成网络、系统、存储、应用等不同专业团队,在传统IT环境应用与系统、硬件与软件等不同IT基础设施间界面清晰,专业领域相对来说壁垒分明。云平台是一个技术组件繁多,技术堆栈众多的平台,一个组件的维护很可能就需要涉及到容器、中间件、系统、存储、SDN网络等多个知识领域。这就要求现有运维人员打破壁垒,通力合作,技能做相互融合,由此产生的多个部门或者团队间的融合需求。另外,近年来企业安全事故频发,金融企业对于系统安全的重视程度是越收越紧,监管要求也是越来越严格,由此导致数据中心的各种审批流程纷繁复杂。金融的强监管模式云平台带来的规模效应在多数企业内无法体现出明显的优势,而IT服务标准化、资源管理自动化则成为多数企业的实际关注重点。为此,在资源生命周期管理过程中,风险管控流程需要进行合理设计,可灵活适配不断变化的监管要求。2)运维职责边界变得模糊传统管理模式下的IT,各个团队的边界较清晰,相互的交接界面较为明确。通过云平台打通了IT资源交付渠道的同时,自动化联动的资源交付模式使得各个专业团队的运维边界产生了交叉和模糊。因此,云管平台在设计时,资源的调度和生命周期管理过程中所涉及到的流程、团队职责需要细致调研、谨慎设计,尽可能的推动当前已有的流程和团队分工,包括不同环境(生产、开发、测试)向未来标准化、统一化方向进行演进,短期内应避免在构建平台的同时对现有流程和团队职责产生较大冲击和改变。3)用户行为的控制云管平台的建设,通常除了实现统一的资源管理框架以外,多数还带有向用户开放自助服务的能力。但是在云管平台建设之初,就需要考虑清楚如何降低用户的学习成本,可以使其迅速上手的使用产品;告知有价值的信息,减少时间和精力开支;提前预知帮助,愉快的学习使用云计算平台。所有提供的信息需要清晰、易懂、无二义性。同时,对外开放的服务需要从云管平台侧加以足够的信息引导和限制。在大多数企业中,使用云平台自助服务的用户多数是应用开发或维护人员,对于基础架构方面的知识薄弱。因此,在提供给用户自助使用的服务时所需要提供的要素,需要清晰明确。例如:当云平台中存在多个资源池时,用户在申请资源时就必然要选取恰当的资源池,此时就要求云管平台给与足够的信息,引导用户能够清晰的判断所要使用的资源所处的资源池,否则就会造成用户的困扰。为了使用户能够更快的做出判断,选择合理的路径实现服务的管理,需要在云管平台中通过某种手段或方法,干预目标对象的决策和发展,促使其更快地接近目标。简单来说,就是需要从用户视角出发,对于信息的接收和选择做出适当的引导和控制。在需要提供某些信息来使用一项服务时,输入元素是否存在限制条件,相关内容是否存在合规检查,这些都是需要仔细设计的。举例来说,当用户申请防火墙规则时,是否可以输入网段而非具体的业务IP地址,是否可以允许用户输入A类、B类网段,对于网络的输入格式是什么,都是需要从云管平台后台的实现逻辑上予以控制的。六、结束语”科技以人为本”,是昔日手机巨擘诺基亚的广告词。时过境迁,虽然诺基亚已经辉煌不再,但这句广告词绝对是经典中的经典。科技要有人用才有存在的意义,云计算是一项复杂的IT工程,所以更需要以人为本,从用户视角出发,在云管平台的设计中融入人机交互理念,通过合理的设计和实现让复杂的云平台的变得舒适、简单、自由,充分发挥云计算中各项服务的定位和特点。附实例参考:保险数据库运维管理平台建设与实践近年来,随着数字中国整体建设布局规划保险业标准化“十四五”规划关于银行业保险业数字化转型的指导意见等相关政策的部署和要求,保险业数字化转型逐渐步入“深水区”。数字原生理念在保险业加速落地,大模型、AI等技术的应用,催生了大量数字金融场景。数据库作为保险业数字化的基础软件,是保证数据安全的基石,也是保证业务系统稳定运行的基础。在国家科技自立自强的发展战略下,保险业纷纷参与到信创产业试点中,探索具有更高自主权的数据库应用体系。但传统的数据库运维管理受限于资源分配不均衡、低效耗能以及安全漏洞等诸多问题,难以有效满足新形势下数据库系统管理的需要。作为科技赋能业务的践行者,保险结合分布式、AI和大数据分析等技术,打造了一款高内聚、低耦合的数据库全生命周期的运维管理平台,实现了数据库智能管理、标准化运维和安全审计等多能力,保障了数据库系统的运维效率,夯实了数字基础设施底座。数据库运维管理平台建设背景随着人工智能、数字经济的蓬勃发展,保险正以“数据+技术”双轮驱动的理念,推动数字化与业务、服务的全面融合。在推进数字化建设的过程中,敏捷高效的科技基础架构是重要支撑。数据库作为数字经济信息系统的底层支持,其高效运维和管理是转型制胜的关键因素之一。一方面,保险数据库生产环境中运行着数百套节点,数据库种类从成熟的商业数据库逐步转向开源数据库、国产数据库,数据库运行环境和架构愈加丰富。保险逐步探索从传统的DBA纯人力、零散工具脚本沉淀到统一资源管理、自动化智能化的运维管理功能实践。另一方面;由于持续增长的业务需求不断冲击着数据库安全管理体系壁垒,保险高度重视数据安全。加之,数据安全法对数据安全运维提出了更高要求,公司信息数据访问急需“知、管、控”多手段保障用户数据安全。经过多方考察调研,保险决定遵循有效整合、自主可控的思路,与新数科技合作,快速搭建基础平台,后又根据现有运维工具体系对实现策略、具体功能进行了灵活调整,由此孕育了适用于当下数字化发展支撑业务运行的一站式DBPaaS平台保险数据库运维管理平台。数据库运维管理平台的设计与规划保险数据库运维管理平台基于微服务架构,对平台中的功能进行分层和分模块设计,明确功能边界,打通上层业务应用和下层数据库底座,实现了自主可控、开放和可扩展的总体架构。通过层次化设计,平台从架构上将服务分为基础服务、交互服务和集成服务三类,如下图所示:基础服务是整个平台的基础,包括监控引擎、自动化运维引擎、CMDB服务、监控数据服务、分析引擎、SQ1.执行以及任务调度等后台服务。基础服务提供平台基础功能,通过公共API为前端功能提供访问接口;平台提供用户直接使用和交互的功能性服务,包括监控告警、问题管理、性能容量、工具箱、报表、操作审计、配置管理以及用户管理等。功能性服务以管控模块和监控模块为核心,通过多种监控手段,引入异常检测算法、策略编排算法、流量调度算法等Al核心能力,实现系统问题智能预测、应用访问智能流控和管理预案智能调度来确保数据库系统的可见、可管和可计。平台还提供集成功能服务,将数据库统一管理平台作为数据库运维的统一入口,并无缝对接现有的运维管理平台或工具,例如单点登录、流程系统、统一告整平台等。运维工作的一大挑战就是需求的复杂多变,数据库运维管理平台必须具备敏捷迭代的能力才能满足需求的动态变化。保险数据库运维管理平台建设之初就采用了功能可配置设计,在不同场景下,无需修改代码通过配置就可以增加新的功能。平台支持用户自定义监控数据采集、自定义告警、自定义分析工具、录入和编排运维管理功能等。数据库专家可以通过平台在线设计和发布新功能,无需依赖开发人员。同时,平台在设计上充分考虑了性能可扩展,各服务模块均支持横向扩展、负载均衡,可以按需轻松扩容。数据库运维管理平台的创新实践随着保险数据库运维管理平台的逐步落地与推广,全生命周期数据库管理服务的闭环平台初见雏形,从数据库部署到数据库的设计开发、上线、运行分析、迭代优化,拆分拓展等所有与数据库相关的服务均可在平台上自动、智能地完成。平台在取得卓有成效的同时,为信息基础架构与数字化转型发展夯实了基础。智能互联赋能高效运维和优化在平台整体框架中,智能化发挥着承上启下的作用。在事件管理方面,平台借助智能化算法,实现问题诊断定位和故障处置的联动。当数据库连接数异常时会触发相关告警,感知告警后会将告警作为预案的输入,关联提前录入的处置SOP,并推荐给用户。最终实现快速响应和解决故障,减少故障发生率,缩小业务影响范围。在数据库容量管理方面,平台具备数据库扩容的多种策略,包括垂直升级和水平升级。在此基础上,扩容策略与容量预测模块进行联动,实现不同场景下对数据库的快速扩容,避免出现因为容量不足导致影响业务系统的问题。与此同时,平台还具备索引推荐和SQ1.审核、SQ1.变更功能,在实际业务场景中,平台将这三者进行功能结合,典型的使用场景是上线发布。平台可以实时收集数据库的慢SQ1.信息,统一储存,进而进行实时的慢SQ1.异常检查以及离线的慢SQ1.智能优化,最终将慢SQ1.的优化建议给到用户,实现数据库告警与SQ1.智能化分析的联动场景。数据管理提供安全强劲支撑安全管控模块基于业务全局视角实现了安全策略的精准配置和实施,在身份鉴别、用户及资源认证、数据操作一体化、访问来源精准审计等方面以更加平台化的姿态融入内部安全体系,在资源无缝对接的前提下构建了完整、平滑的数据库生态链条,为数据安全体系建设提供敏捷高效的支撑。安全管控模块对所有数据操作进行管控,包含登录登出、权限、脱敏、审计、监控、过滤、回退等。在权限管控方面,通过“用户角色权限”,在快速授权的同时精准控制每个用户的访问及操作权限,规避了原先可能面临的越权访问、下载或篡改数据等违规操作行为。在数据泄露方面,平台根据内部数据流向提供全链路的干涉跟踪保护机制,贯穿数据登录、使用、登出整个生命周期。1:1针对各数据源的终端,可实时对操作的SQ1.执行拦截、分析、审计、告警等操作,精确到人和应用。以“查导分离''作为数据防泄漏的最后一道防线,将导出动作单独形成一种权限类型,与查询动作分离开来。即使内部人员恶意获取数据也无法将数据落地至PC电脑。另外,平台内置一系列流程库,可通过OPenAPl接口与运维管理系统实现联动,推动数据操作和数据授权在数据中心内部流转。从管理、技术、审计层面实现数据安全与业务联动。实践总结伴随着彳呆险业数字化和架构转型,保险在引入云原生、分布式、智能化等创新技术后,对数据库运维管理的要求提升。数据库运维管理平台上线后,数据库运维工作产生了极大转变。通过数据库智能运行机制和安全管控机制的建设,以往重复性的运维操作全部转变由平台来自动执行,运维操作标准化、自动化,既增强了数据库运维安全性,又降低了运维技术门槛。通过沉淀积累,数据库管理运维平台为复杂高速业务的开展提供了有力的技术支撑。未来,保险将把数据库运维管理平台以及数据库技术应用于更多关键业务场景,解决系统性能与扩展性的瓶颈,提升业务运营效率,为架构转型和数智化新发展保驾护航。