研发运营一体化(DevOps)能力成熟度模型第4部分:技术运营dr.docx
《研发运营一体化(DevOps)能力成熟度模型第4部分:技术运营dr.docx》由会员分享,可在线阅读,更多相关《研发运营一体化(DevOps)能力成熟度模型第4部分:技术运营dr.docx(26页珍藏版)》请在课桌文档上搜索。
1、ICS35.0201.70YD中华人民共和国通信行业标准YD/T3763.42020研发运营一体化(DevOps)能力成熟度模型第4部分:技术运营Thecapabilitymaturitymodelofdevops-Part4:technicaloperationmanagement(报批稿)(本稿完成期:2019.11.12)-X发布XXXX-XX-XX实施中华人民共和国工业和信息化部发布目次前言Il1范围12术语、定义和缩略语12.1 术语和定义12.2 缩略语13技术运营管理过程概述14监控管理24.1 监控采集24.2 数据管理34.3 数据应用55事件与变更管理65.1 事件管理65
2、.2 变更管理86配置管理96.1 运营配置管理97容量和成本管理117.1 容量管理117.2 成本管理128高可用管理138.1 应用高可用管理138.2 数据高可用管理169业务连续性管理179.1 风险管理179.2 危机管理189.3 应急管理1910用户体验管理20I(U业务认知管理2110.2 体验管理21本标准是“研发运营一体化(DevOps)能力成熟度模型”系列标准的第4部分:技术运营,该系列标准的结构和名称如下:第1部分:总体架构第2部分:敏捷开发管理第3部分:持续交付第4部分:技术运营第5部分:应用设计第6部分:安全及风险管理第7部分:评估方法第8部分:系统和工具技术要求
3、本部分按照GB/T1.12009给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本部分由中国通信标准化协会提出并归口。本部分起草单位:中国信息通信研究院、深圳市腾讯计算机系统有限公司、北京华佑科技有限公司、平安科技(深圳)有限公司、中国太平洋保险集团、中国电信集团有限公司、中兴通讯股份有限公司、中国移动通信集团有限公司。本部分主要起草人:梁定安、徐奇琛、王超、栗蔚、刘栖铜、萧田国、牛晓玲、车昕、党受辉、杨军、杨文兵、朱平、范晶晶、吴树生、陈亚殊、胡罡、杜颖君、陈靖翔、张南、曾庆辉、闫林、吴新颖、刘扬清、任明、毛茂德、燕杰、雍浩淼、潘晓明。研发运营一
4、体化(DevOps)能力成熟度模型第4部分:技术运营1范围本部分规定了研发运营一体化(DevOps)能力成熟度模型下技术运营管理的能力成熟度要求和评价方法。本部分适用于具备IT软件研发交付运营能力的组织实施IT软件开发和服务过程的能力进行评价和指导;可供其他相关行业或组织进行参考;也可作为第三方权威评估机构衡量软件开发交付成熟的标准依据。2术语、定义和缩略语2.1 术语和定义下列术语和定义适用于本标准。研发运营一体化DevOps它是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保隙(QA)部门之间的沟通、协作与整合。注:它的出现是由于软件行业认识到为了按时交付软
5、件产品和服务,开发和运营工作必须紧密合作。2.2 缩略语下列缩略语适用于本文件。API应用程序编程接口CD持续交付CDN内容分发网络CI持续集成CPU中央处理器ETL数据仓库技术IT互联网技术RPO恢复点目标SDK软件开发工具包SQL结构化查询语言TCC两阶段补偿型分布式事务ApplicationProgrammingInterfaceContinuousDeliveryContentDeliveryNetworkContinuousIntegrationCentralProcessingUnitExtractTransformLoadInternetTechnologyRecoveryPoi
6、ntObjectiveSoftwareDevelopmentKitStructuredQueryLanguageTryConfirmCancel3技术运营管理过程概述技术运营管理过程是技术运营能力建设的一个过程,它以业务为中心,交付稳定、安全、高效的技术运营服务,构建业界领先的技术运营能力,支撑企业的持续发展和战略成功。技术运营不仅关注“稳定”、“安全”、“可靠”,更要关注“体验”、“效率”、“效益”。技术运营管理过程分为:监控管理、事件与变更管理、配置管理、容量与成本管理、高可用管理、业务连续性管理、用户体验管理等,如表1所示。表1技术运营管理过程监控管理事件与变更管理配置管理容量与成本管理
7、高可用管理业务连续性管理用户体验管理监控采集事件管理运营配置管理容量管理应用高可用管理风险管理业务认知管理数据管理变更管理成本管理数据高可用管理危机管理体验管理数据应用应急管理4监控管理监控管理是对研发运营过程中的对象进行状态数据采集、数据处理分析和存储、异常识别和通知及对象状态可视化呈现的过程,其成熟度决定了技术运营工作的立体性、及时性和有效性。监控管理从数据流的维度展开分析,包括3个部分:监控采集、数据管理和数据应用。4.1 监控采集通过主动采集或被动收集方式获取监控数据,并保证采集数据的质量、采集过程的可靠性和安全性。监控采集的能力指标包括数据采集和数据传输,如表2所示。1 .1.1数据
8、采集将数据采集能力服务化,从采集的手段、支持的协议、兼容性、颗粒度、采集端的基础逻辑和扩展逻辑等角度对采集能力进行量化评估。4 .1.2数据传输采集能力的数据传输指从传输数据的质量保障、传输的可用性、传输过程中支持的功能特性的纬度来评估其能力成熟度。如表2所示表2监控采集级别数据采集数据传输1具备操作系统级监控指标的采集能力,如CPU、内存等。通过标准协议传输数据。2在1级基础上,需达到以下要求:1) 具备独立的数据采集服务,可采集多种数据类型的日志,如:系统日志、应用日志、接口日志等;相关采集方式包括但不限于嵌入SDK、API、私有协议等;2) 量化管理采集服务的覆盖范围,如能反映企业应用的
9、覆盖率;3) 数据采集可上报到多个服务端;4) 数据采集服务支持可扩展、可配置和高可用的采集架构。在1级基础上,且需达到以下要求:1) 具备独立的数据传输服务,可传输不同数据格式,如int、charsbinary等格式;2) 支持单份数据多份订阅及分发传输。3在2级基础上,需达到以下要求:1) 统一的数据采集服务,可跨平台兼容;2) 提供开放式、自定义的数据内容采集上报方案;3) 具备集中式的采集配置,包括但不限于采集内容、开关等:4) 对采集端进行实时管控,如采集管控、发送延迟、数据校验、统计等方式,并可通过插件化扩展采集逻辑;5)自定义监控内容,具备对采集服务的管理方法,如:采集限制、采集
10、限频等。在2级基础上,且需达到以下要求:1) 具备高可靠数据传输通道和高可用容灾方案:2) 支、多种传输方案,如同时具备数据推与拉的能力;3) 支持数据采集架构的平行扩展、数据汇聚和高效传输等能力。4在3级基础上,且需达到以下要求:1)采集频率可自定义配置调节:2)部分数据采集通过智能化技术动态调整,如智能减少采集内容、智能降低采集频率等。在3级基础上,且需达到以下要求:1)具备数据传输质量和安全的保障机制,如支持数据分片、压缩、断点续传等传输特性;2)保障数据传输的安全性,如数据加密、解密及校验等。5在4级基础上,且需达到以下要求:1)采集服务与技术运营活动关联,实现从固化到动态化的采集规则
11、,如压力测试活动时,将采集频率动态调整为秒级;2)实现监控能力的精细化,智能配置关联运维事件,实现同一运维对象的不同采集内容变化。同4级能力要求。4.2 数据管理数据管理是指对数据进行过滤、转换、提取、聚合和存储等操作,是数据监控的核心能力。按数据管理过程的三个环节,来量化具体的能力模型,包括数据接收、数据处理和数据存储,如表3所示。注1:本章介绍的数据多指与运营相关的数据(非敏感业务数据),由多个纬度组织而成,可看作大数据处理平台的能力。4.3 2.1数据接收作为数据处理服务端的数据接收服务,承接数据采集服务传输来的数据,需要拥有良好的吞吐性能和可扩展的架构,并且具备区分数据类型和相应处理的
12、功能逻辑。4.4 .2数据处理数据处理指大数据处理的逻辑,支持逻辑运算、统计方法、机器学习等计算能力,可结合技术运营的场景,灵活实现数据的扩展与关联分析。同时,需考察数据处理的规模、性能及架构的能力。4.5 .3数据存储数据存储只针对监控数据的存储场景,对存储的方案、架构、存储成本、数据高可用等纬度综合评估。如表3所示表3数据管理级别数据接收数据处理数据存储1正常接收数据,可对接收到的数据进行量化管理和反查。1、对原始数据源进行预处理:2、对异常数据进行监控识别与校对。提供独立的数据存储。2在1级基础上,且需达到如下要求:1) 数据接收架构可根据容量扩容,可平行扩展:2) 可对基础数据进行初级
13、筛选,如数据转发、数据复制等;3) 可对原始数据进行规则化处理,如数据清洗、校对等:4) 可集中接收异构数据源的上报。在1级基础上,且需达到如下要求:1) 具备常用的数据处理逻辑,如自定义数据四则运算、统计(分类、聚类)等;2) 对外提供数据接口服务:3) 支持可扩展的ETL,实现如数据清洗、转换、导入和加载等功能:4) 对异构数据源进行常用数据处理逻辑分析和关联分析。在1级基础上,且需达到如下要求:1)提供统一的数据存储:2)数据存储架构可扩展,支持根据数据类型、容量等扩展方式;3)数据存储架构支持数据高可用管理,可保证数据的一致性、完整性和可用性等特性:4)可言储多种数据结构和数据类型,如
14、时序数据、文本、数值型和位图等。3在2级基础上,且需达到如下要求:1) 提供统一的数据上报服务,支持多协议多格式的数据源,如文本、字符串和加密协议等;2) 对数据进行进一步的校验,如空值检测、乱码校验和属性校验等;3) 对接收到的数据进行过我保护。在2级基础上,且需达到如下要求:1)数据处理架构可平行扩展、扩容;2) 对数据进行实时计算与离线计算,实时计算的数据处理延时小,如小于1分钟;3) 可处理结构化与半结构化数据,如时序数据、自定义日志数据等;4) 保证数据处理过程中的完整性,如数据校正、数据持久化等;5) 对数据处理过程中的异常状态进行监控和缶警,并具备相应的应对能力,如识别作业异常、
15、数据比对异常等。在2级基础上,且需达到如下要求:D提供高频高密度查询的吞吐能力,如通过SSD或缓存技术实现高并发查询:2)按数据使用场景的冷热数据分离存储;3)存储和快速检索结构化与半结构化的数据;4)可统计时序数据:5)具备数据安全管理能力,如数据容灾,备份、仓库容量高可用设计等。4在3级基础上,且需达到如下要求:1) 全网数据秒级上报:2) 可根据数据上报量,动态管理数据接收容量与吞吐性能。在3级基础上,且需达到如下要求:1) 数据处理逻辑支持可配置、可视化和可编排:2) 数据处理逻辑可通过插件化扩展;3)提供灵活的数据建模能力,可关联不同数据源,按业务场景组织多源数据:4)数据处理服务平
16、台与机器学习相结合,智能化进行数据在3级基础上,且需达到如下要求:1) 持续优化存储数据的管理方案和成本管理,使数据笆理性价比最优;2) 根据业务场景动态设置存储周期。处理与分析。5在4级基础上,且需达到如下要求:1)支撑百万次QPS请求量的数据接收与筛选;2)具备海量数据(如PB级)的存储能力。在4级基础上,且需达到如下要求:1) 持续优化数据处理服务,智能进行数据处理,智能发现新的数据特征;2) 数据处理服务达到PB级的处理能力。在4级基础上,且需达到如下要求:存储模型具备使用智能化技术所需的数据集规模。4.3数据应用数据应用是根据对监控数据的加工、分析,达到异常识别、告警分级、数据可视化
17、展示等应用。按照应用场景分为告警与管控、数据服务和可视化管理,如表4所示。4.3.1 告警与管控告警与管控指监控对异常识别的能力,包括对异常判断逻辑、管控能力、与业务场景的关联等。4.3.2 数据服务数据服务指具备可开放的数据服务能力,为其他系统整合与关联技术运营的数据提供支持。4.3.3 可视化管理可视化是监控数据指导技术运营工作开展的重要能力项之一,包括了对展现灵活性、可定制性、智能化和运维场景结合度的评估。表4数据应用级别告警与管控数据服务可视化管理11)按照阈值规则实现异常告警:2)多加道发送告警信息。提供基础的数据存储服务。在线展示数据图表。2在1级基础上,且需达到如下要求:1) 对
18、告警进行分级管控和简单收敛,告警信息关联标准运维操作;2) 针对标准告警信息,可关联提供标准操作的提示;3) 对告警信息进行一定的统计分析,如统计告警触达率、告警准确率等指标;4)告警明细可记录存储,告警统计数据可导出:5)告警可自动升级,能够将告警通知、升级与组织架构关联。1)对数据进行常规处理,如最大值、最小值、平均值、排序等;2)导出数据常见格式,如excel、txt、SQL、json等;3)数据迁移,如复制、同步、传输到其他存储介质;4)提供面向应用场景的数据服务化能力;5)自定义数据查询接口和数据内容。在1级基础上,且需达到如下要求:1)自定义展示常规图表;2)指标强化展示,如按业务
19、监控指标的重点展示;3)场景化的在线数据查询。3在2级基础上,且需达到如下要求:1)标准化的告警关联自动化工具,实现常见技术运营场景下的故障自愈:2)具备规则化的告警关联分析、关联收敛能力:3)自定义告警的关联引导或触发工具,如CDN回源失败告警信息中,会关联出CDN自助分析工具;4)对告警风暴进行管控,如抑制、收敛等管控措施;5)可自定义分级告警,如预警机制等。在2级基础上,且需达到如下要求:1)在线自定义数据统计分析,如在线SQLs自定义语法等:2)自定义大规模离线或异步数据计算,如批量MapReduce(编程模型,用于大规模数据集的并行运算)计算;3)对数据接口进行管控,如身份校验、调用
20、限频、限制访问源等;4)对常用数据进行安全管控,如权限管理、数据加密或脱密等。在2级基础上,且需达到如下要求:1) 基于业务拓扑架构或调用关系的可视化,并可标示出监控异常点:2) 可视化诵据指标多维度展开与下钻;3) 按条件进行数据统计与展现,如按时间、精度等维度的数据加工;多用户权限管理,如权限分级、按需申请等。4)自定k业务视图,如根据业务场景定制所需的图表;5)提供覆盖全业务的统一可视化。4在3级基础上,且需达到如下要求:1) 动态调整阈值,通过智能技术降低告警量并提高准确性:2) 多对象多事件关联分析,实现如关联抑制、收敛的能力:3) 将告警与其他运维事件关联,并进行根因分析,快速根因
21、定位与修复。在3级基础上,且需达到如下要求:1)监控链条分钟级的端到端分析与输出结果;2)智能数据推荐。在3级基础上,且需达到如下要求:1) 智能基线可视化展示;2) 按照特定节点智能关联展示相关节点的可视化,如数据库异常的监控点,可关联展示其他架构层的异常指标。5在4级基础上,且需达到如下要求:1) 按业务场景实现业务影响评估、故障智能调度、业务智能止损等告警发现与平台管控:2) 根因分析与处理的结论为架构优化提供参考。在4级基础上,且需达到如下要求:智能分析技术运营对象全生命周期相关数据,如智能分析故障账响范围、智能提供决策参考等。在4级基础上,且需达到如下要求:1) 智能推荐监控视图;2
22、) 按业务场景智能生成监控视图。5事件与变更管理事件和变更管理是技术运营和IT服务过程的两个重要管理手段,包括事件管理和变更管理两部分,事件管理是对影响生产的事故和问题建立预防、高效处理及度量改进的制度和手段,变更管理是对基础设施、系统应用、业务产品配置等场景实施变更所进行的审批和控制流程。5.1 事件管理事件是指计划外的服务中断、服务质量下降或还未影响服务的事态,事件管理的目的是快速响应用户事件,短时间内恢复受影响的IT服务,使事件对用户的影响最小化。通过对事件管理过程不同阶段的细分,从快速发现到高效的处理流转,再到复盘改善的跟进,建立对事件全生命周期的管理。事件管理包括事前管理、事件处理和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研发 运营 一体化 DevOps 能力 成熟度 模型 部分 技术 dr

链接地址:https://www.desk33.com/p-1306182.html