XX省公安厅智慧运维管理系统建设内容.docx
《XX省公安厅智慧运维管理系统建设内容.docx》由会员分享,可在线阅读,更多相关《XX省公安厅智慧运维管理系统建设内容.docx(39页珍藏版)》请在课桌文档上搜索。
1、XX省公安厅智慧运维管理系统建设内容一、需求分析(一)业务功能、业务流程和业务量分析业务功能分析本次项目的功能包括以下内容:()统一资源配置建立分级分类管理的统一资源配置库;支持资源自动发现、批量导入、第三方接入;支持资源模型自定义和表单自定义;可通过自动化或人工方式监理资源关联关系;支持资源历史版本记录。从全局角度实现图形化的配置项、配置关系展现,真实地反映业务系统、主机(云服务器)、存储、数据库、中间件等资源的关联关系。同时,配置管理不仅需要实现对IT软硬件资源的管控,还可以从业务角度出发,建立面向业务的架构图,直观地描述系统边界、内部结构和组件依赖关系,帮助运维团队快速排查故障根源。()
2、集中监控管理具备云环境及传统架构下大规模实时监控和数据采集能力,实现现有全部软硬件、基础设施等运维资源全覆盖;支持通用协议、AgCnt、第三方接入、日志分析等多种监控方式;采用易扩展、可视化方式集中展现运维资源监控结果;支持监控策略、监控参数自定义配置和分级分类管理。信息包括实时或历史的性能信息、状态信息、事件信息、告警信息、报表信息等,实现各类监控数据的准确、灵活可视化呈现。()统一告警管理从资源和应用视角实时展现告警状态,提供清晰的、集中的告警事件管理,基于资源配置的关联关系和规则配置,提供场景化告警关联和交互分析能力;支持告警策略和参数配置,将各种设备或业务系统产生的事件作为原始事件,按
3、照预定义的事件规则,经过过滤、分类、分级、转换等处理环节,形成有效的预警或故障告警信息;支持短信、X政钉等多种告警推送方式,按预定的方式通知管理人员或自动响应;支持第三方告警接入;对生成的告警提供升级、自动或手工消除等管理手段。监控系统能够将告警传递到告警视图、拓扑图、业务影响度视图中。()智能故障分析实现多源数据采集、高效实时分析能力,支持监控告警的去重、降噪、静默;利用大数据量的采集、预处理、存储、分析工具,采用智能算法、关联分析等方式自动进行故障根因分析,支持可视化告警追踪和影响分析,提供故障原因推荐和处置建议;自动化生成、关联运维任务工单。()运维流程管理具备流程配置引擎,支持自定义运
4、维流程;具备可视化流程业务规则配置功能,支持人工/自动节点混排;自动化生成、关联运维任务工单;支持运维流程与资源配置项关联。()自动化运维具备自动化巡检和巡检报告发布功能;支持自动化策略配置和低代码脚本编制功能,内置常用脚本库;支持监控告警故障联动。()运维管理信息化具备运维项目全流程信息化管理功能,并支持资源配置、监控告警关联;具备运维人员基础信息、工作成果、考勤考核等管理功能;具备运维值班编排、展现和监控告警、运维流程关联功能;提供运维信息发布展示功能;提供运维知识库并支持故障告警关联。()数字化运营提供监控、配置、流程等各类数据的可视化呈现能力,通过可视化工具快速定义各类视图,面向不同层
5、次管理人员、不同场景、不同业务系统,设计、定义层次化、多维度的展现视图;具备可视化应用拓扑和资源展示功能;具备可视化机房基础设施和设备管理功能;具备运维项目绩效可视化展现功能;支持基于监控告警、资源数据的可定制专题数字大屏配置;丰富可配置的统计分析报表。业务流程分析本次项目的项目的核心流程包含,监控告警运作流程、事件/故障运作流程、数字化运营运作流程。()监控告警运作流程监控告警的流程分为监控采集、资源配置管理、监控告警、消息存储、告警通知推送等环节。监控采集:通过基础设施监控、前端监控、应用监控、业务监控等监控能力获取数据,并向相应的网关进行监控消息的投递,监控采集是整个告警运作的神经末梢。
6、资源配置管理:主用于收一个集群或应用系统中所有监控日志数据并对数据行清洗、结构化处理,结合CMDB建立关系归属,完成数据归集后进入监控告警引擎。监控告警引擎:整个监控系统的核心,负责监控任务执行、处理监控数据并将处理好的结果数据以监控指标的形式进行消息存储。告警通知:告警的监控指标会经由故障/事件处理流程做告警判断并生成告警事件,对相同类型的告警事件进行聚合处理,然后根据告警规则将告警消息推送到指定的用户。Web页面:监控系统与用户的交互界面为用户提供监控配置和展示界面,承载告警监控工作台的职能。()事件/故障运作流程事件/故障的运作包含故障发现、故障处理、故障恢复、故障复盘四个阶段,由业务部
7、门、运维部门、服务方三类角色参与协同。故障发现:监控或其他渠道接收到故障申报时,根据结构化故障等级定义模块配合指标计算,形成告警通知运维支持人员与应用责任民警。故障处理:当事件响应升级达到故障响应级别标准时,通过事件自动化通告、人工故障通告等方式发起事件工单,可以根据已有的应急预案,匹配出相应的处置模板及流程,并进行恢复。故障恢复:由开发商发起环节恢复确认,系统分析各环节均完成恢复后由应急响应人员确认应用系统的最终恢复状态。确定应用完成恢复后,由平台下发恢复通知给相关部门。故障/事件复盘:故障/事件处理全流程由系统进行记录、建档存留。并按需组织专家进行复盘分析,必要时通过问题或变更等流程对发现
8、的问题和产生的变更进行分析记录。()数字化运营运作流程数字化运营来源支持对接多种渠道多业务模块的运行数据、管理指标数据,通过离线计算计算将数据进行分析计算,依托统计分析报表工具、低代码大屏工具将指标进行聚焦,最终形成各类运营分析报告。业务量分析实现对政法云、萧山云资源及厅信息中心服务器、网络设备、虚拟化服务器、软件系统、机房动环消控设备及云平台资源的设备信息、运行状态、性能状态、业务关系等进行实时检测采集、分析、告警等功能。与X警智治等综合系统关联“X警智治”平台是以公安部“六统一”标准为原则,遵循数字使用三大理念,全量整合各业务警种的系统、数据、服务、算法等资源,实现纵向、横向及各专项业务的
9、一体化,建成功能贯通、系统融合、综合集成、全省统一的中枢平台。本次项目建设的智慧运维平台是“X警智治”平台四横四纵体系中的运维体系部分,用以支撑“X警智治”内能力及基于“X警智治”体系的智慧应用的运维保障体系。(二)信息量传输量和存储量分析与预测本系统主要传输和存储数据为应用系统运行监测、告警数据及相关分析结果数据、日志采集数据等,预计存储应用元数据及业务数据2.2T,日志分析数据1T,历史数据存储及综合使用率计算分析数据5T。(三)系统功能和性能分析和网络安全需求分析系统功能系统功能体系,容包含:用户管理、授权管理、角色管理、角色组管理、部门管理、口志管理。()用户管理对接X警智治用户体系进
10、行建设。()授权管理结合X警智治体系从组织、资源、应用等维度对用户操作权限进行授权,各级管理员只负责管理自己直属管理员以及其管辖范围内的用户权限,做到管理员不越级、不跨级管理,提高数据安全性。提供授权管理能力,包括新增、修改、删除和查询展示授权列表能力。()日志管理提供日志管理能力,包括应用系统日志查看、操作审计日志查询。性能分析1.用户数:支持平台用户数500人以上,并支持同时在线100人;2 .并发查询:大于100个,平均响应时间1-3秒;3 .平台查询服务接口响应时间:不超过10秒。4 .平台要求7X24小时不间断运行,年故障时间比小于95%o5 .告警监控收敛率大于80%;6 .知识库
11、文档数量5000,钉群服务机器人在线率90%;项目网络安全情况分析本项目建设过程中,主要涉及公安网,不涉及视频专网和互联网等网络,为了保障系统的安全,数据的流转需采取相应的安全措施。各系统对于安全要求较高,根据公安部信息安全等级保护管理办法(公通字200743号)本项目信息系统受到破坏后,会对公民、法人和其他组织的合法权益产生特别严重损害,或者对社会秩序和公共利益造成严重损害,或者对国家安全造成损害,建议方案总体考虑按照等级保护第三级的相关要求进行建设。(四)数据结构与信息资源共享需求分析数据结构本系统数据主要包括运维监控数据、告警数据、资源库数据、运维项目数据、运维人员数据等。1.运维监控数
12、据。包括监控点位配置、监控策略、运行状态等;2 .告警数据。主要为标准化的告警结果数据,包括主动监测告警和第三方推送告警;3 .资源库数据。包含云上及云下所有运维对象等资源的分级分类可灵活扩展的配置管理数据库。4 .运维项目数据。包括项目档案、项目流程、项目文档等数据;5 .人员数据。包括人员档案、进出管理、考勤管理工作记录等数据。(五)信息资源共享需求1.产生数据。本项目产生的运维监测告警、资源库等数据可共享给相关业务警种用以进一步分析系统故障原因、优化完善系统功能。6 .数据需求。(1)地市数据归集。级联市级运维管理平台,实现全省运维数据的一站式管理和分析。(2)应用效能数据归集。通过对接
13、X警智治系统,调取警综平台、资源综合服务平台等系统平台数据获取应用系统用户活跃度、数据贡献度等数据,强化应用系统效能评测能力。二、建设需求(一)总体思路本系统需按照“统一标准,智慧运维”的原则,建设具备规范有序的系统及应用运行保证能力、优质高效的服务提供能力、精细灵敏的态势掌控能力、智能高效的应用支撑能力。(二)技术路线(1)应用监控技术应用监控技术,主要监控应用信息,例如JVM的GC,线程,应用异常、Error错误量、中间件指标、应用的集群热力图、应用的变更历史、应用的黄金指标信息等。其通过对MCtric、TraceLog三个可观测维度数据的清洗整合。这三类数据的特点、转化方式以及适用场景大
14、致如下:1.ogs:记录事/物变化的载体,对于常见的访问日志、交易日志、内核日志等文本型。日志在调用链场景结构化后其实可以转变为Trace,在进行聚合、降采样操作后会变成Metrics0Metrics:是聚合后的数值,相对比较离散,一般有name、IabeIs、time、values组成,MetriCS数据量一般很小,相对成本更低,查询的速度比较快。Traces:是最标准的调用日志,除了定义了调用的父子关系外(一般通过TraceIDSpanIDParentSpanID),一般还会定义操作的服务、方法、属性、状态、耗时等详细信息,通过Trace能够代替一部分Logs的功能,通过Trace的聚合也
15、能得到每个服务、方法的Metrics指标。通过将三个指标进行组合,以满足各类监控、告警、分析、问题排查等需求的技术成为应用监控技术。应用监控技术可帮助运维监控系统形成对业务完整链路每个关键节点的可视化监测能力,从用户体验直到代码性能,逐级下钻、引导分析,帮助快速发现问题、定位问题,缩短MTTR0(2)链路跟踪技术链路跟踪技术即跟踪请求在分布式系统中的流转路径与状态。而单链路诊断,顾名思义,就是基于单次请求关联的调用轨迹数据,定位问题原因,属于链路追踪的核心功能之一。技术实现链路上包括:核心接口埋点。对接口进行插桩,在执行前、后添加埋点,是为了记录调用经过接口时的链路唯一标识(TraceId),
16、调用层级标识(SpanId或RPCId)、时间、状态、IP、接名称等信息;然后再通过TraceId和RPCId(或SpanId)将一次请求的所有接口信息关联在一起,并以调用链的形式进行可视化展现。自动关联数据。大部分场景下,只依赖接口埋点数据,不足以定位根因。此时,我们还需要记录DB执行的SQL,接口调用的入参与出参信息(比如用户ID、事项ID、错误码等)以及调用过程中抛出的异常堆栈,来进一步缩小问题范围,提高排查效率。主动关联数据。接口调用与业务行为并不是完全对等的,比如一次购买行为由于条件不满足而执行失败,这在业务语义上无疑是失败的,但是在系统调用层面却是成功的。因此,为了更有效地诊断业务
17、问题,可以将业务数据与链路数据进行主动关联,比如在业务日志中记录当次调用的TraceId与RpcId,从而实现业务轨迹与调用链路的串联,这就全息业务排查。链路跟踪技术相较于探针采集技术具有更强的业务属性。而与日志分析技术相比,日志分析技术具有通过日志文件筛查关键字定位出具体问题,链路跟踪技术通过traceld.或者用户id、时间段来搜索,在业务链路上更加的清晰,可实现请求链路追踪、故障快速定位、可视化、依赖优化等功能,具有更强的开发线性逻辑。7 3)JavaAgent探针采集技术java探针agent技术构建一个独立于应用程序的代理程序(即为Agent)。JavaAgent是一个不能独立运行j
18、ar包,它通过依附于目标程序的JVM进程,进行工作。启动时只需要在目标程序的启动参数中添加-javaagent参数添加ClassFileTransformer字节码转换器,相当于在main方法前加了一个拦截器。实现在“加载JaVa字节码之前拦截并对字节码进行修改”、“在Jvm运行期间修改已经加载的字节码:在业务场景中其定位是在对代码的无侵入性添加修改,通过增加前后监听器采集代码运行时性能表现以及业务数据。常用来协助监测、运行甚至替换其他JVM上的程序。这一技术在监控系统、链路追踪系统、性能诊断工具上都有着大量的运用。(4)日志数据分析技术日志分析技术是为应用所产生的Log、Metric、Tra
19、Ce等数据提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能。日志技术通过LOgtai1、SDK、协议等多种方式采集数据。支持数据实时查询与分析,具备查询运算符、机器学习函数、SQL函数能力。支持可视化展示查询与分析结果,并支持基于统计图表自定义仪表盘。并支持数据实时消费,适用于StOnn消费、FlUnle消费、FIink消费等场景;支持数据实时投递,适用于将数据投递至0SS、时序数据库等数据载体内。探针技术倾向于数据的采集,日志技术倾向于汇聚日志后的分析能力,相较探针技术具有无入侵性、数据覆盖范围广,源头多,采集大多无需改变源端,影响较小的特点。日志分析技术中若人员标记链路标识,
20、可通过特定方法串联链路信息,在区日志中提取分析,但探针侧重跟随业务系统调用的进行实时更新业务调用拓扑并关联相关性能数据,两者使用不同的运维数据对应用系统进行监控和分析,故障分析模型、监控方式虽不同,但工作目的却是相同,都可以对运维监控中工程数据(如基础资源/故障率)、业务数据(业务指标/trace)实现监控与预警。(5)监控数据存储技术(时序数据库)监控数据存储技术普遍选用时序数据库作为载体。一个典型的时序数据由两个维度来表示,一个维度表示时间轴,随着时间的不断流入,数据会不断地追加。另外一个维度是时间线,由指标和数据源组成,数据源就是由一系列的标签标示的唯一数据采集点。例如指标cpu.usa
21、ge的数据来自于机房,应用,实例等维度组合成的采集点。在传统关系型数据库上加上时间戳作为监控数据存储载体的方式存在展现的纬度有限、无法解决时序模型的热点存储问题、不支持倒排索引等问题。而专业的时序数据库内数据结构由时间戳(time)、标签(tags)、数据(fields)三部分组成,数据存储采用LSMtree替换Btree的方式,时序数据写入和更新时首先写入位于内存里的数据结构,为了避免数据丢失也会先写到WAL文件中,内存里的数据结构会定时或者达到固定大小会刷到磁盘,这些磁盘上的文件不会被修改,随着磁盘上积累的文件越来越多,会定时的进行合并操作,消除冗余数据,减少文件数量。通过这种存储机制提升
22、数据的存储效率。基于时序数据库建设的存储引擎,能够用一套引擎存储各类可观测的数据、支持包括写入、查询、分析等功能。LogSTraces关键词查询、Tag过滤TrdCelD查询、Tag过滤查询命中少数据离散Metrics单一指标、指标聚合一范围查询数据聚合搜索引擎倒排索引高吞吐写入一超大数据查询时序引擎LSMTree 时间特性(6)监控数据分析技术(指标聚合、离线分析)监控数据的分析具备很强的业务属性与广泛的技术路线选择,难用一种语法/语言去实现所有的功能并且具有非常好的便捷性,因此数据分析技术选择去兼容关键词查询、在线SQL的查询、离线数据聚合分析技术。在线数据分析:通过时序数据的能力基于SQ
23、L进行数据分析,在SQL的基础上,实现了可以连接关键词查询、PromQL,外部的DB、ML模型的能力,让SQL成为顶层分析语言,实现数据的融合分析能力。流式数据分析:通过BIink/Flink流式分析引擎、流式SQL自动编排的能力,将实时产生的监控数据进行流式的分析,实时的将异常结果向应用进行推送,实现高时效性监控分析能力。离线数据分析:通过MaXCOmPUte离线分析引擎的能力、数据分析模型算法的能力,将系统所产生的监控、日志、业务数据进行聚合分析,形成业务波动基线、使用率分析、业务大屏聚合指标等能力。(三)建设目标(1)总体目标建成一套集资源管理、性能监测、智能分析、运维流程、数字化运营为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XX 公安厅 智慧 管理 系统 建设 内容

链接地址:https://www.desk33.com/p-780800.html