数据治理方案_数据质量管理.docx
《数据治理方案_数据质量管理.docx》由会员分享,可在线阅读,更多相关《数据治理方案_数据质量管理.docx(96页珍藏版)》请在课桌文档上搜索。
1、数据治理解决方案数据质量管理1 .术语、定义和缩略语12 .总体说明32.1. 概述32.2. 建设目标32.3. 系统架构42.3.1. 功能架构42.3.2. 技术架构73 .业务问题83.1. 数据质量问题域83.1.1. 信息问题域83.1.2. 技术问题域93.1.3. 流程问题域113.1.4. 管理问题域114 .数据质量获取层124.1. 数据采集范围124.1.1. 接口信息采集134.1.2. 基础编码采集134.1.3. 处理过程信息采集144.1.4. 指标信息采集144.2. 数据采集功能145 .数据质量存储层155.1. 数据质量存储内容155.1.1. 数据质量
2、规则库155.1.2. 数据质量信息库165.1.3. 数据质量知识库185.2. 数据质量存储方式196 .数据质量功能层196.1. 基础功能206.1.1. 规则配置管理206.1.2. 数据质量监控286.1.3. 数据质量问题处理426.1.4. 数据质量评估466.1.5. 数据质量报告586.1.6. 数据质量对外服务636.1.7. 数据质量两级联动646.2. 接口数据内容检查796.2.1. 内容检查功能796.2.2. 内容检查流程826.2.3. 内容检查方法837 .数据质量管理机制与流程847.1. 数据质量管理机制847.1.1. 组织机构与职责847.1.2.
3、角色与职责847.2. 数据质量管理流程857.2.1. 经营分析系统需求变更控制流程857.2.2. 数据质量告警处理流程877.2.3. 数据质量问题处理流程887.2.4. 数据质量报告管理流程908 .系统技术要求918.1. 数据采集技术要求918.2. 数据存储要求918.3. 功能组件与对外交互要求918.4. 监控检查技术要求928.5. 控制台和对外服务接口技术要求9286数据质量监控其它实施要求92y-I-刖百本标准的制订是为了构建企业数据质量管控体系,以及时发现、定位和解决企业的各类数据质量问题,确保数据质量的稳定可靠。1 .术语、定义和缩略语下列术语、定义适用于本标准:
4、字母名词解释S数据采集点覆盖经营分析系统数据处理环节的、获取每个环节运行状态的实体。该实体可以是程序实体也可以是任务实体S数据质量报告数据质量报告是对数据质量日常监控以及质量评估等过程累积的各种信息进行汇总、梳理、统计和分析,形成的统计报告S数据管理域数据管理域与信息服务域、经营服务域共同构成经营分析系统三域功能架构。数据管理域包含元数据管理、数据质量管理、安全管理和运维管理四部分。S数据质量监控自动获取经营分析系统各环节的数据质量信息,结合元数据库中的有关采集规则和检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告S数据质量采集代理(Agent)是指完成数据质量数据采集功能的功能
5、节点实体,该实体与采集服务端(SerVer)相对应S数据质量管理子系统数据质量管理子系统属于经营分析系统数据管理域中的一个子系统,其功能是对经营分析系统数据质量进行监控、评估和数据质量问题处理S数据质量规则库数据质量规则库是对数据质量管理活动所用到的各种判断及校验规则进行归类和存放的存储结构,存储的内容包括采集规则、监控规则、告警规则和审计规则等S数据质量信息库数据质量管理子系统存储层上的存储结构,用于存储数据质量信息采集程序采集的数据质量信息、质量评估信息、问题解决方案和问题处理流程信息等S数据质量知识库数据质量管理子系统存储层上的存储结构,用于存放数据质量问题相关的的识别方法(规则)、问题
6、描述信息及解决方案字母名词解释S数据质量评估数据质量评估是由数据质量管理人员根据需要发起,依据评估指标和评估方法,对源接口基础数据、基础编码或经营分析系统指标进行评价,得到评估结果并作为系统数据质量改进的参考和依据的过程Y元数据元数据是描述数据间关系的数据。经营分析系统中元数据泛指描述数据概念(COnCepls)、数据间关系(Roles)、数据处理规则(Rules)的数据,其中,领域语义(Semantics)和知识(KnoWIedge)也属于元数据的范畴。Z组件组件是实现特定功能的程序模块下列缩略语适用于本标准:缩写英文描述中文描述BOSSBusinessOperationSupportSys
7、tem业务运营支撑系统BASSBusinessAnalyseSupportSystem经营分析系统BOMCBusinessOperationManagementCenter业务支撑网管理系统CSSCascadingStyleSheet层叠样式表,是一组格式设置规则,用于控制Web页面的外观CRMCustomerRelationshipManagement客户关系管理DSMPDataServiceManagementPlatform数据业务管理平台ET1.ExtractionTransformation1.oading抽取、转换和加载FAQFrequentlyAskedQuestions常见问题
8、解答GSMGlobalSystemforMobilecommunicationGSM移动通信系统。GSM是目前使用最广的移动通信系统KPIKeyPerformanceIndicator关键绩效指标IPInternetProtocol网络之间互连的协议TDTD-SCDMA时分同步码分多址接入,一种无线通信的技术标准缩写英文描述中文描述MMSMultimediaMessageService多媒体信息服务VPMNVirtualPrivateMobileNetwork虚拟专用移动通信网O1.APOn-lineAnalysisProcess在线分析处理2 .总体说明数据质量管理子系统是经营分析系统数据管
9、理域的重要组成部分。本章对该子系统的基本概述部分,具体包括:数据质量子系统概述、建设目标及系统架构。2.1. 概述经营分析系统数据质量管理体系包括对数据源接口、数据实体、处理过程、数据应用和业务指标等相关内容的管控机制和处理流程,也包括对数据质量管控处理的信息总结和知识应用等辅助内容。数据质量管理子系统是经营分析系统数据质量管理体系的技术支撑平台。本规范用于指导企业数据质量管理子系统建设。本规范规定了经营分析系统数据质量管理的范围和要求,说明了数据质量管理子系统的体系结构,规定了数据质量管理子系统的基础功能和处理流程,明确了在基础功能之上的各种应用的要求.本规范提出构建由数据质量监控、数据质量
10、问题处理、规则配置管理、数据质量评估、图形化指标运维、数据质量报告、数据质量知识库和数据质量对外服务等功能构成的数据质量管理子系统。本期规范新增了KPI急报快报、指标波动阈值预测、图形化指标运维、接口数据内容检查和中断式监控预警等应用专题,以期解决实际业务问题,增强数据质量管理子系统对业务发展的支撑能力。同时,应用专题的引入使系统的使用对象范围包含业务人员,增加了系统的使用价值。2.2. 建设目标规范数据质量管理子系统的建设目标具体包括: 扩大系统使用对象,让业务人员等能够使用数据质量系统。本期通过KPI指标急报快报、指标图形化运维等应用让经营分析系统用户都可以使用数据质量系统; 不断优化现有
11、数据质量系统功能,提供更加精细化的管理手段支撑。本期通过接口数据内容检测,指标波动阈值预测等应用,不断完善数据质量系统的功能。 提高系统易用性,不断完善用户体验。本期通过图形化指标运维的方式,让整个监控除了以往的列表方式,能够通过图形化的形式直观的展现。 丰富系统对外服务能力,摆脱以往单一工单形式交互。本期通过中断式监控预警实现实时的数据质量对外数据服务,通过KPI急报快报、图形化指标运维嵌入经营分析门户的形式,提供对外Web应用支持。2.3. 系统架构本章从功能结构和技术结构两方面说明了数据质量管理子系统的体系结构,在功能结构一节简要说明了各个层次的功能,在技术结构一节说明了各个组件的实现方
12、式以及数据质量管理子系统与经营分析系统其它模块的关系。2.3.1. 功能架构数据质量管理子系统的功能结构包括获取层、存储层、功能层和应用层四部分,如图2-1所示:图21数据质量管理子系统功能结构图下面简要描述各层要求实现的功能: 获取层获取层主要实现数据质量数据的采集功能。数据质量采集模块负责采集所需的源系统和经营分析系统监控数据,它是数据质量管理功能和应用的基础。采集的数据范围包括接口信息、基础编码信息、经营分析系统数据处理过程信息和业务指标数据等。 存储层存储层主要包括三个部分: 数据质量规则库:存储数据质量子系统的相关规则信息,包括数据质量采集规则、监控规则、告警规则及两级数据质量联动审
13、计规则等; 数据质量信息库:存储数据质量所有的告警信息、质量评估信息和问题处理流程信息等: 数据质量知识库:存储数据质量监控知识、数据质量评估知识和数据质量问题及其处理方法知识,包括接口问题处理知识、ET1.问题处理知识、仓库处理过程问题处理知识和指标异常及处理知识等; 监控数据:包括指标监控、接口监控、作业监控等实时监控的历史信息,通过历史信息进行数据分析相关功能。 功能层功能层包含了数据质量管理子系统的基础功能,它为数据质量管理的前端应用提供功能支撑,主要包括以下功能: 规则配置管理:规则配置管理实现基于动态规则配置的监控稽核功能,建立数据质量监控规则库,实现监控稽核规则的可配置可管理。规
14、则配置管理包括规则设置、规则维护、规则调度及规则优化等功能; 数据质量监控:数据质量监控是根据配置的规则或算法,对采集的数据进行数据质量监控,对发现的数据质量异常情况进行告警和拓扑呈现的过程,包括源接口关键数据稽核、实体数据检查、处理过程检查、关键指标检查、分层分级告警管理和拓扑呈现等功能; 数据质量问题处理:数据质量问题处理是按照问题处理流程对系统监控所发现的问题以及手工提交的问题进行处理的过程,包括问题生成、问题分析、问题处理(包括流转)和问题总结; 数据质量评估:数据质量评估包括源接口基础数据质量评估、基础编码评估和经营分析系统指标关联性分析。源接口基础数据质量评估是根据评估指标和评估方
15、法,对源接口基础数据的数据质量进行评价;基础编码评估是对经营分析系统的基础编码的一致性和有效性等进行评估;经营分析系统指标关联性分析是通过对指标进行关联性检查发现潜在的数据质量问题,相关到评估结果以作为系统质量改进的参考和依据; 数据质量报告:数据质量报告是对数据质量管理各环节累积的各种信息进行汇总、梳理、统计和分析,形成统计报告的过程,基本功能主要包括:报告生成、报告发布、报告查询和报告归档; 数据质量两级联动:数据质量两级联动实现企业和一级经营分析系统数据质量信息的两级联动,打通从企业到一级经营分析系统端到端的数据质量管理链路,支持一经接口数据及时性和准确性问题审计,提升企业对一经接口数据
16、质量保障能力和一级经营分析系统对全网业务数据监管能力。数据质量联动包括联动链路获取、联动审计和联动异常处理等功能; 数据质量对外服务:数据质量对外服务负责数据质量管理子系统与经营分析系统其他模块及外部系统进行数据质量信息交互; 急报快报:让业务人员能够及时的获取指标波动信息,并且能够直接在经营分析系统前端订阅业务人员关注的指标,并获取订阅指标的异常信息。; 指标波动阈值挖掘分析:实现对KPl指标波动范围的挖掘分析,帮助提升KPl指标监控规则设置的准确性,减少人为因素干扰; 接口数据内容检查:提供接口数据字段内容检查功能,监控接口数据内容的质量问题,获取存在质量问题的数据集,提供给数据源系统进行
17、根治处理; 图形化指标运维:提供图形化的KPI指标监控设置、运行跟踪及告警分析功能,实现指标监控一站式图形化管理,提高系统易用性; 中断式监控预警:通过经营分析作业调度模块与数据质量系统的交互,当上游作业发生数据质量问题时,能够及时停止后续作业的运行,避免错误数据影响扩大。 应用层应用层在数据质量管理子系统功能层的支持下为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括KPI急报快报、指标波动阈值预测、接口数据内容检查、图形化指标运维、中断式监控预警、BoSS接口数据稽核、数据质量两级联动管理、和数据质量知识应用等。2.3.2.技术架构数据质量管理子系统的技术结构包括获取层、存储层、
18、功能层和应用层等四部分部分,如图2-2所示。经弦分析系铳女他模块/子系统经分作业蠲慢模块元数据管理模块经营分析系统门户数据质量鬻理子系统IREST服务接IJPortIeVIFrame 获取层数据质量采集模块由数据质量采集代理(Agent)和采集服务端(SerVer)组成,共同完成质量信息的采集方式配置、采集执行、数据格式转换等功能。质量信息的范围包括源系统接口文件、指标数据以及经营分析系统的各种库表、程序运行、指标等数据。采集到的数据存储在数据质量存储库中,并作为监控检查的输入。 存储层存储层采用关系数据库方式存储各种质量信息,主要包括数据质量规则、数据质量信息和数据质量知识等。数据加载的方式
19、根据实际应用可采用增量或全量加载的方式。存储肆根据数据的不同类型采用不同的存储周期,质量规则和质量知识采用长期在线存储,质量信息采用短期在线存储和定期备份压缩存储。 功能层功能层包括规则配置管理、数据质量监控、数据质量问题处理、数据质量评估、数据质量报告、急报快报、指标波动阈值挖掘分析、接口数据内容检查、图形化指标运维、中断式监控预警以及数据质量两级联动等模块。相关功能通过数据质量控制台的相关调度引擎进行协同工作,并与其他模块有如下交互: 与存储层进行各种质量信息的交互; 与元数据管理模块通过REST服务接口进行交互; 支撑应用层的相关应用; 能够提供对外服务,让其它系统集成数据质量系统的相关
20、功能。应用层应用层基于功能层为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括KPI急报快报、指标波动阈值预测、接口数据内容检查、图形化指标运维、中断式监控预警、BC)SS接口数据稽核、数据质量两级联动管理、和数据质量知识应用等。应用层通过PortletZiFrame等方式提供各种质量信息到经营分析系统门户中。3 .业务问题3.1. 数据质量问题域数据质量问题是数据质量管理的核心。本节对经营分析系统数据质量问题进行了概述,并对本规范覆盖的范围进行了说明。数据质量问题按照来源和具体原因,可以分为信息、技术、流程和管理四个问题域,如图3-1所示。图3-1数据质量的四个问题域3.1.1.
21、信息问题域信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题,如图3-2所示。图3-2信息问题域产生这类数据质量问题的主要原因包括:元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。数据度量主要包括完整性、唯一性、一致性、准确性和合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。信息类问题中易引起描述及理解错误的元数据主要包括: 业务元数据一一主要包括业务术语、信息分类、指标定义(指标口径)、业务规则等信息; 技术元数据一一主要包括对数据结构、数据处理方面的特征描述,覆盖经营分析系统数据源接口、数据仓库、ET1.O1.AP、数据挖掘、前端展现
22、等全部数据处理环节。3.1.2. 技术问题域技术类问题是指由于具体数据处理的各技术环节异常而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷,如图33所示。,数据质量问题数据创建一数据校:默认值便申数据创建延迟广数据骁取一M取耐数据装载平台孤岛过程中失真数据使用-软件平台数据传递展示周期数据存雕筹数据备份、恢复/网络传输过程不可靠安全管理数据维护技术问题图3-3技术问题域技术类数据质量问题主要产生在数据创建、数据获取、数据传递、数据装载、数据使用和数据维护等环节,具体描述如下: 数据创建质量问题主要包括:业务系统话单延迟入库、创建数据默认值不当和数据录入的校验规则不当,导致指标统计结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 治理 方案 质量管理

链接地址:https://www.desk33.com/p-1416228.html