《数据治理方案_数据质量管理.docx》由会员分享,可在线阅读,更多相关《数据治理方案_数据质量管理.docx(96页珍藏版)》请在课桌文档上搜索。
1、数据治理解决方案数据质量管理1 .术语、定义和缩略语12 .总体说明32.1. 概述32.2. 建设目标32.3. 系统架构42.3.1. 功能架构42.3.2. 技术架构73 .业务问题83.1. 数据质量问题域83.1.1. 信息问题域83.1.2. 技术问题域93.1.3. 流程问题域113.1.4. 管理问题域114 .数据质量获取层124.1. 数据采集范围124.1.1. 接口信息采集134.1.2. 基础编码采集134.1.3. 处理过程信息采集144.1.4. 指标信息采集144.2. 数据采集功能145 .数据质量存储层155.1. 数据质量存储内容155.1.1. 数据质量
2、规则库155.1.2. 数据质量信息库165.1.3. 数据质量知识库185.2. 数据质量存储方式196 .数据质量功能层196.1. 基础功能206.1.1. 规则配置管理206.1.2. 数据质量监控286.1.3. 数据质量问题处理426.1.4. 数据质量评估466.1.5. 数据质量报告586.1.6. 数据质量对外服务636.1.7. 数据质量两级联动646.2. 接口数据内容检查796.2.1. 内容检查功能796.2.2. 内容检查流程826.2.3. 内容检查方法837 .数据质量管理机制与流程847.1. 数据质量管理机制847.1.1. 组织机构与职责847.1.2.
3、角色与职责847.2. 数据质量管理流程857.2.1. 经营分析系统需求变更控制流程857.2.2. 数据质量告警处理流程877.2.3. 数据质量问题处理流程887.2.4. 数据质量报告管理流程908 .系统技术要求918.1. 数据采集技术要求918.2. 数据存储要求918.3. 功能组件与对外交互要求918.4. 监控检查技术要求928.5. 控制台和对外服务接口技术要求9286数据质量监控其它实施要求92y-I-刖百本标准的制订是为了构建企业数据质量管控体系,以及时发现、定位和解决企业的各类数据质量问题,确保数据质量的稳定可靠。1 .术语、定义和缩略语下列术语、定义适用于本标准:
4、字母名词解释S数据采集点覆盖经营分析系统数据处理环节的、获取每个环节运行状态的实体。该实体可以是程序实体也可以是任务实体S数据质量报告数据质量报告是对数据质量日常监控以及质量评估等过程累积的各种信息进行汇总、梳理、统计和分析,形成的统计报告S数据管理域数据管理域与信息服务域、经营服务域共同构成经营分析系统三域功能架构。数据管理域包含元数据管理、数据质量管理、安全管理和运维管理四部分。S数据质量监控自动获取经营分析系统各环节的数据质量信息,结合元数据库中的有关采集规则和检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告S数据质量采集代理(Agent)是指完成数据质量数据采集功能的功能
5、节点实体,该实体与采集服务端(SerVer)相对应S数据质量管理子系统数据质量管理子系统属于经营分析系统数据管理域中的一个子系统,其功能是对经营分析系统数据质量进行监控、评估和数据质量问题处理S数据质量规则库数据质量规则库是对数据质量管理活动所用到的各种判断及校验规则进行归类和存放的存储结构,存储的内容包括采集规则、监控规则、告警规则和审计规则等S数据质量信息库数据质量管理子系统存储层上的存储结构,用于存储数据质量信息采集程序采集的数据质量信息、质量评估信息、问题解决方案和问题处理流程信息等S数据质量知识库数据质量管理子系统存储层上的存储结构,用于存放数据质量问题相关的的识别方法(规则)、问题
6、描述信息及解决方案字母名词解释S数据质量评估数据质量评估是由数据质量管理人员根据需要发起,依据评估指标和评估方法,对源接口基础数据、基础编码或经营分析系统指标进行评价,得到评估结果并作为系统数据质量改进的参考和依据的过程Y元数据元数据是描述数据间关系的数据。经营分析系统中元数据泛指描述数据概念(COnCepls)、数据间关系(Roles)、数据处理规则(Rules)的数据,其中,领域语义(Semantics)和知识(KnoWIedge)也属于元数据的范畴。Z组件组件是实现特定功能的程序模块下列缩略语适用于本标准:缩写英文描述中文描述BOSSBusinessOperationSupportSys
7、tem业务运营支撑系统BASSBusinessAnalyseSupportSystem经营分析系统BOMCBusinessOperationManagementCenter业务支撑网管理系统CSSCascadingStyleSheet层叠样式表,是一组格式设置规则,用于控制Web页面的外观CRMCustomerRelationshipManagement客户关系管理DSMPDataServiceManagementPlatform数据业务管理平台ET1.ExtractionTransformation1.oading抽取、转换和加载FAQFrequentlyAskedQuestions常见问题
8、解答GSMGlobalSystemforMobilecommunicationGSM移动通信系统。GSM是目前使用最广的移动通信系统KPIKeyPerformanceIndicator关键绩效指标IPInternetProtocol网络之间互连的协议TDTD-SCDMA时分同步码分多址接入,一种无线通信的技术标准缩写英文描述中文描述MMSMultimediaMessageService多媒体信息服务VPMNVirtualPrivateMobileNetwork虚拟专用移动通信网O1.APOn-lineAnalysisProcess在线分析处理2 .总体说明数据质量管理子系统是经营分析系统数据管
9、理域的重要组成部分。本章对该子系统的基本概述部分,具体包括:数据质量子系统概述、建设目标及系统架构。2.1. 概述经营分析系统数据质量管理体系包括对数据源接口、数据实体、处理过程、数据应用和业务指标等相关内容的管控机制和处理流程,也包括对数据质量管控处理的信息总结和知识应用等辅助内容。数据质量管理子系统是经营分析系统数据质量管理体系的技术支撑平台。本规范用于指导企业数据质量管理子系统建设。本规范规定了经营分析系统数据质量管理的范围和要求,说明了数据质量管理子系统的体系结构,规定了数据质量管理子系统的基础功能和处理流程,明确了在基础功能之上的各种应用的要求.本规范提出构建由数据质量监控、数据质量
10、问题处理、规则配置管理、数据质量评估、图形化指标运维、数据质量报告、数据质量知识库和数据质量对外服务等功能构成的数据质量管理子系统。本期规范新增了KPI急报快报、指标波动阈值预测、图形化指标运维、接口数据内容检查和中断式监控预警等应用专题,以期解决实际业务问题,增强数据质量管理子系统对业务发展的支撑能力。同时,应用专题的引入使系统的使用对象范围包含业务人员,增加了系统的使用价值。2.2. 建设目标规范数据质量管理子系统的建设目标具体包括: 扩大系统使用对象,让业务人员等能够使用数据质量系统。本期通过KPI指标急报快报、指标图形化运维等应用让经营分析系统用户都可以使用数据质量系统; 不断优化现有
11、数据质量系统功能,提供更加精细化的管理手段支撑。本期通过接口数据内容检测,指标波动阈值预测等应用,不断完善数据质量系统的功能。 提高系统易用性,不断完善用户体验。本期通过图形化指标运维的方式,让整个监控除了以往的列表方式,能够通过图形化的形式直观的展现。 丰富系统对外服务能力,摆脱以往单一工单形式交互。本期通过中断式监控预警实现实时的数据质量对外数据服务,通过KPI急报快报、图形化指标运维嵌入经营分析门户的形式,提供对外Web应用支持。2.3. 系统架构本章从功能结构和技术结构两方面说明了数据质量管理子系统的体系结构,在功能结构一节简要说明了各个层次的功能,在技术结构一节说明了各个组件的实现方
12、式以及数据质量管理子系统与经营分析系统其它模块的关系。2.3.1. 功能架构数据质量管理子系统的功能结构包括获取层、存储层、功能层和应用层四部分,如图2-1所示:图21数据质量管理子系统功能结构图下面简要描述各层要求实现的功能: 获取层获取层主要实现数据质量数据的采集功能。数据质量采集模块负责采集所需的源系统和经营分析系统监控数据,它是数据质量管理功能和应用的基础。采集的数据范围包括接口信息、基础编码信息、经营分析系统数据处理过程信息和业务指标数据等。 存储层存储层主要包括三个部分: 数据质量规则库:存储数据质量子系统的相关规则信息,包括数据质量采集规则、监控规则、告警规则及两级数据质量联动审
13、计规则等; 数据质量信息库:存储数据质量所有的告警信息、质量评估信息和问题处理流程信息等: 数据质量知识库:存储数据质量监控知识、数据质量评估知识和数据质量问题及其处理方法知识,包括接口问题处理知识、ET1.问题处理知识、仓库处理过程问题处理知识和指标异常及处理知识等; 监控数据:包括指标监控、接口监控、作业监控等实时监控的历史信息,通过历史信息进行数据分析相关功能。 功能层功能层包含了数据质量管理子系统的基础功能,它为数据质量管理的前端应用提供功能支撑,主要包括以下功能: 规则配置管理:规则配置管理实现基于动态规则配置的监控稽核功能,建立数据质量监控规则库,实现监控稽核规则的可配置可管理。规
14、则配置管理包括规则设置、规则维护、规则调度及规则优化等功能; 数据质量监控:数据质量监控是根据配置的规则或算法,对采集的数据进行数据质量监控,对发现的数据质量异常情况进行告警和拓扑呈现的过程,包括源接口关键数据稽核、实体数据检查、处理过程检查、关键指标检查、分层分级告警管理和拓扑呈现等功能; 数据质量问题处理:数据质量问题处理是按照问题处理流程对系统监控所发现的问题以及手工提交的问题进行处理的过程,包括问题生成、问题分析、问题处理(包括流转)和问题总结; 数据质量评估:数据质量评估包括源接口基础数据质量评估、基础编码评估和经营分析系统指标关联性分析。源接口基础数据质量评估是根据评估指标和评估方
15、法,对源接口基础数据的数据质量进行评价;基础编码评估是对经营分析系统的基础编码的一致性和有效性等进行评估;经营分析系统指标关联性分析是通过对指标进行关联性检查发现潜在的数据质量问题,相关到评估结果以作为系统质量改进的参考和依据; 数据质量报告:数据质量报告是对数据质量管理各环节累积的各种信息进行汇总、梳理、统计和分析,形成统计报告的过程,基本功能主要包括:报告生成、报告发布、报告查询和报告归档; 数据质量两级联动:数据质量两级联动实现企业和一级经营分析系统数据质量信息的两级联动,打通从企业到一级经营分析系统端到端的数据质量管理链路,支持一经接口数据及时性和准确性问题审计,提升企业对一经接口数据
16、质量保障能力和一级经营分析系统对全网业务数据监管能力。数据质量联动包括联动链路获取、联动审计和联动异常处理等功能; 数据质量对外服务:数据质量对外服务负责数据质量管理子系统与经营分析系统其他模块及外部系统进行数据质量信息交互; 急报快报:让业务人员能够及时的获取指标波动信息,并且能够直接在经营分析系统前端订阅业务人员关注的指标,并获取订阅指标的异常信息。; 指标波动阈值挖掘分析:实现对KPl指标波动范围的挖掘分析,帮助提升KPl指标监控规则设置的准确性,减少人为因素干扰; 接口数据内容检查:提供接口数据字段内容检查功能,监控接口数据内容的质量问题,获取存在质量问题的数据集,提供给数据源系统进行
17、根治处理; 图形化指标运维:提供图形化的KPI指标监控设置、运行跟踪及告警分析功能,实现指标监控一站式图形化管理,提高系统易用性; 中断式监控预警:通过经营分析作业调度模块与数据质量系统的交互,当上游作业发生数据质量问题时,能够及时停止后续作业的运行,避免错误数据影响扩大。 应用层应用层在数据质量管理子系统功能层的支持下为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括KPI急报快报、指标波动阈值预测、接口数据内容检查、图形化指标运维、中断式监控预警、BoSS接口数据稽核、数据质量两级联动管理、和数据质量知识应用等。2.3.2.技术架构数据质量管理子系统的技术结构包括获取层、存储层、
18、功能层和应用层等四部分部分,如图2-2所示。经弦分析系铳女他模块/子系统经分作业蠲慢模块元数据管理模块经营分析系统门户数据质量鬻理子系统IREST服务接IJPortIeVIFrame 获取层数据质量采集模块由数据质量采集代理(Agent)和采集服务端(SerVer)组成,共同完成质量信息的采集方式配置、采集执行、数据格式转换等功能。质量信息的范围包括源系统接口文件、指标数据以及经营分析系统的各种库表、程序运行、指标等数据。采集到的数据存储在数据质量存储库中,并作为监控检查的输入。 存储层存储层采用关系数据库方式存储各种质量信息,主要包括数据质量规则、数据质量信息和数据质量知识等。数据加载的方式
19、根据实际应用可采用增量或全量加载的方式。存储肆根据数据的不同类型采用不同的存储周期,质量规则和质量知识采用长期在线存储,质量信息采用短期在线存储和定期备份压缩存储。 功能层功能层包括规则配置管理、数据质量监控、数据质量问题处理、数据质量评估、数据质量报告、急报快报、指标波动阈值挖掘分析、接口数据内容检查、图形化指标运维、中断式监控预警以及数据质量两级联动等模块。相关功能通过数据质量控制台的相关调度引擎进行协同工作,并与其他模块有如下交互: 与存储层进行各种质量信息的交互; 与元数据管理模块通过REST服务接口进行交互; 支撑应用层的相关应用; 能够提供对外服务,让其它系统集成数据质量系统的相关
20、功能。应用层应用层基于功能层为数据质量管理各环节管控和处理提供具体应用解决方案,主要包括KPI急报快报、指标波动阈值预测、接口数据内容检查、图形化指标运维、中断式监控预警、BC)SS接口数据稽核、数据质量两级联动管理、和数据质量知识应用等。应用层通过PortletZiFrame等方式提供各种质量信息到经营分析系统门户中。3 .业务问题3.1. 数据质量问题域数据质量问题是数据质量管理的核心。本节对经营分析系统数据质量问题进行了概述,并对本规范覆盖的范围进行了说明。数据质量问题按照来源和具体原因,可以分为信息、技术、流程和管理四个问题域,如图3-1所示。图3-1数据质量的四个问题域3.1.1.
21、信息问题域信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题,如图3-2所示。图3-2信息问题域产生这类数据质量问题的主要原因包括:元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。数据度量主要包括完整性、唯一性、一致性、准确性和合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。信息类问题中易引起描述及理解错误的元数据主要包括: 业务元数据一一主要包括业务术语、信息分类、指标定义(指标口径)、业务规则等信息; 技术元数据一一主要包括对数据结构、数据处理方面的特征描述,覆盖经营分析系统数据源接口、数据仓库、ET1.O1.AP、数据挖掘、前端展现
22、等全部数据处理环节。3.1.2. 技术问题域技术类问题是指由于具体数据处理的各技术环节异常而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷,如图33所示。,数据质量问题数据创建一数据校:默认值便申数据创建延迟广数据骁取一M取耐数据装载平台孤岛过程中失真数据使用-软件平台数据传递展示周期数据存雕筹数据备份、恢复/网络传输过程不可靠安全管理数据维护技术问题图3-3技术问题域技术类数据质量问题主要产生在数据创建、数据获取、数据传递、数据装载、数据使用和数据维护等环节,具体描述如下: 数据创建质量问题主要包括:业务系统话单延迟入库、创建数据默认值不当和数据录入的校验规则不当,导致指标统计结
23、果不一致、数据无效和记录重复等: 数据获取质量问题主要包括:采集点不正确、取数时间点不正确以及接口数据在获取过程中失真,例如编码转换处理错误或精度不够,导致指标统计结果不一致或数据无效等; 数据传递质量问题主要包括:接口数据及时率低、接口数据漏传和网络传输过程不可靠,例如包丢失、文件传输方式错误、传输技术问题和协议使用不当导致的数据不完整等; 数据装载质量问题主要包括:数据清洗算法、数据转换算法、数据加载算法的错误和调度机制不合理等; 数据使用质量问题主要包括:展示工具使用错误、展示方式不合理和展示周期不合理等; 数据维护质量问题主要包括:数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验
24、证机制和人为后台调整数据等。3.1.3. 流程问题域流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,如图3-4所示。图34流程问题域流程类问题主要来源于经营分析系统的数据创建流程、数据传递流程、数据装载流程、数据使用流程、数据维护流程和稽核流程等各环节,具体描述如下: 数据创建流程质量问题主要指操作员数据录入时缺乏审核流程; 数据传递流程质量问题主要指通信流程沟通不畅; 数据装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误; 数据使用流程质量问题主要指数据使用流程缺乏流程管理; 数据维护流程质量问题主要指缺乏变更维护
25、流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控; 稽核流程质量问题主要指缺乏数据检查及问题反馈流程。3.1.4. 管理问题域管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如图3-5所示。图3-5管理问题域管理类问题主要包括人员的管理、培训和激励等方面的措施不当导致的管理缺失。人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;人员管理所产生的质量问题主要指缺乏管理目标、责任人缺失或有关人员缺乏责任心和工作的优先级安排不当;人员激励所产生的质量问题主要指缺乏奖惩制度、奖惩制度的执行不到位、激励反馈渠道不畅和缺乏反馈机制。4
26、.数据质量获取层本章针对经营分析系统数据质量管理中所涉及的各类质量数据,明确其获取的范围、获取时效性、准确性、粒度和相关管理功能等方面的要求,确保以各种获取方式进入数据质量信息库的质量数据能够满足数据质量规范化管理的要求。4.1. 数据采集范围根据数据质量子系统监控需要,在数据源系统和经营分析系统数据处理的相关环节配置采集点,采集数据质量监控信息。采集点在经营分析系统中的分布如图4-1所示。 接口信息:包括源系统接口文件及一级经营分析系统下发文件等; 基础编码信息:包括源系统编码数据和经营分析系统维表数据等; 处理过程信息:包括ET1.处理、仓库处理过程、数据集市处理和一级经营分析系统接口抽取
27、等; 指标信息:包括源系统关键指标、经营分析系统关键指标及上传一级经营分析系统指标信息等;下面就此四部分信息采集分别进行说明。4.1.1. 接口信息采集经营分析系统的数据来源于各种源系统。为了监控源系统接口数据的及时性、有效性及验证经营分析系统数据的一致性,需要对相关接口数据信息进行采集,包括接口文件的到达时间、文件个数、文件名称、文件大小及文件记录数等信息。接口信息的采集一般采用在接口文件服务器部署采集代理的方式,并根据接口文件的到达周期如每小时、每日、每月等,设定定时或轮询的方式进行信息采集。经营分析系统的数据经过加工处理后,需要提供给外部系统使用。如级经营分析系统在收到上传的接口文件后,
28、会返回校验文件或异常报告。质量管理子系统通过采集返回接口信息包括返回文件个数、异常标志等来监控对外提供数据质量问题。4.1.2. 基础编码采集基础编码信息的采集包括源系统编码数据和经营分析系统维表数据两部分。根据编码信息的更新周期如每日、每月等,采取全量或增量的方式抽取编码信息,包括对源系统编码接口数据的抽取及经营分析系统维表数据的抽取。4.1.3. 处理过程信息采集处理过程信息采集是指对各种ET1.程序处理、仓库处理过程、数据集市处理和级经营分析系统接口抽取等过程信息进行采集,包括过程名称、过程开始时间、过程结束时间、过程耗时及异常标志信息等。处理过程信息采集采用定时或事件触发方式,在处理过
29、程结束之后,通过读取ET1.工具处理日志或数据库程序运行日志获得相关数据信息。4.1.4. 指标信息采集指标信息采集包括采集源系统关键指标、经营分析系统关键指标和上传一级经营分析系统指标信息。指标采集程序与数据质量系统之间的接口,可以是文件接口、系统间调用APl接口(WebSerVice、SOCkel等)。采集程序需要能够支持对定时采集指标数据功能。4.2.数据采集功能数据质量采集模块由数据质量采集代理(Agent)和采集服务端(Server)组成,共同完成各种质量信息的采集方式配置、采集执行、数据格式转换等功能,包括如下功能要求: 部署采集代理程序,采集数据源系统的监控数据或接口文件,实现数
30、据采集; 采集服务器保管采集配置数据,采集代理从服务器获取相关的采集配置信息; 采集代理负责采集监控数据,将采集的数据转成数据质量管理子系统的数据格式,用于监控规则的校验; 采集服务器应可以对采集代理进行集中的管理; 数据采集需覆盖数据源系统和经营分析系统数据处理过程的所需环节; 数据采集需满足时效性要求。如数据装载过程执行完后即采集该过程的处理状态; 数据采集应满足负载性要求,即要求对采集对象系统的负载压力在可允许范围内。 采集程序需要支持指定时间点采集,如9点、10点、13点定时采集程序。 采集程序需要支持以程序启动为起始时间点,按照制定时间单位,循环采集数据。设置时间间隔以分钟为单位。5
31、.数据质量存储层本章说明数据质量管理子系统信息存储的要求,包括数据质量规则、数据质量信息及数据质量知识三部分。数据质量存储层结构如图5-1所示。数据质规则库数据质量采集规则数据质量监控画敷据痰呈告修血数据质量审计规则数据质量信息库依据质最告警信息数据质评估信息数据质问题处理倍息数据质量知识库数据质量监控知识数据质评估知识数据质问题处理都识图5-1数据质量存储层结构5.1. 数据质量存储内容本节对数据质量规则、信息及知识的存储内容进行说明。5.1.1. 数据质量规则库数据质量规则库是对数据质量管理活动所用到的各种判断及校验规则进行归类和存放的存储结构,存储的内容包括采集规则、监控规则、告警规则和
32、审计规则等。5.1.1.1. 数据质量规则的产生数据质量规则是在经营分析系统使用及运维过程中,由数据质量管理子系统采集有关质量监控数据、度量相关质量指标及改进过程中所采用的一系列处理规则。5.1.1.2. 数据质量规则的内容 采集规则采集程序规则是数据质量管理子系统抽取所需数据质量信息的算法和规则,主要包括采集规则名称、被采集对象所在的IP、端口、数据库及用户模式、采集对象元数据ID及名称、元数据属性、维度和采集算法、算法参数,以及配置执行采集任务的执行脚本或程序、启停参数、采集任务执行的时间和执行周期等。 监控规则监控规则是数据质量管理子系统对采集过来的质量数据进行质量指标检测的校验规则,包
33、括如下内容:监控对象元数据ID:所监控的元数据ID: 监控对象元数据名称:所监控的元数据名称,如客户信息汇总表; 监控对象类型:数据仓库对象的分类,包括接口文件、数据库表、ET1.作业、指标等; 监控对象维度:监控对象的数据维度,如地域维度、品牌维度等; 规则编码:规则的唯一标识,通常由数字序列构成,如347011; 规则名称:规则的具体名称,如客户发展波动检查; 监控规则类型:根据监控数据质量属性进行划分,如表6-3监控规所示; 监控规则算法:对具体的监控规则类型的算法实现,如表6-11所示; 算法描述:对规则算法的描述说明; 规则阈值:规则计算的对比值,如波动率的允许范围为5%; 规则描述
34、:规则的其他注释信息。监控规则详细格式参见6.1.1.1.1监控规则。 告警规则告警规则是监控规则执行后,出现违反规则允许范围的异常时,发送告警信息的方式方法,包括告警方式规则和告警订阅规则两部分。告警方式规则包括告警规则名称、告警升级间隔时间、告警内容格式、最低告警等级和是否自动生成数据质量监控问题等。告警订阅规则包括订阅名称、订阅者(如工号)、订阅规则、最低告警级别和告警屏蔽时间段等。 审计规则审计规则是进行两级联动对象数据质量审计的算法依据,包括及时性审计规则和准确性审计规则。 及时性审计规则:即省级数据质量管理子系统根据一级经营分析系统的接口文件及时性要求,形成的及时性审计规则,包括一
35、经接口单元ID、规则类型编码、基准时间阈值及描述等。 准确性审计规则:即省级数据质量管理子系统根据一级经营分析系统的准确性要求,形成对相关指标的准确性审计规则,包括指标ID、指标名称、一经接口单元ID、规则类型编码、阈值及描述等。5.1.2.数据质量信息库数据质量信息库是对数据质量管理子系统日常采集和处理的各种质量数据进行归类和存放的存储结构,存储的内容包括日常监控告警信息、不定期发起的质量评估采集信息以及数据质量问题的处理信息等。5.1.2.1. 数据质量信息的产生数据质量信息是数据质量子系统在日常数据质量管理过程中,提取业务系统数据及对业务数据进行了度量和分析过程中所产生的明细数据信息。5
36、.1.2.2. 数据质量信息的内容数据质量告警信息数据质量告警信息是数据质量日常监控的采集数据和告警处理信息,包括采集数据信息、告警分类信息及告警数值信息等,参见但不限于如下: 告警元数据ID:发生告警的被监控元数据编码; 告警元数据名称:发生告警的被监控元数据名称; 告警数据日期:发生告警的业务数据日期: 告警数据周期类型:发生告警的业务数据时间日期,如日、月; 告警规则类型:参见表6-2; 基准值:数据参照基准值; 实际值:数据当前实际取值; 告警值:实际值与基准值的偏差值,如指标波动率为10%; 告警分层:参见表6-10: 告警分级:参见表6-11; 告警时间:告警发生的时间; 数据质量
37、评估信息数据质量评估信息是数据质量管理子系统不定期数据质量评估活动中所涉及的明细业务数据信息、编码信息、评估元数据信息及评估指标选择信息等。参见6.1.4节。 数据质量问题处理信息数据质量问题处理信息是数据质量告警被确认后转入问题处理流程的相关处理信息及数据质量评估发现的问题信息。参见表6-13所示。5.1.3.数据质量知识库数据质量知识是在经营分析系统使用及运维过程中,由数据质量管理子系统收集的有关数据及过程问题的处理经验总结。这些知识可作为今后数据质量问题解决方法的参考,并可以按关键字的形式进行索引和分类管理。数据质量知识库是经营分析系统知识库的一部分,有关经营分析系统知识库的建设要求请参
38、见企业省级NG2-BASS(v4.0)技术规范总册中“知识库管理模块”章节。本节主要规范了数据质量知识的产生、内容组成与数据格式。5.1.3.1.数据质量知识的产生数据质量知识主要来源于对数据质量问题的总结,同时,对数据质量问题的不同解决方案,以及对知识本身的评价,也是对数据质量知识的补充与完善。通过调用经营分析系统知识库的知识生成接口提交数据质量知识。数据质量知识库中包括接口问题解决经验、数据抽取问题解决经验、数据转换问题解决经验、数据加载问题解决经验、数据仓库问题解决经验、数据集市问题解决经验、一经抽取问题解决经验、应用汇总问题解决经验和指标问题解决经验等。5.1.3.2,数据质量知识的内
39、容每条数据质量知识可以由以下三个部分的内容组成: 检查规则检查规则是发现数据质量问题一个标尺,因此可以成为数据质量知识的一部分。检查规则包括的内容项有:检查规则名称、检查规则类型和检查规则内容(如算法、参数等)等。 数据质量问题通过数据质量监控、数据质量评估或人工发现的数据质量问题是数据质量知识的重要组成部分。数据质量问题包含的内容项有:问题产生来源(数据质量监控、数据质量评估和业务人员发现的问题)、问题描述、问题级别、问题所关联的对象、问题发生时间和问题负责人等。 解决方案解决方案是数据质量知识的核心,解决方案是针对数据质量问题所提出的处理方法或原则,解决方案的组成内容可以是文本,也可以是图
40、片、表格或文件附件。解决方案的内容项包括:解决方案内容和附件等。除以上内容外,数据质量知识还应该包括知识所共有的一些属性,如知识标识(ID)、知识类型(一级和二级类型)和知识分类标签(或知识关键字)等。数据质量知识数据格式采用类似于FAQ的组织方式,并把数据质量知识数据结构化,有利于今后对数据质量知识的查询、挖掘与利用。数据质量知识的数据格式示例如表5-1所示。表5-1数据质量知识格式示例组成部分字段名称是否可选备注稽核/检查规则规则名称规则名称规则类型否如指标波动检查、过程及时性检查等规则内容否包括算法、公式、常量等。数据质量问题产生来源否可来源于监控、评估和手工提交。关联对象是问题所关联的
41、一个或多个对象。发生时间否发生时间问题严重级别足问题严重级别问题内容否具体的问题描述问题负责人否问题负责人解决方案方案内容否方案的文本部分方案附件是附件可以是图片、表格或其它文件5.2.数据质量存储方式数据质量存储库使用关系数据库或文件存储数据质量规则、数据质量信息和数据质量知识;对于问题总结过程和数据质量评估过程中输出的文档可以以Text.PDF、Excel或Word等格文件存储。6.数据质量功能层按照数据质量管理流程,即质量定义、度量、分析和改进,质量管理子系统主要功能包括:KPl急报快报、指标波动阈值预测、指标图形化监控、源接口内容检查、中断式监控预警、规则配置管理、数据质量监控、数据质
42、量问题处理、数据质量评估、数据质量报告、数据质量两级联动和数据质量对外服务等。如图6-1所示。图6-1数据质量功能层结构6.1. 基础功能本节对数据质量管理子系统中规则管理功能模块进行说明。首先说明数据质量规则的定义,重点说明监控规则的规则结构;进一步说明了数据质量规则配置管理模块的规则设置、规则维护、规则调度及规则优化等功能。规则管理功能结构如图6-2所示:规则配置管理图6-2规则管理功能结构6.1.1.1. 规则定义数据质量规则是以被操作对象为中心,展开的一系列质量管理活动的判断准则。一个规则通常包括规则ID、规则名称、规则算法、规则阈值和被监控对象等要素。数据质量规则可分为采集规则、监控
43、规则、告警规则和审计规则四类。 采集规则是获取被监控对象的具体数值的方法,包括采集代理规则和采集程序规则; 监控规则是对采集到的监控对象数据进行质量校验的校验规则; 告警规则是监控规则执行后,出现违反规则允许范围的异常时,发送告警信息的方式方法,包括告警方式规则和告警订阅规则; 审计规则是进行两级联动对象数据质量审计的算法依据,包括及时性审计规则和准确性审计规则。下面根据本期规范实施重点,详述监控规则的规则结构,并简述采集、告警和审计等其他规则的内容。6.1.1.1.1, 监控规则监控规则是数据质量规则的关键部分,是识别数据质量问题的主要判断准则,监控规则结构如表6-1所示。监控规则表6-1所
44、示的监控规则属性信息为必需基本字段,各省可以根据实际情况,进行对应的扩展。表6-1监控规则结构监控对象元数据ID监控对象兀数据名称监控对象类型监控对象维度监控规则编码监控规则名称监控规则类型监控规则算法算法描述规则阈值规则描述对上表中字段说明如下: 监控对象元数据ID:所监控的元数据ID; 监控对象元数据名称:所监控的元数据名称,如客户信息汇总表; 监控对象类型:数据仓库对象的分类,包括接口文件、数据库表、ET1.作业、指标等; 监控对象维度:监控对象的数据维度,如地域维度、品牌维度等; 规则编码:规则的唯一标识,通常由数字序列构成,如347011; 规则名称:规则的具体名称,如客户发展波动检
45、查: 监控规则类型:根据监控数据质量属性进行划分,如表6-2所示; 监控规则算法:对具体的监控规则类型的算法实现,如表6-3所示; 算法描述:对规则算法的描述说明; 规则阈值:规则计算的对比值,如波动率的允许范围为5%; 规则描述:规则的其他注释信息。下面分别说明监控规则类型和监控规则算法。监控规则类型是根据监控数据质量属性的不同,对监控规则进行的划分,包括但不限于如表6-2所示。表6-2监控规则类型规则类型描述完整性检查数据是否完整的记录了其所表示的真实实体或事件信息的方法准确性检查数据与真实对象的一致程度的方法有效性检查数据符合其值域或业务规则定义的程度的方法重复性检查数据记录与其所表示的真实实体或事件是否一一对应的方法及时性检查数据是否满足所需的更新频率的方法分布性检查数据在值域上的分布状况的方法监控规则算法是对具体监控对象进行数据质量校验的计算方法。每一个监控规则算法归属于一个监控规则类型中,监控规则算法示例如表6-3所示。表6-3监控规则算法示例规则算法名称规则类型算法描述算法说明及时性检及时性例:(当前时间基准时间)数据到达时间检查查同比波动
链接地址:https://www.desk33.com/p-1416228.html