智慧城市中台方案(183页).docx
智慧城市中台解决方案1. 建设背景11.1. 编制依据11.1.1. 政策文件依据11.1.2. 技术标准规范22. 项目建设方案52.1. 总体框架52.2. 主要建设内容52.3. 数据平台52.3.1. 数据汇聚52.3.2. 数据治理102.3.3. 数据质量管理162.3.4. 数据分析262.4. 技术平台322.4.1. 分布式计算引擎322.4.2. 分布式NewSQL数据库332.4.3. 大规模搜索引擎342.4.4. 实时流处理引擎342.4.5. 分布式交易数据库362.4.6. 分布式闪存数据库372.4.7. 分布式图数据库382.5. 人工智能平台402.5.1. 智能汇聚模块402.5.2. 智能赋能模块412.5.3. 智能研判模块432.5.4. 运行智能模块和一脸通模块442.6. 业务平台482.6.1. 业务平台概述482.6.2. 统一身份认证482.6.3. 虚拟卡包平台642.6.4. 聚合支付平台742.6.5. 即时通讯平台762.6.6. 搜索与推送平台832.6.7. 应用整合网关862.6.8. 数据共享服务网关902.6.9. 基础支撑平台932.6.10. 统一运营平台942.6.11. 统一运维平台1002.7. 区块链平台1212.7.1. 建设内容1212.7.2. 区块链基础支撑平台1242.7.3. 区块链应用支撑平台1362.8. 精准时空大数据平台1402.8.1. 时空平台1402.9. 数字挛生1682.9.1. 物联感知操控能力1682.9.1.2. 设备管理1682.9.1.3. 远程操控1682.9.1.4. 态势感知1682.9.2. 全要素数字化表达能力1692.9.3. 可视化呈现能力1702.9.4. 数据融合供给能力1712.9.5. 空间分析计算能力1722.9.6. 模拟仿真推演能力1752.9.7. 虚实融合互动能力1772.9.8. 自学习自优化能力1792.9.9. 众创扩展能力1801 .建设背景1.1. 编制依据1. 1.1.政策文件依据(1) 国务院办公厅印发的(国办发(2014)66号)国务院办公厅关于促进电子政务协调发展的指导意见。(2) 国务院办公厅关于印发的(国发(2015)5号)国务院关于促进云计算创新发展培育信息产业新业态的意见。(3) 中央网信办发布的(中网办发文(2015)14号)关于加强党政部门云计算服务网络安全管理的意见。(4) 国务院办公厅关于印发的(国发(2015)50号)促进大数据发展行动纲要。(5) 2016年07月27日,中共中央办公厅、国务院办公厅印发国家信息化发展战略纲要。(6) 国家发改委印发(发改办高技(2016)42号)关于组织实施促进大数据发展重大工程的通知。(7) 国务院办公厅关于印发的(国办发(2016)47号)关于促进和规范健康医疗大数据应用发展的指导意见。(8) 国务院办公厅关于印发的(国发(2016)51号)政务信息资源共享管理暂行办法。(9) 国务院办公厅关于印发的(国发(2016)55号)国务院关于加快推进“互联网+政务服务”工作的指导意见。(10)国务院印发的(国办函(2016)108号)“互联网+政务服务”技术体系建设指南的通知提出:“优化政务服务供给的信息化解决路径和操作方法,为构建统一、规范、多级联动的互联网+政务服务'技术和服务体系提供保障。”(三)工业和信息化部关于印发(工信部规(2016)412号)大数据产业发展规划(20162020年)O(12) 2016年,中共中央、国务院发布的国家创新驱动发展战略纲要。(13)国务院办公厅印发的(国办发(2017)39号)国务院办公厅关于印发政务信息系统整合共享实施方案的通知指出:“按照内外联动、点面结合、上下协同'的工作思路,一方面着眼长远,做好顶层设计,促进'五个统一',统筹谋划,锐意改革;另一方面立足当前,聚焦现实问题,抓好十件大事',重点突破,尽快见效。”(14)国务院印发的(国发(2018)27号)国务院关于加快推进全国一体化在线政务服务平台建设的指导意见提出:“各地区各部门要认真贯彻落实党中央、国务院部署,把加快全国一体化在线政务服务平台建设作为深化'放管服改革、推进政府治理现代化的重要举措,制定具体实施方案,明确时间表、路线图,加大政策支持力度,强化工作责任,确保各项任务措施落实到位。”(15)国务院办公厅印发的(国办发(2019)57号)国家政务信息化项目建设管理办法提出:“国家政务信息化建设管理应当坚持统筹规划、共建共享、业务协同、安全可靠的原则。”(16)国家发展改革委制定的(发改规划(2019)617号)2019年新型城镇化建设重点任务O(17)农业农村部中央网络安全和信息化委员会办公室关于印发的(农规发(2019)33号)数字农业农村发展规划(2019-2025年)。(18) 2019年十九届四中全会通过的中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定。(19)两会授权发布的2021年3月13日中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要。(20) 2021年3月5日李克强总理代表国务院在十三届全国人大四次会议上作2021年政府工作报告。2021年中央一号文件中共中央、国务院关于全面推进乡村振兴加快农业农村现代化的意见。1.L2,技术标准规范1.1.2.1. 国家标准信息技术大数据存储与处理系统功能要求GB/T37722-2019信息技术大数据分析系统功能要求GB/T37721-2019信息安全技术网络安全等级保护基本要求GB/T22239-2019信息安全技术网络安全等级保护测评要求GB/T28448-2019信息安全技术网络安全等级保护安全设计技术要求GB/T25070-2019信息安全技术大数据安全管理指南GB/T37973-2019信息安全技术大数据服务安全能力要求GB/T35274-2017信息安全技术智慧城市安全体系框架GB/T37971-2019信息安全技术政府网站云计算服务安全指南GB/T38249-2019信息安全技术个人信息去标识化指南GB/T37964-2019信息安全技术移动终端安全管理平台技术要求GB/T37952-2019信息安全技术网络安全等级保护实施指南GB/T25058-2019信息安全技术网络安全等级保护测评过程指南GB/T28449-2018信息安全技术网络安全等级保护安全管理中心技术要求GB/T36958-2018信息安全技术网络安全等级保护测试评估技术指南GB/T36627-2018信息安全技术物联网感知终端应用安全技术要求GB/T36951-2018信息安全技术灾难恢复服务要求GB/T36957-2018信息安全技术灾难恢复服务能力评估准则GB/T37046-2018信息安全技术信息系统安全运维管理指南GB/T36626-2018智慧城市公共信息与服务支撑平台系列GB/T36622-2018智慧城市领域知识模型核心概念模型GB/T36332-2018面向智慧城市的物联网技术应用指南GB/T36620-2018智慧城市软件服务预算管理规范GB/T36334-2018智慧城市信息技术运营指南GB/T36621-2018智慧城市数据融合系列GB/T36625-2018智慧城市顶层设计指南GB/T36333-2018智慧城市术语GB/T37043-2018云计算文件服务应用接口GB/T36623-2018云计算云服务级别协议基本要求GB/T36325-2018云计算平台即服务(PaaS)应用程序管理要求GB/T36327-2018云计算数据中心基本要求GB/T34982-2017信息技术大数据术语GB/T35295-2017信息技术大数据技术参考模型GB/T35589-2017智慧城市技术参考模型GB/T34678-2017智慧城市评价模型及基础评价指标体系GB/T34680-2017电子政务标准化指南第4部分:信息共享GB/T30850.4-2017信息技术科学数据引用GB/T35294-2017基于云计算的电子政务公共平台管理规范第1部分:服务质量评估GB/T34077.1-2017信息安全技术电子政务移动办公系统安全技术规范GB/T35282-2017信息技术云计算参考架构GB/T32399-2015信息技术云计算概览与词汇GB/T32400-2015信息技术云数据存储和管理GB/T31916-2015云资源管理技术要求GB/T31916-20152.项目建设方案1. 1.总体框架智慧城市综合管理应用服务平台全面提升数据汇聚、算力、人工智能等基础能力。城市智能中枢包括数据平台、技术平台、业务平台、人工智平台、数据资源中心、区块链平台、精准时空大数据平台、数字李生、城市大脑。2. 2.主要建设内容以打造新型智慧城市标杆为目标,遵从国家提出的新型智慧城市总体技术标准、共性支撑标准、管理保障标准、安全保密等标准规范,结合社会特点和治理需求,形成新型智慧城市建设管理规定、总体技术标准框架、各领域基础数据标准、数据安全保密实施细则和数据共享交换标准。3. 3.数据平台2.3.1.数据汇聚2.3.1.1.1.按接汇聚方式2.3.1.1.1.L库表接入数据在提供方以数据库表结构化方式存储,并以库表方式进行全量或增量数据的接入。通过前置数据库表进行数据交换,各接入单位通过桥接方式获取前置数据库表内容,向前置数据库表目录推送数据。2.3.1.1.1.2.文件接入适用于非结构化资源或更新频率较缓慢的结构化资源的接入。通过前置机文件目录进行数据接入和交换,各接入单位通过桥接方式获取前置机的文件,向前置机文件目录推送数据。2.3.1.1.1.3.服务接口以Web服务作为平台与各接入单位之间数据获取和推送的接口,在平台中代理业务系统提供的Web服务,对外隐藏该Web服务的真实URL,使用代理的URL即可访问业务系统真实的Web服务,以达到数据接入和交换的目的。2.3.1.1.1.4.数据库直连支持使用DBlink方式进行实时连接将关系型数据库中的数据抽取到离线数据库,同时支持过滤条件下推,在关系型数据库上进行过滤以后再进行抽取,加速抽取和计算的效率。对于原来存储在关系型数据库中的维度表/码表,可以使用dblink的方式进行实时连接计算。2.3.1.1.2.按数据量分类2.3.1.1.2.1.全量接入一次性将数据库表中的所有数据交换到目标节点的接入方式。全量接入的优点是交换效率较高,缺点是不能很好的处理增量数据。全量接入要求业务库表应具有主键标识全量接入适用于低频率(天、周、月)的,对数据变更时效性不敏感的接入场景,用于在平台建设完成初期进行历史数据的迁移,将大量的基础数据和历史数据导入平台集群。2.3.1.1.2.2.增量接入周期性从数据库表中获取最新数据并交换到目标节点的接入方式。增量接入适用于高频率(秒、分)的、对数据变更时效性敏感的接入场景,用于系统上线后将指定周期时间间隔内的数据导入平台。增量接入的优点是即时接入、增量处理,但需要根据业务场景配置相应的接入策略。增量接入主要有下列三种策略:1.时间戳交换:根据业务数据的时间戳变化获取增量数据,并将增量数据交换到目标节点。交换效率高,对前置库性能影响小,但要求业务表必须存在一个时间戳字段,且每次操作数据要对该字段时间戳进行更新。2 .标识位交换:根据业务表中的标识字段值的变化获取增量数据并将增量数据交换到目标节点。交换效率高,对前置库性能影响小,但要求业务表必须存在标识位字段,业务系统和平台都要维护此字段值的变化。3 .触发器交换:利用数据库触发器获取增量数据并将增量数据交换到目标节点。数据获取实时性高,能够交换删除操作的数据,但需要在源表上建立触发器,对前置库性能有一定影响。2. 3.1.1.3.按时延分类3. 3.1.1.3.1.1,准实时接入针对于T+1模式无法满足业务系统的需求,需要进行准实时同步。准实时同步是指将数据从传统的关系型数据库准实时同步到大数据平台,并对数据进行实时或者准实时分析。借助OralceGoldenGate(OGG)IBMDatastageDataReplication(CDC)等软件可以实时地读取关系数据库的日志记录,将这些日志记录写成文件记录到本地,再头通过数据迁移工具进行秒级同步和解析。2.3.1.1.3.1.2.实时接入针对如物联数据、视频数据等具有数据量大、文件数量多、实时产生等特性的数据,有高吞吐、低时延的要求,可通过分布式日志实时采集工具FhIme或分布式消息队列工具Kafka实时接入到大数据平台。2.3.1.1.4.按数据类型2.3.1.1.4.1.政务数据汇聚主要是库表接入和文件接入两类。过渡阶段,政务委办局数据由委办局侧业务库推送至部门前置机,再通过数据共享交换系统进入作为原始数据存储。逐步根据需求,将数据接入城市进行治理和建设主题库,实时、主动地读取业务库数据变化,数据再同步至城市。2.3.1.1.4.2.物联数据汇聚智慧城市物联感知设备产生的实时物联数据经过物联平台以API接口方式接入Kafka分布式消息队列系统,再通过实时计算平台进行实时研判、展示,或直接归集入。2.3.1.1.4.3.互联数据汇聚互联网数据服务平台承载互联网数据,互联网区无法访问政务外网。可通过接口方式与政务外网的平台对接,由平台主动抽取互联网区数据,或将互联网区数据推送至互联网区的前置机,再由资源平台通过库表或文件方式主动抽取。2.3.1.1.4.4.视频图片汇聚视频数据主要包括部门影像、非公安影像、公安视频半结构化数据、视频大图小图等,以接口方式接入Kafka分布式消息队列系统,再通过实时计算平台进行实时研判、展示,或直接以归集入NoSQL数据库进行大对象存储。2.3.1.1.4.5.地图数据汇聚栅格数据、矢量数据、空间地理底图、各类图层信息、各类城市运行管理要素数据等。2.3.1.1.5.数据开发2. 3.1.1.5.1.标准SQL开发(一)概述标准SQL开发工具是为数据开发人员和数据库管理人员提供的数据库管理工具,它能够进行跨中台管理,可作为大数据计算服务客户端,也支持兼容其余多种数据库。中台提供的SQL开发工具是辅助进行数据集成开发的图形化工具。(二)数据库导航需提供数据库导航栏,可查看当前存在的连接,以及各个连接所提供的的内容,包括元数据对象,如数据库、表、歹U、分区、桶、视图、存储过程、包等,并通过层级反映元信息结构。可实现查看元数据信息、创建元数据、指定默认数据库、刷新元数据对象、对比元数据对象、对象重命名、添加书签等功能。(三)SQL编辑器SQL编辑器主要用于WQL语句的编辑,功能包括:1 .支持SQL单步调试与异常告警功能2 .支持SQL代码语法高亮、语法检查3 .支持SQL代码缩进4 .支持计算结果输出展示5 .支持界面编辑修改数据6 .支持命令行(四)SQL执行器需提供SQL编辑器模块用于执行SQL语句的功能;需支持执行各种语句,将结果和错误分别显示在结果窗口和问题窗口;需支持查看以往执行过的所有SQL语句,以及执行时间。(五)数据编辑器通过数据编辑器提供多种数据管理接口,方便用户对数据进行查看和编辑。2.3.1.1.5.2.数据ETL开发(一)概述中台需提供可视化数据ETL工具用以数据从多源数据库向数据平台的ETL过程。(二)数据接入1 .可直接从OraCleDB2等传统关系数据库将数据导入至大数据服务中台,可在不失效率的情况下避免使用SqOOP带的步骤繁琐、类型转换复杂等应用场景。2 .支持CSV,定长文件,JSoN,XML等文件的导入。3 .支持导入OGG、ShareplexDatastage产生的增量文件导入,实现准实时的数据同。4 .支持通过Kafka等方式读入流数据。5 .支持跨集群的数据导入。(三)数据导出1 .可以直接导出数据至传统关系数据库2 .导出多种数据格式,支持大数据服务中台中所有类型的表,普通ORCQRC交易表,HBaseJES表等。3 .支持跨集群导出(四)数据转换实现数据的清洗,加工,包括但不限于字段映射功能、数据关联、集合操作、聚合操作、过滤、去重等。2.3.1.1.5.3.工作流调度(一)概述提供可视化工作流调度工具以进行数据迁移开发过程中的工作流DAG设计、工作流调度与任务管理。工作流调度工具本身不做数据流的计算,而是将工作任务提交到中台的分布式计算引擎来完成。相比开源调度工具,中台提供的工作流调度工具需要提供更强大的功能,更方便的操作和更高的可用性。(二)图形化操作需提供图形化的操作中台,为用户提供设计任务流、调试任务、触发和调度策略等功能。并且具有丰富的分析能力,通过提供依赖关系、执行历史、甘特图等图表,帮助诊断作业流的执行状况。操作中台的功能整体划分为四部分,包括仪表盘、作业流设计、监控界面、分析界面。1 .仪表盘提供今日作业流整体状态以及作业流实时信息的概览。仪表盘上可以浏览到当天所有作业流的状态统计和作业流状态列表。同时可以接收到作业流状态改变实时通知。2 .作业流设计能够设计作业流并完成调试,每一个作业流都是一组任务的有序排列。3 .监控界面可查看作业流列表,点击作业流名称,可进入对作业流内任务执行情况的监控页面,以不同角度查看对该作业流执行情况的统计。4 .分析界面用于作业流执行情况的统计以及可视化分析,包括作业流的执行时长、失败原因、调度准时性、任务完成比、作业流统计、当日增减作业流、当日变慢作业流。(三)多任务类型需支持Shel1、SQL、JDBC、HTTP等任务类型,并且允许用户写自定义JaVa任务。2. 3.2.数据治理2.3.2.LL数据标准管理2.3.2.1.1.1.导入外部标准提供以EXCel模板方式,导入外部国家标准或行业标准,支持数据项、数据字典、指标等类型的标准导入,并支持按元模型进行扩展。2.3.2.1.1.2.数据标准映射建立数据库系统到数据标准的映射关系,保证数据标准的落地与执行。2.3.2.1.1.3.数据标准编目支持自定义数据标准目录结构以及内容,并提供相应的查询,浏览和使用页面,对数据编目标准对智慧城市各类数据进行统一编目。1. 3.2.1.1.4.数据资源关联支持将数据标准与任意资源进行关联。提供数据标准与元数据、数据资源的关联分析,分析引用指定标准的数据资源分布,以及标准的引用统计。2. 3.2.1.1.5.数据标准维护实现标准的维护功能,包括标准新增、变更、审核等功能,支持标准版本管理和比对功能,对标准变更情况进行记录。3. 3.2.1.1.6.标准格式配置支持自定义数据标准的存储和展示格式、类型。数据质量管理是依据数据质量管理规范,为数据质量管理过程提供支持,使得能够根据数据标准匹配检核规则,根据元数据自动匹配检核对象。数据质量管理主要过程包括质量规则配置和数据质量检核,能够解决数据完整性、唯一性、权威性、一致性、合法性等问题。4. 3.2.1.2.元数据管理整合中台各个环节的元数据资产,以便进行元数据的浏览和分析,也是形成数据资源管理门户的来源。中台需提供可视化元数据管理工具,满足进行库表元数据的查看,数据之间血缘关系与影响的查看,以及数据之间依赖关系的分析。5. 3.2.1.2.1.元数据采集支持自动采集、同步更新元数据,自动化编目和分类组织中日益分散和无序的数据资产,大大降低元数据管理的成本;支持采集和展示主流关系型数据库、分布式数据库、NoSQL数据库和Bl等业务系统元数据。6. 3.2.1.2.2.元数据存储元数据是中台各组件(HDFS、分析型数据仓库、分布式NOSQL数据库、数据检索组件、实时计算组件等)存放有关数据信息的地方,其用途是用来描述数据,包括创建信息、所属空间、访问权限、类型描述等等。中台需要提供高可用数据库为所有组件提供元数据统一管理存储。1.HDFS元数据包含文件名、目录名、父目录信息、文件大小、创建时间、修改时间等文件属性信息,还需包含文件分块情况、复本个数、每个复本所在节点等存储相关信息。记录数据所属关系,提供用户所属用户、用户组信息,可以标记用户和用户组的权限。2 .分析型数据库元数据1)库级元信息包含库名、描述信息、创建者、创建时间、库内建表查表权限等。2)表级元信息包含表名、描述信息、创建者、创建时间、所属库、表内字段、表内增删改查权限、删除表权限等。3)字段元信息包含字段名、描述信息、字段类型、默认值、是否为空、用户访问权限等。3 .分布式NOSQL数据库元数据指分析型数据库中NOSQL数据库映射表的元数据。类似分析型数据库表级和字段权限,包含表名、表描述信息、创建者、创建时间、所属库、表内字段、表内增删改查权限、删除表权限、字段名、字段描述信息、字段类型、用户访问权限等。4 .数据检索组件元数据指分析型数据库中数据检索引擎映射表的元数据。类似分析型数据库表级和字段权限,包含表名、表描述信息、创建者、创建时间、所属库、表内字段、表内增删改查权限、删除表权限、字段名、字段描述信息、字段类型、用户访问权限等。5 .实时流计算组件元数据实时流计算有三个核心的概念:流、流任务和流应用。流即数据流,流任务是对一个或多个流数据进行计算并将结果写进一张表的任务,流应用是一个或多个流任务的集合。1)流元信息需包含流名、描述信息、创建者、创建时间、所属库、流内字段、流内增删改查权限、删除流权限等。2)流任务元信息需包含任务名、描述信息、创建者、启动时间、所属库、任务逻辑、启停权限等。3)流应用元信息需包含应用名、描述信息、创建者、创建时间、所属库、应用内流任务信息等。2.3.2.1.2.3,元数据操作通过对元数据库的增、删、改、查操作,为元数据的应用提供各种功能(如数据血缘关系查询等)。1,元数据查询支持对元数据基本信息进行查询与检索,如查询数据库表的数据字典等;2 .元数据统计提供元数据统计信息,如元数据使用情况分析、元数据变更、元数据版本和生命周期变化情况等。3 .元数据稽核为保证元数据质量,对元数据进行稽核,保证元数据信息的完整性,合理性。4 .权限管理而责权限分配、审批,实现对元数据管理模块的数据访问和功能的使用进行有效访问控制。2. 3.2.1.2.4,元数据维护提供元数据常规管理能力,包括基本信息、关系、版本的管理维护,以及元数据检核。3. 3.2.1.2.5.元数据应用提供多种元数据应用方式,包括元数据检索、查看、历史、变更订阅下载。4. 3.2.1.2.6.元数据浏览支持多数据源的资产浏览:HDFS、MySq1、OracleDB2、Hive、TeraData>Hbase、Teradata以及第三方报表工具。5. 3.2.1.2.7.数据地图通过图形化方式从宏观角度展示企业数据资产系统的关系,有利于用户更好理解系统之间关系。支持对数据流转情况的展现,展现数据在各层间流转的情况。实现数据资产总体展现,展示模型总数、存储总量、记录总数、字段数等关键指标,实现层层下钻,从宏观换到微观各个层次的展示数据资产的基本信息,如存储周期、字段数、数据量、数据来源占比和变化趋势等。2.3.2.1.2.8.系统管理为应用提供可靠的基础管理服务,保证上层应用的正常运行。包括系统基本配置管理、权限管理、角色管理等。2.3.2.1.2.9.数据血源管理通过整合分散在各个系统、应用、数据库等不同数据源中的元数据,将它们集中在一起,提供统一的元数据查询管理接口。通过追踪元数据,记录每次元数据转化的输入与输出,能够从表级和列级两个粒度上,描述多表间的关系,为中台中的元数据勾勒出一幅完整的数据流动变化关系图谱,使用户更全面的掌握数据,把握数据变化,从而实现元数据血缘关系分析功能。提供数据治理子系统,可以实现数据血缘关系分析。数据血缘图以目标对象的第一代祖先为起点,以目标分析对象为终点,按照转化关系逐层扩展。血缘图直观的展示了目标对象的产生过程,包括从哪些表转换而来,经历了哪些转换,从而帮助推测出它在此过程中被赋予的含义,以及会受到的潜在影响。当某数据出现错误或者异常时,我们可通过血缘关系图向上分析锁定问题产生的源头;当对某些数据进行修改时,可通过影响关系图向下分析,得到哪些数据实体中的数据会受到影响。还通过提供列级的访问,将追踪的粒度精确到字段。充分理解并运用这两种图表,将帮助用户在对海量数据进行分析时,降低排查错误的难度,预测并控制即将造成的影响,最终达到提升数据质量的效果。2.3.2.1.2.10.视图血缘支持和主题库的视图的血缘影响分析(包括展示已delete删除的表和视图,支持指定深度展示)。2.3.2.1.2.11.表及字段血缘支持和主题库中各数据库表和字段的血缘分析和影响分析。2.3.2.1.2.12.报表血缘支持对电子表格和仪表盘的血缘和影响分析。2.3.2.1.2.13.ETL血缘支持对ETL流程的血缘、影响分析。支持跨数据库实例ETL血缘,支持ETL工具血缘;2.3.2.1.2.14.手动编辑血缘信息支持手动对血缘信息进行增加,删除,修改等操作。2.3.2.1.2.15.实时更新血缘信息自动化实时同步更新血缘、影响数据。2.3.2.1.3.数据生命周期管理数据如同企业任何其他资产一样,也具有生命周期。企业进行大数据治理,就需要管理数据资产,也就是要管理数据的生命周期。数据生命周期管理,需要对数据从产生、存储、维护、使用到消亡的整个过程进行监控和管理。例如,企业数据管理人员需要决定数据如何被创建、如何被修改、如何演变、何种数据应保留在运营和分析系统中、何种数据要予以存档、何种数据要予以删除。数据生命周期管理需要对压缩和存档的政策、工具进行平衡,以降低存储成本,提高绩效。最后,需要结合企业当前业务的需求合理摒弃不再需要的数据。数据先被创建,然后存储、维护和使用,最终被销毁。在其生命周期中,数据可能被提取、导入、导出、迁移、验证、编辑、更新、清洗、转型、转换、整合、隔离、汇总、引用、评审、报告、分析、挖掘、备份、恢复、归档和检索,最终被删除。数据的价值通常体现在使用中,也可能是在未来才有用。数据生命周期的所有阶段都有相关的成本和风险,但只有在“使用”阶段,数据才能够带来商业价值。基于大数据环境下数据在组织机构业务中的流转情况,定义了数据生命周期的6个阶段,具体各阶段的定义如下:数据采集:指新的数据产生或现有数据内容发生明显改变或更新的阶段。对于组织机构而言,数据的待机既包含在组织机构内部系统中生成的数据也包含组织机构从外部采集的数据。数据存储:指非动态数据以任何数字格式进行物理存储的阶段数据处理:指组织机构在内部针对动态数据进行的一系列活动的组合。数据传输:指数据在组织机构内部从一个实体金国网络流动到另一个实体的过程。数据交换:指数据经由组织机构内部与外部组织机构及个人交互过程中提供数据的阶段。数据销毁:指通过对数据及数据的存储介质通过相应的操作手段,使数据彻底丢失且无法通过任何手段恢复的过程。特定的数据所经理的生命周期由实际的业务场景所决定,并非所有的数据都会完整的经历6个阶段。2.3.3.数据质量管理实现数据质量规则定义、数据检核、数据质量分析:根据实际业务和数据使用情况,提出度量规则,达到规范化的语言对度量规则进行定义,制定数据质量检核,通过执行检核任务和执行引擎,发现数据质量问题。多维度展现每个质量检核规则的执行结果以及质量清洗意见。给出数据质量的总体运行情况从而自定义数据质量大屏和质量驾驶舱。数据质量管理是依据数据质量管理规范,为数据质量管理过程提供支持要包括质量规则配置和数据质量检核,能够根据数据标准匹配检核规则,根据元数据自动匹配检核对象。数据质量管理主要功能要求:D质量规则配置,实现数据质量度量规则和检核方法管理。配置实现检核任务管理,可以通过界面来维护任务,支持根据数据标准生成质量检核方法。2)数据质量检核,按照数据质量规则对依次对检核对象进行合规性检核,在发现数据质量问题之后,记录问题数据和异常记录。3)数据质量问题明细报告,针对检核任务在执行之后,需要出具数据质量问题报告,对问题的总体情况进行描述,并按照权属部门、资源分类等维度出具明细质量报告。2.3.3.1.L质量管理流程数据质量管理的基本流程如下图:图数据质量管理的基本流程数据质量管理主要功能包括:1 .质量规则配置,实现数据质量度量规则和检核方法管理。配置实现检核任务管理,通过界面维护任务,支持根据数据标准生成质量检核方法。2 .数据质量检核,按照数据质量规则对依次对检核对象进行合规性检核,在发现数据质量问题之后,记录问题数据和异常记录。3 .数据质量问题明细报告,针对检核任务在执行之后,需要出具数据质量问题报告,对问题的总体情况进行描述,并按照权属部门、资源分类等维度出具明细质量报告。2.3.3.1.2.数据质量稽核利用城市数据底座和数据平台提供的分析型数据仓库提供数据稽查功能,根据规则(包括但不限于数据误读、字段类型不匹配、UDF条件过滤)将脏数据写入指定的脏数据表,在数据导入完成后,记录脏数据原因、记录数、导入接口以及数据质量报告,以方便监控程序判断以及处理。数据质量管理主要包含对数据完整性、准确性、鲜活性、权威性的分析和管理,并对数据进行跟踪、处理和解决,实现对数据质量的全程管理,提高数据的质量。能够提供规则配置、质量监控、问题处理等功能,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,挖掘数据更大的价值。2.3.3.1.3.质量模型配置实体表图质量模型配置数据质量分析的基本单元,一个质量模型由可以由一套实体表、一套规则以及多套质检方案组成,用户在定义质检方案时,可以根据业务需要选择实体表和规则,方案与方案之间相互独立,互不干扰。通过执行模型下的质检方案,可以得到用户关心的数据质量分析结果,如问题数据明细信息、数据质量分析结果等。dc>dffvpane低86manttal9(j针育电(M86*MH号dvoot>odSiL号愠M备的室时向改我冬仍&1信。<hcvc<xbcvderteIhstetoeadtree-nxIHMAncrduedcno01cat2.3.3.1.4.质量规则管理数据质量规则是数据质量审核的逻辑校验标准,是数据质量监控管理的基础。系统支持多种规则类型,提供了全方位的视角来为用户解析数据质量。一套规则能在多套方案中复用,在保证多角度准确数据质量分析的前提下,大大减少了用户投入的精力与时间,为用户提供了一种灵活而全面的数据质量分析方式。系统包括以下质量规则: 空值检查空值检查用于检查关键字段非空 值域检查值域检查用于检查关键字段的取值范围,支持数值型、字符型、日期型字段检查 规范检查规范检查用于检查指标值的格式是否规范,支持身份证、手机号码、邮箱、日期等多种数据类型的检测,支持自定义正则表达式 查逻辑检查用于检查指标之间是否满足一定的逻辑关系重复数据检查重复数据检查用于检查表内是否有重复数据。规则算法:groupby重复依据字段,CoUm(I)>1的算重复swm三及时性检查,用于检查数据的及时性,衡量数据抽取或数据上报是否及时。规则算法:算出上报时间字段的值,如果没写上报时间表达式,则最佳上报时间都是以下一期的第一天做为参照依据,再将上报时间与最佳上报时间做为比较,看是否在允许误差最大天数范围内缺失记录检查记录缺失检查用于判断记录是否完整,是否缺少数据行。根据比照表字段检查目标字段是否缺少数据,检查实体表字段与比照字段的数据量、数值是否完全一致。规则算法:对检查表字段和比照字段进行groupby并求COUnt,根据两个字段groupby的结果来OUterjoin,count不相等或检查字段值和比照字段值有一个为空时,此行结果都算错引用完整性检查引用完整性检查用于判断实体表中的数据是否完全存在于比照表中。实体表检查字段中的数据必须全部存在于比照表的比照字段中。规则算法:实体表的检查字段关联distinct后的比照表的字段,关联后,如果比照字段为空,则检查字段的值非来源于比照表,则该规则对应结果为false2.3.3.1.5.方案配置调度依据质量规则执行的实际治理需求,通过图形化界面配置多种质检规则组成可执行方案,依据执行规则管控中台自动执行质量规则检查。质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式,并且在控制台可以查看质检方案执行历史,对数据质检全流程进行管控。规则维度分类说明规则维度大类规则雉度小美说用检核SQ际M4xa,IVfl批玷J舌杼A:祝一核“&的.0、找还已核找象必吉杼任专的Wl况cUcfr<oA.tbklwe<fialdtlanull先整性观含义不明冷充整性字段含义不明*唯N实体增N俯阳桀达网客观实体在有统配含正貌记装faH个客户以了网次mIhc1Gildlt11ldX11ID<e<nlOfive>V<mUmc11np切fie)dtficls2HethHV>nfc<nt>l有效性长收口中H逑除住月麓的长慢尽吉焉足桧厦皎朱.selectkWm«lcflth(H7n)troXtablei»l<*<l<*1181h(核字>10铢也取值拘束播建修懂“复侑加小行谪足归力的XHrt内点Fl仅为I剑.XlzffrcnAtQblcIBbMTfie)dlnotin(1:)拉过喧依的代因值JA台在附底的代N表内XldcffroaaLtablQlMwro11Icdtnotin<selectcodefa代3裳行效性依段眼为收授逑女核月饮的Udn型由在K定义的魅W内.m>IltfAtwblelVfwrr110d<0讯生