企业大数据资产智能管理与治理平台技术方案.docx
《企业大数据资产智能管理与治理平台技术方案.docx》由会员分享,可在线阅读,更多相关《企业大数据资产智能管理与治理平台技术方案.docx(78页珍藏版)》请在课桌文档上搜索。
1、项目编号:企业大数据智能管理与治理平台项目建设方案项目编号:2022-XX-XX编制单位:XX市XX中心编制日期:二。二二年二月目录1项目需求分析51.1 项目建设目标51.2 项目建设内容51.2.1 数据管理51.2.2 数据智能161.3 平台性能需求181.4 验收文档要求182项目技术方案202.1 项目建设方案202.1.1 现状问题分析202.1.2 项目建设目标212.1.3 平台建设方案212.1.4 方案核心价值352.2 服务场景设计372.2.1 数据资产管理372.2.2 数据开发管理392.2.3 数据全生命周期管理422.2.4 数据管理大屏432.3 信息安全保
2、障432.3.1 总体方案432.3.2 系统安全442.3.3 数据安全452.3.4 应用安全463项目建设方案473.1 项目实施方案473.1.1 项目实施地点473.1.2 项目实施工期473.1.3 项目实施过程473.1.4 项目实施文档503.2 项目验收方案513.2.1 项目验收标准513.2.2 项目验收方法523.2.3 验收签收流程543.3 项目管理方案543.3.1 项目进度管理543.3.2 项目质量管理553.3.3 项目风险管理553.3.4 项目沟通管理564项目服务方案584.1 项目资源投入584.1.1 项目人员管理584.2 售后服务承诺584.3
3、 免费维保期限594.4 售后服务方案594.4.1 维保服务方案594.4.2 培训服务方案644.4.3 应急处理预案654.5 服务质量保障684.5.1 质量管理方法684.5.2 质量管控思路684.5.3 质量管理计划704.5.4 质量保障措施735类似案例介绍765.1 禅城区大数据统筹局数据管理项目765.1.1 项目概述765.1.2 项目方案765.1.3 项目价值765.2 某市智慧房管数据分析项目785.2.1 业务需求785.2.2 项目方案785.2.3 项目特点795.2.4 项目价值795.3 信用信息汇集系统805.3.1 项目概述805.3.2 项目方案8
4、05.3.3 项目价值801项目需求分析1.1 项目建设目标城市大数据及大数据中心的运营成果要让决策者、行业用户和社会公众“看得见、看得清、看得懂”,因此需要实现大屏可视化,把区域内的静态和动态数据能够360度完美表现、采用易懂的表现形式和生动震撼的视觉传达,让人更容易记忆、理解和学习,从而实现企业大数据中心运行情况一套图展示。1.2 项目建设内容1.2.1 数据管理数据资产管理数据资产管理平台主要负责对数据资产进行统一注册和管理,实现数据资产体系化管控。主要包括数据资产注册管理、数据资产分类管理、数据资产查询、数据地图、数据资产分析、数据资产版本管理、数据资产变更管理、资产运行审计管理、资产
5、统计分析,接口管理、数据质量等功能。/数据资产注册管理平台提供数据源管理、数据资产注册管理、数据资产注册审核、生成数据库管理等功能。提供采集器、在线维护、自动注册接口等方式来注册数据资产。数据源管理平台提供对数据源注册管理的功能,主要是对数据提供者所在数据库、HadOOP库的注册管理。1 .数据库注册管理,主要负责数据库基本信息的注册配置,包含但不限于以下内容: 数据库类型 数据库版本 数据库服务IP 数据库服务端口 数据库SID 数据库表空间2 .Hadoop库注册管理,主要负责Hive库基本信息、HDFS文件信息的注册配置,包含但不限于以下内容: HlVE数据库服务IP HIVE数据库服务
6、端口 HDFS文件系统服务IP HDFS文件系统服务端口数据资产注册管理平台提供对数据资产注册管理的功能,主要包括对表、视图、序列、文件、ETL过程、HadOoP等进行注册管理。1)业务系统信息收集与资产注册,包含但不限于以下内容: 业务系统名称 业务系统描述 业务系统服务IP 业务系统服务端口2)数据库信息采集与资产注册,包含但不限于以下内容: 数据库类型 数据库版本 数据库服务IP 数据库服务端口 数据库Sn)数据库表空间3)表结构信息采集与资产注册,包含但不限于以下内容: 表名称 表中文名称 业务信息描述 表结构定义 表数据处理逻辑4)视图信息采集与资产注册,包含但不限于以下内容: 视图
7、名称 视图中文名称 业务信息描述 视图结构定义5)字段信息采集与资产注册,包含但不限于以下内容: 字段名称 字段中文名称 字段详细描述 字段类型定义6)指标信息采集与资产注册,包含但不限于以下内容: 指标名称 指标中文名称 指标业务描述 指标统计口径 指标统计周期7)报表信息采集与资产注册,包含但不限于以下内容: 报表名称 报表中文名称 报表业务描述 报表格式报表统计周期8) hadoop平台信息采集与资产注册,包含但不限于以下内容: HadoOP集群名称 Hadoop集群描述 HadOOP集群主节点IP Hadoop集群从节点IP9) hadoophive库表信息采集与资产注册,包含但不限于
8、以下内容: HiVe数据库服务IP HiVe数据库服务端口 HiVe表名称 HiVe表中文名称 HiVe表业务描述信息 Hive表结构定义10) ETL过程信息采集与资产注册,包含但不限于以下内容: ETL作业名称 ETL作业业务描述信息 ETL过程处理逻辑 ETL作业运行周期 ETL来源表名称 ETL来源文件路径 ETL目标表名称 ETL目标文件路径11)文件接口信息采集与资产注册,包含但不限于以下内容: 接口文件名称 接口文件业务描述信息 接口文件路径 接口文件大小 接口内容与表字段映射关系12) OLAP信息采集与资产注册;13) WebSerViCe接口信息采集与资产注册,包含但不限于
9、以下内容: WebSerViCe接口名称 WebSerViCe接口描述 WebSerViCe接口负责人数据资产注册审核平台提供对数据资产注册的审核功能,通过在平台中定义数据资产的相关命名规范,可实现对数据资产的自动审核,主要包括对表/视图、文件等数据资产进行审核分析。当数据资产命名不符合规范时,平台会提示错误信息,并阻止资产的注册操作,当数据资产命名审核通过后,交由相应的审核人进行审核,保障数据资产的完整和规范性。生成数据库管理平台可基于数据资产(表),通过在平台中指定生成表的数据库及表空间等信息后自动生成相应数据库的建表脚本并在数据库中生成数据表,如下图所示:/数据资产分类管理平台提供对数据
10、资产的分类管理功能,在数据资产注册同时或注册后,可在数据资产上标识不同的属性标签,通过属性标签完成对数据资产的分类整理,为资产查询、资产统计、资产盘点等功能提供支撑。常见的属性标签包括:资产类型:数据表、文件、接口、指标、报表等数据来源:B域、。域、M域等主题域:参与人、服务、资源、事件、市场营销、企业管理、公共。所属层级:接口层、轻度汇总层、中度汇总层、高度汇总层、应用层等存储周期:按年、按季度、按月、按周、按日等数据资产分类体系在数据资产的分类管理中,平台按照数据资产的生命周期对数据资产进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据
11、输出到外部渠道或内部渠道,加工层指数据在大数据平台内进行加工处理的过程。数据资产分类查询平台提供数据资产分类查询功能,可通过选取分类标签中具体的属性标签对数据资产进行筛查。1数据资产分类统计平台提供数据资产分类统计功能,可对各种标签属性的数据资产进行分类统计,并形成统计报表,供使用人员查询不同属性数据资产的整体统计情况。/数据资产目录管理数据资产目录资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。数据资产查询平台
12、提供数据资产查询功能,主要分为通用查询和高级查询两种方式。1 .通用查询:通过在通用查询搜索框中输入查询关键字,可对数据资产进行模糊查询。2 .高级查询:根据指定数据资产属性信息的具体值对数据资产进行精确查询,包括数据资产名称、资产编码、资产分类标签等属性。,数据资产地图管理平台提供数据地图功能,通过可视化的图形界面,对大数据平台各系统、各层次之间的脉络关系进行全面、多层次的展示,并提供从系统、数据库、表间以及字段级的关联关系下钻分析功能,帮助用户从不同粒度了解数据资产之间的关联情况,同时可动态了解数据资产的执行情况。/数据资产版本管理平台提供数据资产版本管理功能,主要包括版本发布、版本查看、
13、版本比对、版本恢复等功能。1 .版本发布,通过版本发布功能提供对数据资产信息的版本更新和固化;2 .版本查看,可查看数据资产的版本变更历史;1版本比对,通过选择历史版本可与当前发布的数据资产版本进行差异比较;1)版本恢复功能,支持恢复到以前历史版本的资产信息;/数据资产变更管理平台提供数据资产变更管理功能,可对数据资产信息中除定义名称以外的其他信息进行变更,并提供在变更发布前的数据资产信息规范审核。/数据资产审计管理平台提供资产运行审计管理功能,主要包括数据资产模型审计、数据资产表数据审计等部分。1)数据资产模型审计:可对表、视图、文件、HaClOoP等静态结构进行审计,根据元数据的配置,与数
14、据库内实际的表/视图信息、实际生成的文件信息以及HadOOP中实际的结构信息进行比对,实现数据资产定义在整个应用中的一致性检查。2)数据资产表数据审计:可对数据资产中的表数据进行审计,包括元数据表字段上的空值、字典值等。/数据资产统计管理平台提供数据资产统计分析功能,主要包括统计综合查询、数据资产一致性检查、数据资产更变统计、数据资产属性检查、数据资产空值检查、数据资产字典值检查等功能。数据资产统计分析1、统计综合查询,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产进行查询。2、数据资产一致性检查,平台提供以报表
15、的形式,将元数据的配置与数据库内实际的表/视图信息、实际生成的文件信息、Had。P中实际的结构信息等内容进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为数据资产规范性检查报告的组成部分。3、数据资产变更统计,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产变更历史进行统计查询。4、数据资产属性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图的属性信息、与实际生成的文件内的属性信息、与HadoOP中实际的结构信息进行比对并输出差异分析结果,在分析结果不一致的情况下给出提
16、醒,并将分析结果作为数据资产规范性检查报告的组成部分。5、数据资产空值检查,平台提供以报表的形式,对元数据表字段上的空值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据资产空值检查报告。6、数据资产字典值检查,平台提供以报表的形式,对元数据表字段上的字典值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据资产字典值检查报告。数据资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。数据资产盘点平台提供数据负资产盘点功能,通过分析系统中孤立未使用的库表,即数据负资产,并以报表形式输出分析结果,为用户清除数据负资产或转存提供帮助。数据异常管理/异
17、常对接管理开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。/异常问题列表开发展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。/人工处理管理开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。,系统处理管理开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。/实时数据质量管理针对实时流数据需要提供数据质量管理功能,即提供对实时流的数据质量规则的设置、维护、调度、优化等规则的管理功能,以及对实
18、时流数据源接口关键数据、数据实体和处理过程的监控告警,辅助数据质量管理人员快速定位问题的原因及处理方案,并定期生成针对实时流数据的数据质量评估报告的功能。/数据质量定制化开发通过自定义扩展规则能力,灵活方便的自定义扩展能力,可以灵活定制质量监控的规则、问题数据的检测规则和问题数据的清洗回收的方式。/异常数据分析基于集成方案,反馈统计分析集成过程中不符合方案中各字段清洗规则的异常数据结果,同时支持多维度的问题分析以及排查。/异常处理统计分析开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。数据架构管理平台支持定义全企业的数据架构,包括数据的主题
19、、层次,所涉及的部门、所用到的数据库类型。功能包括数据架构节点的增加,删除。,业务架构管理从数据架构中选择适合团队的数据架构,并绑定到团队,以约束开发团队在开发过程中选择数据架构。/存储架构管理在异构数据库的环境下,不同的数据库有不同的参数设置,为减少开发人员在模型开发过程中的操作,同时也保障模型在落地到物理环境的正确性,通过在存储架构中设置默认的参数配置来保障开发的准备性。数据开发管理/流数据处理平台支持对流数据的处理与管理,流数据的处理过程为数据实时采集一数据实时计算一数据实时查询服务。实时采集主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触
20、发能力,实现秒级单位时间窗口的数据统计分析能力。需要支持的数据源类型可以分为以下四类:网络协议数据源,包括SOCket、川S、HTTP、HTTPS等常见类型的网络协议。本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。分布式文件系统数据源,包括HDFS,HBase,HiVe等数据。关系型数据库数据源,包括DB2,Teradata,VertiCa等数据。支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和标准化处理,以及满足海量物联网数据的入湖。来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要实时提取和分析来自各种分布式系统的信息,并分发到不同的应用
21、中进行处理。同时,系统必须高效、可靠、可管理、可监控并且具有一定的对外开放能力。流数据引擎开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能流数据计算模型管理开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流数据计算公共模型开发开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能流数据计算结果接口开发开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能流数据计算模型查询开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户
22、查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能。,数据开发平台数据开发完成多种环境的全量与增量数据处理能力,简化开发过程。统一数据开发入口,支持可视化开发和原生态开发两种开发模式,实现原生态开发与可视化编排的互相转换,提升开发效率。支持可视化开发开发空间基于脱敏数据开发和验证,通过验证后的工作流再发布到生产空间,生产空间基于实际的数据来调度工作流进行数据生产。支持原生态开发/统一调度管理平台支持对数据开发与管理任务的统一调度,包括流程设计与管理、调度策略管控、任务调度控制、标准化控件等功能模块,通过作业/任务管理、作业/任务调度、作业/任务执行实现对采集、转换、加载、调度、监控
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数据 资产 智能 管理 治理 平台 技术 方案
链接地址:https://www.desk33.com/p-1171510.html