欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    企业大数据资产智能管理与治理平台技术方案.docx

    • 资源ID:1171510       资源大小:629.50KB        全文页数:78页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    企业大数据资产智能管理与治理平台技术方案.docx

    项目编号:企业大数据智能管理与治理平台项目建设方案项目编号:2022-XX-XX编制单位:XX市XX中心编制日期:二。二二年二月目录1项目需求分析51.1 项目建设目标51.2 项目建设内容51.2.1 数据管理51.2.2 数据智能161.3 平台性能需求181.4 验收文档要求182项目技术方案202.1 项目建设方案202.1.1 现状问题分析202.1.2 项目建设目标212.1.3 平台建设方案212.1.4 方案核心价值352.2 服务场景设计372.2.1 数据资产管理372.2.2 数据开发管理392.2.3 数据全生命周期管理422.2.4 数据管理大屏432.3 信息安全保障432.3.1 总体方案432.3.2 系统安全442.3.3 数据安全452.3.4 应用安全463项目建设方案473.1 项目实施方案473.1.1 项目实施地点473.1.2 项目实施工期473.1.3 项目实施过程473.1.4 项目实施文档503.2 项目验收方案513.2.1 项目验收标准513.2.2 项目验收方法523.2.3 验收签收流程543.3 项目管理方案543.3.1 项目进度管理543.3.2 项目质量管理553.3.3 项目风险管理553.3.4 项目沟通管理564项目服务方案584.1 项目资源投入584.1.1 项目人员管理584.2 售后服务承诺584.3 免费维保期限594.4 售后服务方案594.4.1 维保服务方案594.4.2 培训服务方案644.4.3 应急处理预案654.5 服务质量保障684.5.1 质量管理方法684.5.2 质量管控思路684.5.3 质量管理计划704.5.4 质量保障措施735类似案例介绍765.1 禅城区大数据统筹局数据管理项目765.1.1 项目概述765.1.2 项目方案765.1.3 项目价值765.2 某市智慧房管数据分析项目785.2.1 业务需求785.2.2 项目方案785.2.3 项目特点795.2.4 项目价值795.3 信用信息汇集系统805.3.1 项目概述805.3.2 项目方案805.3.3 项目价值801项目需求分析1.1 项目建设目标城市大数据及大数据中心的运营成果要让决策者、行业用户和社会公众“看得见、看得清、看得懂”,因此需要实现大屏可视化,把区域内的静态和动态数据能够360度完美表现、采用易懂的表现形式和生动震撼的视觉传达,让人更容易记忆、理解和学习,从而实现企业大数据中心运行情况一套图展示。1.2 项目建设内容1.2.1 数据管理数据资产管理数据资产管理平台主要负责对数据资产进行统一注册和管理,实现数据资产体系化管控。主要包括数据资产注册管理、数据资产分类管理、数据资产查询、数据地图、数据资产分析、数据资产版本管理、数据资产变更管理、资产运行审计管理、资产统计分析,接口管理、数据质量等功能。/数据资产注册管理平台提供数据源管理、数据资产注册管理、数据资产注册审核、生成数据库管理等功能。提供采集器、在线维护、自动注册接口等方式来注册数据资产。数据源管理平台提供对数据源注册管理的功能,主要是对数据提供者所在数据库、HadOOP库的注册管理。1 .数据库注册管理,主要负责数据库基本信息的注册配置,包含但不限于以下内容: 数据库类型 数据库版本 数据库服务IP 数据库服务端口 数据库SID 数据库表空间2 .Hadoop库注册管理,主要负责Hive库基本信息、HDFS文件信息的注册配置,包含但不限于以下内容: HlVE数据库服务IP HIVE数据库服务端口 HDFS文件系统服务IP HDFS文件系统服务端口数据资产注册管理平台提供对数据资产注册管理的功能,主要包括对表、视图、序列、文件、ETL过程、HadOoP等进行注册管理。1)业务系统信息收集与资产注册,包含但不限于以下内容: 业务系统名称 业务系统描述 业务系统服务IP 业务系统服务端口2)数据库信息采集与资产注册,包含但不限于以下内容: 数据库类型 数据库版本 数据库服务IP 数据库服务端口 数据库Sn)数据库表空间3)表结构信息采集与资产注册,包含但不限于以下内容: 表名称 表中文名称 业务信息描述 表结构定义 表数据处理逻辑4)视图信息采集与资产注册,包含但不限于以下内容: 视图名称 视图中文名称 业务信息描述 视图结构定义5)字段信息采集与资产注册,包含但不限于以下内容: 字段名称 字段中文名称 字段详细描述 字段类型定义6)指标信息采集与资产注册,包含但不限于以下内容: 指标名称 指标中文名称 指标业务描述 指标统计口径 指标统计周期7)报表信息采集与资产注册,包含但不限于以下内容: 报表名称 报表中文名称 报表业务描述 报表格式报表统计周期8) hadoop平台信息采集与资产注册,包含但不限于以下内容: HadoOP集群名称 Hadoop集群描述 HadOOP集群主节点IP Hadoop集群从节点IP9) hadoophive库表信息采集与资产注册,包含但不限于以下内容: HiVe数据库服务IP HiVe数据库服务端口 HiVe表名称 HiVe表中文名称 HiVe表业务描述信息 Hive表结构定义10) ETL过程信息采集与资产注册,包含但不限于以下内容: ETL作业名称 ETL作业业务描述信息 ETL过程处理逻辑 ETL作业运行周期 ETL来源表名称 ETL来源文件路径 ETL目标表名称 ETL目标文件路径11)文件接口信息采集与资产注册,包含但不限于以下内容: 接口文件名称 接口文件业务描述信息 接口文件路径 接口文件大小 接口内容与表字段映射关系12) OLAP信息采集与资产注册;13) WebSerViCe接口信息采集与资产注册,包含但不限于以下内容: WebSerViCe接口名称 WebSerViCe接口描述 WebSerViCe接口负责人数据资产注册审核平台提供对数据资产注册的审核功能,通过在平台中定义数据资产的相关命名规范,可实现对数据资产的自动审核,主要包括对表/视图、文件等数据资产进行审核分析。当数据资产命名不符合规范时,平台会提示错误信息,并阻止资产的注册操作,当数据资产命名审核通过后,交由相应的审核人进行审核,保障数据资产的完整和规范性。生成数据库管理平台可基于数据资产(表),通过在平台中指定生成表的数据库及表空间等信息后自动生成相应数据库的建表脚本并在数据库中生成数据表,如下图所示:/数据资产分类管理平台提供对数据资产的分类管理功能,在数据资产注册同时或注册后,可在数据资产上标识不同的属性标签,通过属性标签完成对数据资产的分类整理,为资产查询、资产统计、资产盘点等功能提供支撑。常见的属性标签包括:资产类型:数据表、文件、接口、指标、报表等数据来源:B域、。域、M域等主题域:参与人、服务、资源、事件、市场营销、企业管理、公共。所属层级:接口层、轻度汇总层、中度汇总层、高度汇总层、应用层等存储周期:按年、按季度、按月、按周、按日等数据资产分类体系在数据资产的分类管理中,平台按照数据资产的生命周期对数据资产进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加工层指数据在大数据平台内进行加工处理的过程。数据资产分类查询平台提供数据资产分类查询功能,可通过选取分类标签中具体的属性标签对数据资产进行筛查。1数据资产分类统计平台提供数据资产分类统计功能,可对各种标签属性的数据资产进行分类统计,并形成统计报表,供使用人员查询不同属性数据资产的整体统计情况。/数据资产目录管理数据资产目录资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。数据资产查询平台提供数据资产查询功能,主要分为通用查询和高级查询两种方式。1 .通用查询:通过在通用查询搜索框中输入查询关键字,可对数据资产进行模糊查询。2 .高级查询:根据指定数据资产属性信息的具体值对数据资产进行精确查询,包括数据资产名称、资产编码、资产分类标签等属性。,数据资产地图管理平台提供数据地图功能,通过可视化的图形界面,对大数据平台各系统、各层次之间的脉络关系进行全面、多层次的展示,并提供从系统、数据库、表间以及字段级的关联关系下钻分析功能,帮助用户从不同粒度了解数据资产之间的关联情况,同时可动态了解数据资产的执行情况。/数据资产版本管理平台提供数据资产版本管理功能,主要包括版本发布、版本查看、版本比对、版本恢复等功能。1 .版本发布,通过版本发布功能提供对数据资产信息的版本更新和固化;2 .版本查看,可查看数据资产的版本变更历史;1版本比对,通过选择历史版本可与当前发布的数据资产版本进行差异比较;1)版本恢复功能,支持恢复到以前历史版本的资产信息;/数据资产变更管理平台提供数据资产变更管理功能,可对数据资产信息中除定义名称以外的其他信息进行变更,并提供在变更发布前的数据资产信息规范审核。/数据资产审计管理平台提供资产运行审计管理功能,主要包括数据资产模型审计、数据资产表数据审计等部分。1)数据资产模型审计:可对表、视图、文件、HaClOoP等静态结构进行审计,根据元数据的配置,与数据库内实际的表/视图信息、实际生成的文件信息以及HadOOP中实际的结构信息进行比对,实现数据资产定义在整个应用中的一致性检查。2)数据资产表数据审计:可对数据资产中的表数据进行审计,包括元数据表字段上的空值、字典值等。/数据资产统计管理平台提供数据资产统计分析功能,主要包括统计综合查询、数据资产一致性检查、数据资产更变统计、数据资产属性检查、数据资产空值检查、数据资产字典值检查等功能。数据资产统计分析1、统计综合查询,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产进行查询。2、数据资产一致性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图信息、实际生成的文件信息、Had。P中实际的结构信息等内容进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为数据资产规范性检查报告的组成部分。3、数据资产变更统计,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产变更历史进行统计查询。4、数据资产属性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图的属性信息、与实际生成的文件内的属性信息、与HadoOP中实际的结构信息进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为数据资产规范性检查报告的组成部分。5、数据资产空值检查,平台提供以报表的形式,对元数据表字段上的空值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据资产空值检查报告。6、数据资产字典值检查,平台提供以报表的形式,对元数据表字段上的字典值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据资产字典值检查报告。数据资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。数据资产盘点平台提供数据负资产盘点功能,通过分析系统中孤立未使用的库表,即数据负资产,并以报表形式输出分析结果,为用户清除数据负资产或转存提供帮助。数据异常管理/异常对接管理开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。/异常问题列表开发展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。/人工处理管理开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。,系统处理管理开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。/实时数据质量管理针对实时流数据需要提供数据质量管理功能,即提供对实时流的数据质量规则的设置、维护、调度、优化等规则的管理功能,以及对实时流数据源接口关键数据、数据实体和处理过程的监控告警,辅助数据质量管理人员快速定位问题的原因及处理方案,并定期生成针对实时流数据的数据质量评估报告的功能。/数据质量定制化开发通过自定义扩展规则能力,灵活方便的自定义扩展能力,可以灵活定制质量监控的规则、问题数据的检测规则和问题数据的清洗回收的方式。/异常数据分析基于集成方案,反馈统计分析集成过程中不符合方案中各字段清洗规则的异常数据结果,同时支持多维度的问题分析以及排查。/异常处理统计分析开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。数据架构管理平台支持定义全企业的数据架构,包括数据的主题、层次,所涉及的部门、所用到的数据库类型。功能包括数据架构节点的增加,删除。,业务架构管理从数据架构中选择适合团队的数据架构,并绑定到团队,以约束开发团队在开发过程中选择数据架构。/存储架构管理在异构数据库的环境下,不同的数据库有不同的参数设置,为减少开发人员在模型开发过程中的操作,同时也保障模型在落地到物理环境的正确性,通过在存储架构中设置默认的参数配置来保障开发的准备性。数据开发管理/流数据处理平台支持对流数据的处理与管理,流数据的处理过程为数据实时采集一数据实时计算一数据实时查询服务。实时采集主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触发能力,实现秒级单位时间窗口的数据统计分析能力。需要支持的数据源类型可以分为以下四类:网络协议数据源,包括SOCket、川S、HTTP、HTTPS等常见类型的网络协议。本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。分布式文件系统数据源,包括HDFS,HBase,HiVe等数据。关系型数据库数据源,包括DB2,Teradata,VertiCa等数据。支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和标准化处理,以及满足海量物联网数据的入湖。来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要实时提取和分析来自各种分布式系统的信息,并分发到不同的应用中进行处理。同时,系统必须高效、可靠、可管理、可监控并且具有一定的对外开放能力。流数据引擎开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能流数据计算模型管理开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流数据计算公共模型开发开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能流数据计算结果接口开发开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能流数据计算模型查询开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能。,数据开发平台数据开发完成多种环境的全量与增量数据处理能力,简化开发过程。统一数据开发入口,支持可视化开发和原生态开发两种开发模式,实现原生态开发与可视化编排的互相转换,提升开发效率。支持可视化开发开发空间基于脱敏数据开发和验证,通过验证后的工作流再发布到生产空间,生产空间基于实际的数据来调度工作流进行数据生产。支持原生态开发/统一调度管理平台支持对数据开发与管理任务的统一调度,包括流程设计与管理、调度策略管控、任务调度控制、标准化控件等功能模块,通过作业/任务管理、作业/任务调度、作业/任务执行实现对采集、转换、加载、调度、监控,从而形成统一的调度与管理。以一个业务量生产过程为例。传统做法是通过接口通信表或时序依赖进行协同生产。在统一调度平台中以数据流作为驱动,通过控制中心进行作业命令下发,状态收集进行控制,达到各个异构系统,多个子系统的协同调度。1.2.2数据智能数据血缘平台提供血缘分析功能,通过可视化的图形界面,对数据资产及所有来源的关联数据资产进行展示,可帮助用户分析数据来源和定位数据质量问题。/元数据血缘分析元数据分析算法包括以网状模式展示对象等血缘关系和以父子依赖关系展示对象等有向血缘关系。 影响性分析包括血统分析和影响分析两类,以便于掌握和追溯对象变更时的缘由和影响关系。血缘分析是元数据分析中重要的分析应用,以图形方式清晰的展现出元数据(表、视图、字段、指标)每一步数据的来源情况,数据的来源情况包括该元数据的直接或间接使用到的其他元数据和加工该元数据所使用的加工规则。元数据对象和对象之间以连线方式表现出血缘分析的结果。 重要性分析分析各元数据对象之间的关联密集度,分析数据资源平台中各层次的包、表等对象的重要程度,指导数据资源平台开发和维护团队对重点元数据进行重点关注和质量监控。 无关性分析与重要性分析相反,随着数据资源平台系统的规模不断扩大,业务需求的日益变化,会产生一定数量的无关数据、信息和报表,找出这些无关的内容,结合业务需求分析其产生的根源,从而为用户简化工作负载,降低项目总拥有成本,为用户提供可信赖的数据和分析能力。智能标签在数据资源的分类管理中,平台按照数据资源的生命周期对数据资源进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加工层指数据在大数据平台内进行加工处理的过程。,数据标签管理平台提供数据标签管理功能,可对已导入的数据资产标签进行增加、修改、删除以及分类标签的导入导出功能,满足数据资产业务属性随业务发生变化时数据资产标签能够灵活变化。/标签模板管理平台提供数据标签模板管理功能,可通过下载功能将标签模板导出为EXCel文件格式,对数据标签进行编辑整理后批量导入到平台中,并提供对标签模版的增加、修改、删除等操作。/基础标签管理开发以列表形式和智能推荐形式将平台中设置的基础标签进行呈现列表形式是将所有的基础标签一一列出,并可以按照热度进行排序智能推荐形式是指根据最近时间段内的标签的访问频率、搜索频率等,以轮播的形式循环展现热门标签的功能。/标签关系展现开发通过标签将相关联的数据目录关联在动图中展现给用户,形成丰富数据盛筵的展示效果,做到通过一张图就可以将某一条数据的关联数据、以及数据之间的关系全部展示出来的功能。开发通过标签访问次数统计出热门标签,让平台运维人员了解哪些标签是访问频率高的、是符合用户访问习惯的,并结合用户的搜索记录,优化标签设置,使之更通用和人性化的功能。数据探索平台提供了数据探索工具,支持用户通过数据探索工具对拥有权限的数据进行在线自助数据查询,工具记录访问日志。在平台上用户可以在此页面通过各种过滤条件查询出自己权限范围内满足条件的报表,并进行对应的设为首页及关注操作。画像分析画像分析是面向业务的标签和画像管理中台,整合了多类型存储资源的数据,能够帮助企业构建业务标签体系。平台中的画像分析功能同时内置完善的标签运营机制和灵活的圈群分析模版,适用于用户行为、设备管理、企业档案、地理分布等数据分析场景。/影响分析平台提供影响分析功能,通过可视化的图形界面,对数据资产及所有后续影响的关联数据资产进行展示,可帮助用户分析数据流向和定位数据出错时影响的关联数据资产。/全链分析平台提供全链分析功能,通过可视化的界面,对数据资产所有来源和后续影响的关联数据资产进行展示,可帮助用户分析数据来源和定位数据质量问题及后续影响的数据资产。/表关联度分析平台提供表关联度分析功能,通过分析数据库表数据资产与其他资产的的关系出现次数情况,如表与ETL程序、表与OLAP、表与指标等关系,并以报表形式输出分析结果,帮助用户分析数据资产之间的关联程度。1.3 平台性能需求数据融合计算(百万级数据)执行效率达到分钟级别最大开发团队管理数100个系统数据开发人员并发访问200个服务响应时间3s调度执行器在线数据任务的调度管理和执行数量2000个1.4 验收文档要求概要设计书概要设计专家评审详细设计说明书架构设计说明书数据设计说明书项目实施方案测试方案测试用例测试报告部署方案非功能性能指标源代码系统使用说明(规范)、运维说明书系统培训资料和培训记录项目总结报告2项目技术方案2.1 项目建设方案2.1.1 现状问题分析2.1.1.1 业务系统之间缺少统一标准/数据多样化缺少数据标准,对表字段的命名随意性强,定义混乱;/同一英文字段名对应多个中文名,反之也存在着中文的一对多;/同一业务元素对应多种数据类型和长度。2.1.1.2 系统之间数据变更对应的影响分析困难/历史数据庞大复杂,表关系不清晰;/表结构变更、系统改造时,对应造成的影响难于甚至无法评估;/已然形成大量数据,系统悠久,找不到接口人,针对其应用困难。2.1.1.3 数据质差,错误发现不及时/数据质量低下,统计不准确,许多预期需求无法实现、造成决策失误;/数据错误的发现不及时;/数据处理过程中的问题未及时纠正,导致更多的后续错误。2.1.1.4 数据价值低/数据表和模型繁多,价值未最大释放。2.1.1.5 业务系统之间数据资产分散,共享性差/DB、数据模型、应用程序、数据标准、数据质量等信息分散;/政务数据资产无法集中管理和展现,共享性差。2.1.1.6 数据安全得不到保障/数据权限划分不清;/敏感数据得不到监控;/账号和权限无法追踪非正常的访问行为无法捕捉。2.1.1.7 管理体系不完善,已有标准落实差/标准管理体系不完善;/管理角色分工不清晰;/标准管理系统不完善,标准管理软件易用性差,落实效果差;/出了问题再补漏,数据管理部门和生产部门相互推脱责任。2.1.2 项目建设目标基于上述问题分析,因此本次企业大数据智能管理与治理平台项目的建设的目标就是要让城市大数据及大数据中心的运营成果要让决策者、行.业用户和社会公众“看得见、看得清、看得懂”,因此需要实现大屏可视化,把区域内的静态和动态数据能够360度完美表现、采用易懂的表现形式和生动震撼的视觉传达,让人更容易记忆、理解和学习,从而实现企业运行情况一套图展示。2.1.3 平台建设方案2.1.3.1 平台架构设计我公司大数据管理平台以元数据为基础,所有模块并不是串连,每个模块都可以单独或与其他模块组合使用。本平台建设方案可以为各类客户提供全面的数据管理解决方案,同时平台可在本地或云上使用。2.1.3.2 数据管理建设2.1.3.2.1 数据资产管理数据资产管理平台主要负责对数据资产进行统一注册和管理,实现数据资产体系化管控。主要包括数据资产注册管理、数据资产分类管理、数据资产查询、数据地图、数据资产分析、数据资产版本管理、数据资产变更管理、资产运行审计管理、资产统计分析,接口管理、数据质量等功能。2132.1.1数据资产注册管理平台提供数据源管理、数据资产注册管理、数据资产注册审核、生成数据库管理等功能。提供采集器、在线维护、自动注册接口等方式来注册数据资产。2.1.3.2.1.1.1 数据源管理平台提供对数据源注册管理的功能,主要是对数据提供者所在数据库、HadOoP库的注册管理。数据库注册管理,主要负责数据库基本信息的注册配置,包含但不限于以下内容: 数据库类型 数据库版本 数据库服务IP 数据库服务端口 数据库SID 数据库表空间3.Hadoop库注册管理,主要负责Hive库基本信息、HDFS文件信息的注册配置,包含但不限于以下内容: HIVE数据库服务IP HIVE数据库服务端口 HDFS文件系统服务IP HDFS文件系统服务端口2.1.3.2.1.1.2数据资产注册平台提供对数据资产注册管理的功能,主要包括对表、视图、序列、文件、ETL过程、HaC100P等进行注册管理。D业务系统信息收集与资产注册,包含但不限于以下内容: 业务系统名称 业务系统描述 业务系统服务IP 业务系统服务端口2)数据库信息采集与资产注册,包含但不限于以下内容: 数据库类型 数据库版本 数据库服务IP 数据库服务端口 数据库Sn) 数据库表空间3)表结构信息采集与资产注册,包含但不限于以下内容: 表名称 表中文名称 业务信息描述 表结构定义 表数据处理逻辑4)视图信息采集与资产注册,包含但不限于以下内容: 视图名称 视图中文名称 业务信息描述 视图结构定义5)字段信息采集与资产注册,包含但不限于以下内容: 字段名称 字段中文名称 字段详细描述 字段类型定义6)指标信息采集与资产注册,包含但不限于以下内容: 指标名称 指标中文名称 指标业务描述 指标统计口径 指标统计周期7)报表信息采集与资产注册,包含但不限于以下内容: 报表名称 报表中文名称 报表业务描述 报表格式 报表统计周期8) hadoop平台信息采集与资产注册,包含但不限于以下内容: HadOOP集群名称 Hadoop集群描述 HadoOP集群主节点IP Hadoop集群从节点IP9) hadoophive库表信息采集与资产注册,包含但不限于以下内容: HiVe数据库服务IP HiVe数据库服务端口 HiVe表名称 HiVe表中文名称 Hive表业务描述信息 Hive表结构定义10) ETL过程信息采集与资产注册,包含但不限于以下内容: ETL作业名称 ETL作业业务描述信息 ETL过程处理逻辑 ETL作业运行周期 ETL来源表名称 ETL来源文件路径 ETL目标表名称 ETL目标文件路径11)文件接口信息采集与资产注册,包含但不限于以下内容: 接口文件名称 接口文件业务描述信息 接口文件路径 接口文件大小 接口内容与表字段映射关系12) OLAP信息采集与资产注册;13) WebSerViCe接口信息采集与资产注册,包含但不限于以下内容: WebSerViCC接口名称 WebSerViCe接口描述 WebSerViCC接口负责人2.1.3.2.1.1.3 资产注册审核平台提供对数据资产注册的审核功能,通过在平台中定义数据资产的相关命名规范,可实现对数据资产的自动审核,主要包括对表/视图、文件等数据资产进行审核分析。当数据资产命名不符合规范时,平台会提示错误信息,并阻止资产的注册操作,当数据资产命名审核通过后,交由相应的审核人进行审核,保障数据资产的完整和规范性。2.1.3.2.1.1.4 生成数据库管理平台可基于数据资产(表),通过在平台中指定生成表的数据库及表空间等信息后自动生成相应数据库的建表脚本并在数据库中生成数据表。213.2.1.2数据资产分类管理平台提供了对数据资产的分类管理功能,在数据资产注册同时或注册后,可在数据资产上标识不同的属性标签,通过属性标签完成对数据资产的分类整理,为资产查询、资产统计、资产盘点等功能提供支撑。常见的属性标签包括:资产类型:数据表、文件、接口、指标、报表等数据来源:B域、。域、M域等主题域:参与人、服务、资源、事件、市场营销、企业管理、公共。所属层级:接口层、轻度汇总层、中度汇总层、高度汇总层、应用层等存储周期:按年、按季度、按月、按周、按日等2.1.3.2.1.2.1 数据资产分类体系在数据资产的分类管理中,平台可以按照数据资产的生命周期对数据资产进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加工层指数据在大数据平台内进行加工处理的过程。2.1.3.2.1.2.2 数据资产分类查询平台提供数据资产分类查询功能,可通过选取分类标签中具体的属性标签对数据资产进行筛查。2.1.3.2.1.2.3 数据资产分类统计平台提供了数据资产分类统计功能,可对各种标签属性的数据资产进行分类统计,并形成统计报表,供使用人员查询不同属性数据资产的整体统计情况。2.1.3.2.1.3数据资产目录管理2.1.3.2.1.3.1 数据资产目录资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。2.1.3.2.1.3.2 数据资产查询平台提供数据资产查询功能,主要分为通用查询和高级查询两种方式。通用查询:通过在通用查询搜索框中输入查询关键字,可对数据资产进行模糊查询。高级查询:根据指定数据资产属性信息的具体值对数据资产进行精确查询,包括数据资产名称、资产编码、资产分类标签等属性。213.2.1.4数据资产地图管理平台提供了数据地图功能,通过可视化的图形界面,对大数据平台各系统、各层次之间的脉络关系进行全面、多层次的展示,并提供从系统、数据库、表间以及字段级的关联关系下钻分析功能,帮助用户从不同粒度了解数据资产之间的关联情况,同时可动态了解数据资产的执行情况。2132.1.5数据资产版本管理平台提供数据资产版本管理功能,主要包括版本发布、版本查看、版本比对、版本恢复等功能。 版本发布通过版本发布功能提供对数据资产信息的版本更新和固化。 版本查看可查看数据资产的版本变更历史。 版本比对通过选择历史版本可与当前发布的数据资产版本进行差异比较。 版本恢复功能支持恢复到以前历史版本的资产信息。2.132.1.6数据资产变更管理平台提供了数据资产变更管理功能,可对数据资产信息中除定义名称以外的其他信息进行变更,并提供在变更发布前的数据资产信息规范审核。2132.1.7数据资产审计管理平台提供资产运行审计管理功能,主要包括数据资产模型审计、数据资产表数据审计等部分。数据资产模型审计可对表、视图、文件、HadOOP等静态结构进行审计,根据元数据的配置,与数据库内实际的表/视图信息、实际生成的文件信息以及Had。P中实际的结构信息进行比对,实现数据资产定义在整个应用中的一致性检查。数据资产表数据审计可对数据资产中的表数据进行审计,包括元数据表字段上的空值、字典值等。2.13218数据资产统计管理平台提供了数据资产统计分析功能,主要包括统计综合查询、数据资产一致性检查、数据资产更变统计、数据资产属性检查、数据资产空值检查、数据资产字典值检查等功能。2.1.321.9数据资产统计分析平台具备强大的数据资产统计功能,并提供了大量数据资产分析报表,具体如下:1、统计综合查询,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产进行查询。2、数据资产一致性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图信息、实际生成的文件信息、HadOOP中实际的结构信息等内容进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为数据资产规范性检查报告的组成部分。3、数据资产变更统计,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产变更历史进行统计查询。4、数据资产属性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图的属性信息、与实际生成的文件内的属性信息、与HadoOP中实际的结构信息进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为数据资产规范性检查报告的组成部分。5、数据资产空值检查,平台提供以报表的形式,对元数据表字段上的空值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据资产空值检查报告。6、数据资产字典值检查,平台提供以报表的形式,对元数据表字段上的字典值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据资产字典值检查报告。数据资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。数据资产盘点平台提供数据负资产盘点功能,通过分析系统中孤立未使用的库表,即数据负资产,并以报表形式输出分析结果,为用户清除数据负资产或转存提供帮助。2.1.3.2.2数据异常管理21.3.2.2.1异常对接管理平台可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。2.1.3.2.2.2异常问题列表平台可以展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。2.13223人工处理管理平台支持人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。2132.2.4系统处理管理平台支持统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。2.13225实时数据质管理平台支持针对实时流数据需要提供数据质量管理功能,即提供对实时流的数据质量规则的设置、维护、

    注意事项

    本文(企业大数据资产智能管理与治理平台技术方案.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开