企业数字化转型大数据湖项目建设和运营综合解决方案.docx
《企业数字化转型大数据湖项目建设和运营综合解决方案.docx》由会员分享,可在线阅读,更多相关《企业数字化转型大数据湖项目建设和运营综合解决方案.docx(145页珍藏版)》请在课桌文档上搜索。
1、企业大数据湖项目建设和运营综合解决方案1 .项目综述LI项目背景必要性:预计未来十年,数据将以每年约40%的速度增长,更重要的是,数据中囊括了绝大多数企业业务的数据需求。在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足“信息一代”的需求,这对企业来说至关重要。从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理、存储并分析海量数据,拥有变革业务的巨大能量。分析能力正从企业的“愿望清单”中移除,转而成为必需。数据湖,为分析提供最大的灵活度。,企业产生的数据比以往任何时候都更多。这种情况为企业带来了独特的问题:需要装备自己分析这些数据,而不仅仅是存储。数据湖与Had
2、oop平台一道,提供了增加数据价值所需的自动化和透明度。1 .运营复杂度:随着基础设施规模的扩大,数据需求不断加深。基础设施的瓶颈对企业业务数据的存储和以此为基础建立的业务的拓展带来的制约。对于企业IT运维人员、业务系统开发人员、数据管理人员的工作量也是逐年增加,从而导致其数据需求就很有可能超过管理能力。传统的业务数据资源并不总是池化的,这样就为单一管理者可应对的存储空间造成了限制,同样,在构建更灵活的通用存储资源(例如数据湖)方面,管理者也面临难题。整理制作郎丰利1519o2 .运营成本:通过减少运营成本,提升企业效益。但业务对IT的需求却在持续增长时,便产生了矛盾。全职人工也会带来管理IT
3、资源的运营成本上升。为了有效应对这些需求,企业或者需要更多人力资源,或者需要投资额外的第三方,支持监控、管理、部署和改善系统。与通过增加员工人数相比,第二种方法扩展了一个数量级甚至更多。整理制作郎丰利。3 .生产压力:现有的分析应用正为业务生产系统带来压力。实时分析可能是耗费大量资源的,无论是想通过视频分析,从大量高清视频流中获得洞察,还是研究社交内容瀑布流。这些流程是需要专用资源的,这样,尝试使用生产系统的用户才不会损失性能。数据湖是确保实时分析能够以最佳性能运行的关键。4 .多协议分析:企业需要数据湖,一个最终的关键信号是,数据科学家正在大量不同的Hadoop发行版上运行应用,并且,需要将
4、他们的数据与Hadoop挂钩。未来,随着各种各样的分析实验不断深入,业务线需要IT有能力支持多种协议。企业也需要以数据湖策略为重要依据,进行整体的合理规划。5 .打破数据孤岛:长期以来,数据孤岛一直是存储应用的标准,但是这些系统是运营效率低下的,并且会限制从相关数据中获得更佳洞察的能力。节约成本也是一大驱动力。除了管理复杂性,孤岛系统还需要多种授权,服务器和其他费用,而数据湖可以经济高效的方式,由单一基础设施提供支持。随着分析变得更快速、更复杂,组织也需要以同样的方式进化,以探索所有可能性。数据不再单单是数据本身,借助所有组织化数据构建的完整图景。6 .利用实时分析:数据收集和分析正变得越来越
5、快。像信用卡欺诈预警分析、股票分析这样的应用场景,需要在动作发生后数秒内就实现。不过,实时分析并不都是需要100%立刻马上就实现的。一些数据(如月销售数据、季度财务数据或年度员工表现数据)只需以特定的时间间隔存储并分析一。组织需要有能力构建1.2项目目标平台层通过对各业务板块各种数据的采集、整理、汇聚,建立一个基于“互联网+”、云计算技术和人工智能技术的数据湖,实现各业务板块的生产监视、智能设备状态监测、智能故障诊断、智能运行保障、生产数据分析等功能,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台。业务层公司数据湖融合实时数据库、关系数据库,实现数据资产管理,提供大数据应用和数据分析计
6、算模型。其中,实时数据是主要的数据形式,实时数据库集群承担高通量数据接入的任务同时,为总部实时业务应用系统提供高实时性的数据查询、计算、组态数据源服务,同时完成数据的标准化、格式化、清洗和整理,将整齐的数据通过Kafka或其他适配器等方式输出到Hadoop数据湖,并负责提供从Hadoop平台到实时库等其他所需数据应用的输入输出组件。数据集中、挖掘,对实现与下属单位互联互通、智能处理、智能协同的目标,使用标准化、自动化、数字化、信息化、智能化等手段,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台,形成具有“自分析、自诊断、自管理、自趋优、自恢复、自学习、自提升”为特征的智慧企业生态系统。
7、展示层随着数据湖数据存储、分析、挖掘的深入应用,将极大的激发各部门、各层级对于业务数据的分析和探索,在此之上的数据报表展示需求也将呈现复杂性、综合性、多终端性、个性化等特点。本平台主要目标是建立一个快速的可视化报表平台,无缝化对接数据湖,提供丰富的报表展示功能,面对各层次人员提供对应的数据报表及分析服务。基于此平台,我们不仅可以在报表开发过程中,加快开发速度,提高数据应用的及时性,还可以在业务需求变更、调整后,大大的降低维护难度,实现可视化做到随需应变。最终在深入完善复杂报表、打印导出、图形化分析、移动决策、大屏监控、自助分析等多个可视化分析领域的支撑。整理制作郎丰利1519oL3项目建设路线
8、第一期:建设企业数据湖,梳理企业应用系统内部的业务数据类型,数据量;将结构化、非结构化数据打标签导入数据湖中心湖中,构建视频池、文本池和应用池分类。对某些应用场景构建Bl报表分析。第二期:建立主数据管理和数仓,ETL规范和流程,数据安全管理,数据可视化管理,数据监控的管理。梳理数据湖使用人员的角色和权限,对数据湖进行基于业务需求场景的多租户管理。根据业务的微服务化,逐步构建企业大数据微服务平台,细粒度的平台资源管理。第三期:数据的深化应用,一体化管控数据标准和数据治理,深化主数据消费和应用。逐步将应用的数据来源迁移至数据湖中,形成数据应用平台、数据挖掘和Bl报表平台,人工智能和机器学习平台。2
9、.需求分析2.1 功能需求数据湖的应用、管控、展示为一体,提供标准的服务和数据接口和报表展现方式。数据湖数据采用高效,可靠的存储架构。企业业务数据制订迁移方案,将ERP系统、数据采集系统、OA系统、视频监控系统、云商系统中存储的核心数据,整体迁移至数据湖,非弹性资源实行本地化部署,对于弹性计算功能,需与算法数据湖进行协同计算。以实现核心数据可控,消除安全问题和潜在未知风险。支持可视化建模,支持鼠标拖拽方式进行人工智能算法建模。包括数据预处理、特征工程、算法模型、模型评估和部署等功能支持快销业务领域的预测预警等多种类型的算法应用,包括逻辑回归、K近邻、随机森林、朴素贝叶斯、K均值聚类、线性回归、
10、GBDT二分类、GBDT回归等算法模型,也支持深度学习等人工智能训练模型。展示层通过统一的商业Bl报表组件,多维度,动态的展示各业务系统的运行状况,资源使用情况等。并支撑周期性或临时性生成各业务状况,决策数据展示,故障分析挖掘等业务场景。海文件索引存储分析 实时获取FTPHTP影住/g胸其他文件XX数据湖架构图文件中心:主要用于存储各种格式文件,包括影像文件,视频音频文件,PDF,OffiCe文件等类型文件,提供文件级别的全文检索,文件发布,文件共享,文件提取等功能。提供文件权限管理,版本管理,历史版本恢复等管理功能。文件中心中文件内容可以经由ETL过程与日志中心,数据中心交换融合数据,共同参
11、与数据处理,数据挖掘,机器学习,影像分析等工作。日志中心:收集各类日志数据,物联数据等实时数据,由流处理引擎实时处理数据,确保在第一时间分析处理数据,做到实时监控,实时告警。经处理的实时数据可与文件中心,数据中心的数据融合,共同参与数据分析等工作。结构化数据中心:实时(或批量)获取数据库或其他介质中的架构化数据,借助HadooP/Spark等强大的处理能力,高效处理各类数据。有效结合文件中心,日志中心中的数据共同参与数据分析,数据挖掘。支持百亿级数据CUbe,做到海量数据亚秒级多维度查询。标准SQL输出接口,支持不断升级的需求以及二次开发。2.1.1统一数据接入数据湖接口统一接口示意图数据接入
12、原则1、以应用驱动为主,优先建设高价值数字挛生项目;2、入湖数据必须有数据管理部认证,发布对应数据资产标准,匹配对应数据责任人;3、数据建模原则以原始数据、清洗整合数据、三范式结构、服务化宽表逐级向上规范;4、整体平台需符合高可用、平行扩容原则,符合业务3-5年的数据规划。数据实时同步,支持绝大多数的数据库实时同步需求。支持跨广域网的数据同步,支持接收器集群。建设统一的,标准的,易于复制和维护的数据实时同步平台,同时完成数据实时同步的技术规范及策略。实现数据同步监控系统,构建数据的更新情况有一个持续的,可靠的实时监控系统。完成一次性数据快速导入与增量数据导入的融合机制一一涓流复制。通过Full
13、DUmP模块实现数据入库的加密,基于DataHandle提供HiVeSQL接口,同时完成数据出库的解密。通过APPIiCationAdaPter的定制实现数据访问权限的控制2.1.2数据迁移将对于频繁读写数据的业务系统,ERP系统、数据采集系统、OA系统、视频监控系统、云商系统保留原数据库的方案。业务数据同步至数据湖,并在并轨运行过程中,需定期验证本地数据湖中与业务系统数据的一致性。接收实时增量数据,按照预定架构存储数据至本地数据湖。生产实时数据实时接入、可靠传输至公司数据库集群中,数据接入量约为IIoTB/天,历史数据40000TB。7Aur外部篇源中心湖区(DataLake)HDFSHlV
14、ESparkSQL数据迁移逻辑架构图数据湖作业分为非弹性和弹性两类,对于非弹性作业在本地数据湖进行运算,对于消耗资源大且需弹性计算作业,采用与企业云进行协同计算,在企业云数据湖中不保存数据,待作业计算完成后将过程和结果数据回传至本地数据湖进行存储。接口服务支持发布订阅模式,支持跨数据湖、跨系统的调用,支持HDFS、HiveHBaSe等系统。a)接口类型批量数据封装将大批量数据按一定条件抽取出来封装成数据资源。批量数据封装必须通过系统进行,不能进行手工操作。数据请求接口封装通过restful接口方式将数据封装成访问接口,使访问方通过远程调用对数据进行访问。b)接口安全配置管理对共享数据的内容和共
15、享接口规则进行配置,包括基础数据配置、共享服务配置、共享权限和共享配置下发。a)基础数据配置能够对数据共享功能域中使用到的基础数据进行配置,包括使用共享数据系统的配置、共享数据实体的数据结构和语义描述、共享方式等。b)共享服务配置数据服务定义、数据服务目录、数据服务参数配置(如:目标系统、共享方式、数据承载方式、访问频率、访问允许时段)等。C)共享权限配置对允许使用共享服务的目标系统进行权限配置,支持共享服务内部具体数据实体和属性的权限配置。Ci)共享配置下发共享数据的内容和共享接口规则下发至各相关系统。数据共享过程对各数据共享过程进行监控、异常处理、日志管理,并对数据共享相关的数据提供查询统
16、计和分析功能。a)表数据共享目标系统是应用层分析系统,直接开放表访问权限,由目标系统通过ETL进行数据抽取。b)数据查询目标系统是应用层分析系统,由目标系统直接通过调用数据湖提供的数据查询服务,完成数据查询。C)数据订阅目标系统是应用层分析系统,目标系统提出数据订阅需求,由数据湖提供数据订阅服务。2.1.3数据范围与ETL数据来源数据类型(待梳理)ERP系统会计核算、财务管理、生产控制管理、物流管理、采购管理、分销管理、库存控制、人力资源管理数据采集系统历史秒级数据、实时秒级数据、统计数据:一分钟数据、十分钟数据、日数据视频监控系统故障数据、状态数据、故障日志(B文件、F文件、W文件等)OA系
17、统服务工单、服务请求工单、工作任务书(技改)、在建阶段工单、审批计划、档案、知识库、遗留问题ZX商系统日志、交易信息ETL需求:DELT支持从ERP系统、数据采集系统、OA系统、视频监控系统、云商系统等数据源数据的抽取、传输与加载。ERP.OA为OraCle;数据采集系统为SQLSerVer;云商系统为MySql数据库。视频监控系统为非关系型实时数据。郎丰利整理制作。2)支持流式的导入方式。郎丰利整理制作。3)支持各种数据抽取与加载接口,如专用数据库驱动接口、JDBC、ODBC,以及WebSerViCe接口等。郎丰利整理制作。4)ETL设计支持可视化的复杂任务控制流与数据流,支持在数据抽取、清
18、洗和转换中实现自定义处理流程与规则;5)支持多种数据清洗、转换任务组件,如查找、模糊查找、排序、聚合、合并、分组、条件分拆、抽样等。郎丰利整理制作。6)支持ETL过程的异常数据处理,实现常见故障数据的修复或剔除或对故障数据抛出保留,以备系统管理员检查处理。7)ETL执行过程具备完整的日志管理和数据审计功能,并有相关监控预警机制,保证ETL正常进行;郎丰利整理制作。2.1.4报表平台服务数据采集安全数据采集I其他数据采集(总体功能架构图)综合展示的总体功能架构包括数据采集管理、信息数据管理、可视化管理三个层次。统一数据仓库建立统一数据仓库,执行统一数据接口标准,数据湖各系统与综合展示数据湖的数据
19、通讯和同步。展示数据集中管理展示数据统一转换、统一存储、统一处理、统一调用。丰富展现方式能够灵活选择多种展现方式,包括3D圆柱图、半圆仪表、水平仪表、垂直仪表、垂直进度条、圆形进度条、水平进度条、堆积柱图、弧形进度条、扇形进度条、温度计仪表、汽泡图、雷达图等。深度关联挖掘各种展示指标,支持层层深入挖掘,从宏观到微观、从整体到个体、从实时到中长期趋势。可维护性能够根据IT运营服务本身的管理需求,快速、灵活地调整定制展现方式、展现内容。展示环境无关性数据湖展示不受大屏硬件、分辨率、尺寸大小、拼接方式的限制。2.1.5 安全管理大数据安全框架整体以及基本组件如下图所示,图中各组件为数据安全构架基本构
20、成,后续根据需求会进行增删以及调增,橙色部分为本期主要阶段性实现:数据安全从最初的数据接入到最终的数据展现的安全问题。中间包括数据源、数据收集、消息系统、实时处理、存储、数据库等各部分的数据安全以及整条线的安全。整理制作郎丰利1519o身份认证和访问控制通过身份认证确保访问数据湖中的数据、资源和服务的用户是安全的,本次使用大数据技术支持身份认证,并能够实现快速建立密钥分发中心等。用户通过身份认证后可获得访问数据湖的资格,同时为进一步控制用户对资源的访问权限,通过授权机制来管理不同用户对不同资源的访问许可。所有组件都在一定程度上支持对访问的控制,使用访问控制模型,通过对细粒度的控制,控制到被访问
21、对象的访问级别。在制定访问控制策略时,依据合规要求,结合敏感数据保护策略、数据使用场景等针对不同数据、不同业务需求制定相应的访问限制规则。数据保护数据保护技术通过对数据利用脱敏、失真、匿名化限制发布等技术处理后,使处理后的数据到达安全交易、开放共享的目的。针对脱敏后的数据,可放宽复杂的访问控制限制,降低数据泄露带来的风险和复杂控制的成本。网络分区安全网络划分独立的安全域,控制域其他区域以及系统的访问控制,控制网络层数据流向,控制大数据网络与非内部网络的链接。保障客户端访问数据湖的连接和数据湖中服务器节点之间的网络通信安全。节点之间及客户端与服务器之间的通信如有需要,可进行加密。对网络通信进行加
22、密设置,使用网络安全设备隔离客户端与数据湖的直接访问。网络安全设备部署在数据湖和企业用户网络域之间,提供访问控制、策略管理,三区与四区间使用较强的访问控制措施,从而保护数据湖不会受到非法访问。基础安全审计和监控数据湖的一切活动并生成告警信息用来分析识别安全事件。安全事故和事件监控(SIEM)系统负责对数据湖中任何可疑的活动进行收集,监控,分析和生成各种安全报告。被监控的事件:用户登录和身份验证事件、授权错误、敏感数据操作、通过各种客户端的访问以及异常事件。2.1.6 数据治理根据业务要求、合规性、安全策略及数据的敏感性,数据基本分类简要定义为业务系统数据以及配置数据。从数据特性层面对数据进行标
23、记(包括分析类型、处理方式、数据时效性数据类型、数据格式、数据源等维度),脉络化数据湖内外数据流向,包括数据被使用,被谁使用,数据是如何存储的等等,基于此对数据的管理和数据访问控制制定相应的策略。掌握敏感数据在数据湖中存在位置,降低数据暴露于风险下的概率。掌握敏感数据在数据湖中分布情况,自动地增量式地发现找到敏感数据,监控其使用情况,做到全面保护数据安全。建立整个的主数据,并保证主数据对于各个业务系统的准确性、唯一性。2. 2非功能需求2.1.1 运维保障需求数据湖具有友好的系统界面供运维保障人员使用,运维保障人员一般情况下通过系统界面对系统进行维护。维护数据湖需要包含并不限于以下内容:1、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数字化 转型 数据 项目 建设 运营 综合 解决方案

链接地址:https://www.desk33.com/p-907730.html