-数据工程白皮书-.docx
”数据工程白皮书“1、数白据皮工书程数据工程白皮书引言1什么是数据2数字化转型浪潮下的企业数据3企业数据流转链路分析4数据工程概述6什么是数据工程7数据工程价值8数据工程落地与力量建设10数据工程落地10数据工程力量建设28数据工程展望33数据工程白皮书数据是新一代技术革命下的生产要素,把握了生产要素与生产要素的加工方式就是把握了数字经济下的价值密码。引言新生产要素的崛起数据纵观历史,伴随着科学技术的进展以及社会形态的演化,在社会进展的不同阶段,生产要素的数量不断增加,并且每个历史进展阶段,不同生产要素的重要程度也始终在发生变化。在信息技术革命到来之前,社会经济学公认的四大生产要素分别为:土地、劳动、技术和资本,而2、随着信息技术革命的到来,数据的产生与应用已经渗透到各行各业的生产经营活动之中,数据已经成为继土地、劳动、资本、技术之后的第五大生产要素。数据之重要,已不单单局限于企业内部的认知,更是成为全社会的共识。在2022年11月工信部发布的十四五大数据产业进展规划当中,更是把数据要素的价值转化提升到了国家层面,进一步突出了数据作为国家基础战略性资源的重要地位。图:生产要素在不同阶段的变化生产要素土地、劳动土地、劳动、技术、资本土地、劳动、技术、资本土地、劳动、技术、资本、数据简单程度农业社会第一次工业革命其次次工业革命信息技术革命历史阶段33在当今数字经济时代,一方面企业在经营的过程中时刻都在3、产生大量数据,这些数据从业务过程中产生,并蕴含着大量学问;另一方面,面对如此重要的生产要素,许多企业无法将其好好利用。而数据又与土地等生产资料不同,其有比较强的时效性,也就是数据对生产的促进作用会随着时间的推移渐渐降低,假如不准时利用将会导致数据价值白白流失,这对企业是一种极大的损失。而要搞清晰数据价值如何落地,就必定要分析数据的生命周期,包含数据的产生、收集、存储、传输、处理、应用等多个阶段,搞清晰数据从哪里来,到哪里去,怎么使用。数据全流程的不同阶段,需要依靠各种信息系统进行落地,我们将落地过程中涉及到的工程实践统称为数据工程。数据工程的好与坏,直接关系到企业内部数据价值转化效能。接下来我4、们将系统地介绍数据定义、数据工程的定义、数据工程实施原则。什么是数据通常,数据是通过观测得到的数字性的特征或信息,是一组关于一个或多个人或对象的定性或定量变量,数据不仅指的是数字,还可以是有意义的文字、字母、符号的组合,也可以是图像、图形、视频和音频等。通常而言,从数据组成形态的视角,我们可以将数据分为结构化数据、非结构化数据、半结构化数据三种。结构化数据:通常由明确定义的信息组成,这些信息可以通过高度组织化的表格或数据库进行搜寻、维护或跟踪。常见的结构化数据如关系型数据库中的客户数据、订单数据、产品数据以及由人工维护的Excel表格等。半结构化数据:是结构化数据的一种特别形式,它没有5、固定的结构,因此它不遵循表格数据模型或关系数据库的格式,但是它包含了一些易于分析的结构化元素,例如标记。非结构化数据:是指没有固定组织原则的未经过滤的信息,如图像、视频、音频文件以及文本信息等。非结构化数据的形式多样,无法用关系数据库储存,且数据量通常较大。图:不同结构数据的关系结数构据化半结数构据化非结数构据化总的来说,结构化数据、非结构化数据、半结构化数据的最主要区分在于是否存在预先定义好的数据模型。结构化数据能够用统一的某种结构加以表示,离开了这种结构,数据就没有意义;非结构化数据没有概念数据模型形式的限制,可以自由表达;半结构化数据介于上述两者之间。数字化转型浪潮下的企业数据在了解了6、数据详细含义的状况下,企业想要更好的管理数据、利用数据,就必需了解数据在现代企业中的产生源头、组织形态等。现代企业数据的产生离不开企业的数字化转型,企业数字化转型程度凹凸则直接影响了数据的利用效率,在分析了众多企业数字化转型的案例之后,我们认为企业数字化转型一般分为三个阶段:信息化:信息化为企业数字化转型的初级阶段,此阶段侧重于将企业生产制造过程、物料转移、事务处理、资金流淌、客户交互等流程进行电子化,其整个思维导向以流程管理为主,以无纸化办公为目标,旨在提升企业流程管理效率,这一阶段的企业主要呈现为系统离散化,数据碎片化的特点。智能化:在企业拥有大量数据的背景下,伴随着人工智能领域技术的7、快速进展,原本只在学术界活跃的人工智能算法与模型能够快速在商业领域落地,智能算法与模型极大提高了企业从数据中提取业务学问的效率,企业各种系统与应用变得越来越智能,系统在算法与模型的关心下可以自学习学问、再制造学问。智能化由于自然的高效,成为了企业数字化转型的必定趋势,此时系统构建的思维导向为业务创新,旨在利用人工智能算法与模型解放生产力、查找新商机。此阶段企业主要呈现为系统自动化、数据模型化与智能化的特点。数字化:在企业信息化达到肯定程度之后,由于业务的快速进展,原有流程和系统已经不能满意企业的管理诉求,企业渐渐由流程管理转向业务管理,企业对其业务进行细粒度的拆分、分析与优化,便于对制造流8、程、业务流程、用户旅程等进行管理、分析与改善,这一阶段为企业数字化转型的中级阶段,主要强调数字对商业的重塑,转型过程中通常伴随着组织结构的调整,赋能企业商业模式不断创新和突破。处于这一阶段的企业信息化主要呈现系统平台化、数据集约化与模型化的特点。图:企业数字化转型三个阶段业务流程电子化业务数据化业务创新化系统离散系统平台系统智能系统数据碎片数据数据模型智能模型信息化企业数据流转链路分析数字化智能化数据只有依托于信息系统,才能在企业内部流转起来。数据在企业内部会经过一系列的处理才能最终产生价值,一般我们会简化为以下几步:数据产生:一般而言,企业数据由生产活动以及服务客户的过程产生,不同行9、业的数据产生特点也不相同。假如是生产型企业,数据主要由传统信息系统如ERP,CRM等系统产生;假如是服务型企业,则数据主要在不同类型的在线系统产生,例如电商系统、推举系统等。除此之外,由于物联网的进展,还有一部分数据由传感器产生。此时数据还相对原始,其形态可能有结构化数据、半结构化数据、非结构化数据。数据收集:数据收集通常是指将业务数据从业务系统或者外部系统接入的过程。数据收集阶段需要满意三大原则才能保证后续步骤的有序进行:首先是无侵入性原则,通常数据接入需要直接对接业务系统,而对业务系统而言最重要的是稳定性,即数据收集过程不能对业务系统造成负担。其次是无修改原则,数据收集是数据10、工程全部流程的起点,在数据收集过程中数据肯定要与源系统保持全都,避开不必要的处理导致数据所蕴含的信息缺失。最终是可追溯原则,收集来的数据可以进行冷热备份,但不进行任何删除操作,便于审计、回溯等。数据预处理:收集的数据格式存在多样性并且掺杂着有效或无效的数据,导致这些数据无法直接进行利用,必需要进行相关预处理才能进入下一阶段。这一步骤会提升数据的信息有效密度,并且会对数据进行转换与处理便于后续计算,一般而言数据清洗、数据标注、编码等均属于这一步骤。数据提炼:此阶段为数据价值转化的主要步骤,从数据中提取信息、凝练学问就发生在这一步。对于一般的数据仓库而言,数据模型建立、ETL计算,以11、及业务标签构建,都在这一步完成。而对于机器学习类的平台,智能模型的训练也可以归到数据提炼中去。数据服务与应用:经过规律计算完成后的数据,蕴含了大量的信息,是指导决策的重要依据。通过供应在线数据服务或者应用的方式,使得数据价值能够自动、高效落地。我们常见的数据APkBl报表、Al模型的在线应用都属于这一范畴。数据治理:数据治理严格来说并不能算作数据生命周期中的某一环,数据治理是贯穿整个数据生命周期的。为保证企业内各个业务领域数据工作的有序开展,就必需对数据进行统一的规划,包括数据资产、数据标准、数据质量、元数据、数据平安与隐私等,我们将这些工作统一划归到数据治理的范畴之中。从数据产12、生到数据价值落地的过程中,数据的信息密度越来越高,其中蕴含的学问也越来越丰富。虽然并不是全部的企业在数据工程落地过程中都需要对数据全生命周期进行分析与管理,但是假如不去分析数据的全生命周期,很简单导致一叶障目不见泰山,那么就必定会消失企业对数据认知不足、规划不清楚的状况。通过分析企业数据全流程,企业可以识别薄弱环节,抓住重点环节,因地制宜的制定数据工程落地规划,所以说数据全流程分析,是每个企业在进行数据工程落地之前的必修课。图:企业数据流转链路洞见数据服务与应用学问数据提炼数据预处理预处理数据数据数据收集数据产生原始信息数据高信息密度低随着数据重要性的不断提升、数据在企业内的13、流转越来越常见。数据工程则是关心企业高效地挖掘数据价值,持续地赋能业务增长,加速数据到资产的升华过程的最佳实践。数据工程概述数据在企业流转的问题数据在企业内部流转会经受多个阶段,而每个阶段之间还存在着各种各样的问题。数据是用来产生价值、为企业供应便利的,因此企业的进展阶段、企业对于数据使用或产生价值的诉求也有不同,想要解释清晰数据在企业流转的问题,就不能忽视企业自身的诉求和特征。接下来我们将绽开来描述这些阶段以及区分。首先,我们先来看企业通过数据想干什么,企业可以分成以下四个阶段:通过数据描述企业正在发生什么,清晰地了解企业的数据形态。通过数据回答企业为什么正在发生这些变化,探明企业遇14、到的问题、进展的变化都是由什么引起的。通过数据关心企业在遇到问题时进行示警,明确下一步行动的方向在哪里。通过数据关心企业应对数据展现出的业务状态,动态调整投入以确保得到预期的产出。从上述描述中不难看出,在不同的阶段,数据都可以为企业带来价值,这些价值产生的过程就是数据在企业内部流转的过程。为了便利理解,我们以做报表为例看看数据的流转都经受了哪些过程,信任不少数据从业者都经受过类似"手工Excel维护表格只需要2小时,为什么要花3天时间做报表的灵魂拷问,这里的2小时也好3天也罢要从实际的诉求动身,仍有企业仅需手工维护的方式就能满意诉求,因此我们也并不推举为了做报表而做15、报表,这里要争论的是对数据呈现过程自动化、低廉运维成本、数据可信、报表直观可用有诉求的企业。图:报表实现过程中的数据流转报如表何展更示直形观式需要许多背后的工作数找据谁有修变改化了出自了动问预题警如何恢保复是后相犹如何数确据构需建要这哪张些报数表据构找建谁这要张数报据表同解一不个一指致标理数何据自出动错恢了复如看似一个简洁的诉求我要做一个报表数据成品数据服务与应用数据加工数据预处理数据提炼数据收集数据“原料这接些用数吗据能直构据建是报怎表么的来数的构数建据这在张哪报里表如上图所示,数据从原料到成品并非是简洁的将数据接进来、展现出去,而是将数据自动化地从系统中猎取到、根据业务逻16、辑对数据进行补全和纠错、通过统一的各部门都认可的计算规律来进行计算、用更友好和直观的方式将数据呈现出来。数据企业流转的过程中,收集、处理、计算、使用这几个核心的步骤仅会由于企业对于数据不同的诉求而导致这四个步骤实际处理起来的简单程度有所区分。由于企业的实际状况不同而导致这四个步骤实际处理起来有所倾斜,但总的来说并不会由于这些区分导致其中某个步骤被舍弃。因此,企业收集、处理、计算、使用的过程有快慢之分,这快慢之分的核心就是企业在数据工程实践好坏的区分。什么是数据工程正如前面提到的,数据工程能够加速数据接入、处理、计算、使用的全流程,但是对数据工程究竟是什么缺少一个清楚的描述。要解释数据工程是什么17、,就需要从软件工程说起。从软件开发消失到软件开发逐步规模化的过程中,IT从业者们一点点积累下关于需求、设计、实现、测试、运维等方面的工作最佳实践,因此我们不难看出软件工程并不仅仅是软件开发,而是一套体系。这套体系不仅仅适用于应用开发,也同样适用于数据开发,因此数据工程是软件工程的一部分。这里为了便利大家理解,我们将软件工程从产出物类型的角度划分为数据类和应用类。对于数据类产出物的需求到运维的规模化全过程体系就是本文中争论的数据工程。数据工程包含了需求、设计、构建、测试、维护演进等阶段,涵盖了项目管理、开发过程管理、工程工具与方法、构建管理、质量管理,是一套为了应对规模化生产和使用数据、为业务18、供应数据支撑,最终产生价值的体系。同时定义了在落地实施过程中如何确保需求精确性、设计敏捷性、开发便捷性、维护低成本性、架构可修改性等保障性能、质量的原则。数据工程是一套体系数据工程是用来加速数据到价值过程的规模化最佳实践数据工程是软件工程的一部分数据工程不是传统软件工程在数据领域的简洁重现总的来说,正是由于数据有着不同的种类、不同种类数据处理有着不同的特征,让我们对上述定义再换一个角度来端详:数据工程价值数据工程并不是单一的大数据系统或平台的落地,因此数据工程的价值并不能仅从一般的信息系统的角度来看。数据工程的好与坏,往往与企业的组织架构、团队协作、实施力量等息息相关。而针对企业所处数19、字化转型的不同阶段、所处行业业务特点以及企业本身组织架构,数据工程价值凸显的点也往往不尽相同。我们自顶向下具体分析了优秀的数据工程能够在不同层级给企业带来的价值,便利企业找到自身在数据利用上的主要冲突。在企业层面,数据工程的实现从业务动身,在企业层面打造高响应力且更加才智的业务,加速从数据到价值的服务产生过程。数据工程化的实现,能将分散在企业内部各业务系统中的信息流数据进行融合、打通,对内实现共享的数据入口进行统一化、标准化。同时,标准化的入口支持企业外部系统或数据的快速接入。通过收集、汇总、清理、结构化、存储,达到数据治理的效果,并实现数据溯源。它能将企业进展不同阶段的分散数据进行20、汇聚,将数据价值构建成各种服务支撑业务,对外能够更好地服务企业客户,实现真正的以客户为中心。最终数据工程可以挖掘数据的价值,关心企业创新业务、提高效率,将数据从成本变成资产。在团队层面,数据工程可以实现削减内耗,提升效率,解决数据开发与数据产生价值的协作问题。可以在满意企业各部门自身需求的同时,统一数据标准、解决数据孤岛问题,降低各业务的联动成本,供应组织内部的协作,支撑业务快速响应。可以更科学地构建整体架构,实现基于中台的数据统一,真正为业务创新和服务带来价值。在人员层面,良好的数据工程实践可以降低人员成本,解决许多企业的开发人员、技术人员没有数据力量的问题。通过集中地对跨部门数据的采集21、融合、治理、组织管理、智能分析,可以大大缩减人员规模,降低人力成本。全都化的工程实践可以提升开发质量阈值,降低开发人员的理解难度,解放运维工作,让开发人员更专注于业务价值。数据工程的价值体现需要有价值体系来度量,而这套价值度量体系则依靠于数据工程在落地实践方面的详细内容,因此接下来将具体绽开介绍数据工程落地实践。企业层面团队层面减内收耗协作统一标准提效升率协作快速响应人员层面降人低力成本降人低员规模提开升发质量图:数据工程的价值体现打通数据数可据追溯快服速务供应挖价掘值数据辅业助务创新提升效率数据工程在企业内部带来不同层面的价值,做好数据工程、让数据工程能够在企业内落地,形成匹配企业特征的能22、力体系是关键。数据工程落地与力量建设图:数据工程价值观及原则全开功发能团队协作的端到端根交据付数结据果产生的价值作为根指物结标果数计据算接数入量、等数作据为处交理付、按分数段据开处发理流程的按设技计术堆叠的限于当前的简洁的文档交接我们提倡通过统一的工作标准和流程提升团队协作效率工具是学问沉淀的详细表现,有效的工具能够提升规模化开发效率欣然面对需求变化,准时调整交付策略数据治理需要渗透到整个数据工程落地过程当中人是数据工程落地的核心,要注意人员培育、学问传承数据工程价值观赛过赛过按来业的务设域方案分的面对未赛过团队的学问积累和传承赛过数据工程的条原则功能设计与开发要从价值交付考量合理的架23、构设计不仅指解决现有问题,还能够在肯定程度解决将来问题数据工程落地在面对业务协同性不够、业务决策路径不清楚、组织架构可能导致的部门墙等诸多问题上,我们期望将企业多业态、多链路中所涉及的不同业务数据汇聚、打通全产业链、构建业务生态,打造以数据为中心的价值创新产品,通过数据去产生新洞见、发觉新业务、打造新产品、验证新想法,从而驱动业务的快速迭代。对于企业来说,我们推举三步走战略:数据愿景对齐、数据工程落地实施、数据持续运营。三步自顶向下,先确定总体目标,再进行目标拆解,由目标制定详细措施,再到详细工程实践,最终以持续运营手段,完成数据从业务中来,再到业务中去的完整价值闭环。数据愿景对齐作用主24、要是明确企业数据愿景,保证后续步骤不偏离企业本身的价值实现,主要包括业务场景价值的的探究识别、优先级评估、数据架构设计、技术架构设计等。落地实施主要包括数据平台的建设落地,如数据的采集、清洗、存储、计算、测试等。持续运营则是为了保证在数据平台建成后能够准时响应变化并做出调整,源源不断从数据抽取价值来反哺业务,最终实现愿景。愿景对齐落地实施持续运营图:数据工程落地三步走战略战略愿景数据梳理数据架构设计持续运维合理规划数据接入数据处理持续优化有效验证数据测试数据平安持续探究力量复用与保障愿景对齐回顾Thoughtworks在对上百家企业进行数字化转型的询问与交付中,我们发觉由于所处行业特25、色、企业组织架构、数字化转型成熟度以及企业规模等不同,导致企业对于数字化转型的愿景并不相同,有的企业数据愿景注意数据应当被如何共享、数据应当如何协作使用;有的企业更关注数据服务如何更快、更好、更智能的服务于业务系统;而有的企业则更关怀数据质量如何保证、数据标准是否统一、数据管理如何更简洁高效等问题。因此在前期数据战略中拉齐愿景就显得尤其重要,不然会舍本逐末,过分追赶于解决某些详细问题,忽视了企业宏观目标的把控。在进行数字化转型过程中,前期的战略规划预备不足或设计不合理,都会导致后续落地无法正常进行。在过去的数据战略中,通常解决的是企业数据管理问题,目标是服务于IT战略,让数据管理更规范,26、服务于企业管理,而不关怀客户。因此其核心目标就是管理好数据,如何进行数据的清洗以提升数据质量,如何进行数据的管理认证以确保数据的权威性和有效性,如何对数据进行权限管理掌握以解决什么样的数据可以被什么角色什么部门进行使用等,所以过去更多的是从企业内部视角来做数据战略。同时,传统的数据战略通常是以管理大而全的数据资产动身,围绕企业内部组织、流程规范、规章制度,以数据现状为基础进行战略规划,但往往会面临以下问题:缺乏科学方法论:规划制定是个简单的过程,需要团队有全局观看力量以及具体方案制定力量,而往往企业内部由于数据团队与业务团队相对割裂,懂数据的人不懂业务,懂业务的人不懂数据。在短时间27、内没有相关赋能者的时候,如何应用科学方法论就显得及其重要了。规划不合理:在数据工程落地规划过程中,业务价值实现是最终目的,技术方案落地只是手段,规划肯定要分清主次。由于落地过程规划不合理,导致企业了花费大量人力物力,可是投资回报却差强人意,整个价值链不完整,导致半途而废。缺乏验证手段:全局的、端到端的掩盖整个企业的规划是个浩大的系统工程,不仅周期长,而且短期内很难看到效果,很多企业在建设过程中缺乏急躁导致最终放弃,或者虽然有了阶段性成果,但由于缺乏统一衡量标准,价值无法验证,目标也只能是空中楼阁。通过上述问题我们不难发觉,企业需要科学方法论负责统筹规划,落地规划拆分成实施步骤,验证手段则用28、来评判结果,所以应对上述问题的思路就是愿景对齐。图:愿景对齐的四个步骤价值场景探究优先级排序架构设计制定方案.业务愿景统一.数据全景探究.价值度量.技术架构.整体规划路线设计.现状评估.业务痛点评估.排列组合探究业务,工具&技术分析成本.数据架构.数据治理规划.里程碑设计.优先级设计.价值场景.算法选型业务价值框架.技术可行性.平安架构.数据运营策略.交付方案.项目启动会愿景统一,业务价值的场景探究。愿景对齐的第一步要素就是价值场景的探究与识别,通过定义、统一业务价值度量框架来识别业务价值场景。这一步面临最大的挑战是业务和技术的鸿沟,由于业务人员在业务价值场景探究阶段不清晰哪些技术会更好的29、解决问题或产生哪些价值场景,从而会局限在自己的认知中,很难探究出业务与技术融合的、可落地的高价值场景,而技术人员对业务不了解也会导致探究的价值场景不被业务认可。那么如何更好的将业务和技术结合以探究出更多更有价值的业务场景就是核心关键。详细来讲,通常先梳理当前数据现状,如当前数据模型有哪些、数据质量如何,业务价值场景是否有数据支撑;再梳理数据要给谁使用,通过分析不同数据角色的数据用户旅程,梳理出数据用例、数据价值流。从而在业务场景中将数据的消费方,生产方及数据全生命周期的蓝图构建出来,再引入技术人员的技术手段,对上述梳理数据的排列组合来进行创新性的头脑风暴,即围绕业务愿景对物理世界的30、业务构建出数据全景,通过业务模型之间的组合发散业务场景,从而产生创新的业务价值场景。在场景探究结束后,需要有对应的业务价值评估体系来对场景进行业务评估,基于解决的痛点和产生的价值权重来进行价值评估。通常,探究出的业务价值场景需要包含场景的背景、价值点、所涉及的用户、需要什么样的力量、用户旅程、所涉及的实体、风险等信息。价值、成本、可行性的优先级排序评估。在业务价值场景探究完成后,接下来就需要评估数据质量、技术可行性、业务痛点,帮助战略目标来产生价值优先级排序策略。因此在对优先级的评估阶段,是从可落地的视角动身,以防止前期探究得出的业务场景变成空中楼阁。在业务价值场景探究和优先级排序完成后,需要对业务、系统、痛点、数据成熟度等一系列的现状产出,从而为后续的架构设计供应输入