2022工业大数据分析指南.docx
《2022工业大数据分析指南.docx》由会员分享,可在线阅读,更多相关《2022工业大数据分析指南.docx(75页珍藏版)》请在课桌文档上搜索。
1、工业大数据分析指南2021目录序言I1 IjEvC*11.1 工业大数据分析的概述11.1.1 工业大数据分析的概念11.1.2 工业大数据分析的相关技术21.1.3 工业大数据分析的基本过程21.1.4 工业大数据分析的类型41.1.5 工业大数据分析价值51.1.6 工业大数据分析支撑业务创新61.2 工业大数据分析的特殊性81.2.1 从工业数据分析到工业大数据分析81.2.2 工业大数据与商务大数据分析101.2.3 工业大数据建模的难点111.3 工业数据分析中的常见问题121.3.1 业务和数据理解不当导致的失误121.3.2 建模和验证过程的失误1213.39(132. 工业大数
2、据分析框架142.1 CRISP-DM模型142.2 CRISP-DM模型的落地难点152.3 工业大数据分析的指导思想163. 业务理解1931ic、I:、上11.1.1 I:191.1.2 工业系统的功能描述201.1.3 系统功能到技术原理的理解201.1.4 系统功能与业务场景的关联213.2 理解数据分析的需求213.2.1 工业过程中的数据分析需求213.2.2 数据分析的价值需求223.2.3 具体业务场景的数据分析需求233.2.4 数据分析需求的梳理方法233.3 工业数据分析目标的评估243.3.1 工业知识的理解243.3.2 工业知识的合用性243.3.3 专业领域知识
3、的融合253.4 制造的全生命周期264.数据理解274.1 数据来源274.1.1 业务与数据的关系274.1.2 离散仃业的数据源284.1.3 流程行业的数据源284.2 数据的分类及相互关系304.2.1 工业数据的分类304.2.2 数据间的关联关系314.3 数据质量324.3.1 数据质量的定义32Il4.3.24.3.3数据质量的组成要素数据质量的影响因素33335355.1业务系统的数据准备355.2工业企业的数据准备365.3物联网的数据准备385.4建模分析的数据准备395.4.1数据预处理概述395.4.2数据异常处理405.4.3数据缺失处理415.4.4数据归约处理
4、416.数据建模426.1模型的形式化描述436.1.1基本描述436.1.2模型的深入表述436.1.3对建模思想的影响456.2工业建模的基本过程466.2.1建模的基本思路466.2.2模型融合的方法466.2.3模型的优化过程476.3工业建模的特征工程486.3.1数据初步筛选486.3.2特征变换486.3.3特征组合496.3.4特征筛选50Ill*35*jdEI*56.4工业数据分析的算法介绍516.4.1 传统的统计分析类算法516.4.2 通用的机器学习类算法526.4.3 针对旋转设备的振动分析类算法526.4.4 针对时序数据的时间序列类算法536.4.5 针对非结构化
5、数据的文本挖掘类算法546.4.6 统计质量控制类算法546.4.7 排程优化类算法557. 模型的验证与评估5571矢口口土557.1.1 知识的确定性与准确性557.1.2 知识的适用范围567.1.3 知识的质量与可靠性567.2 传统数据分析方法及其问题567.2.1 基于精度的验证方法567.2.2 精度验证方法的局限性577.2.3 解决验证问题的传统方法577.3 基于领域知识的模型验证与评估587.3.1 对适用范围的评估587.3.2 对精度的评估607.3.3 场景的综合评估617.3.4 模型的迭代评估618.模型的部署628.1模型部署前应考虑的问题8.1.1模型部署对
6、工作方式的改变628.1.2模型部署的标准化与流程化38.1.3模型部署的自动化与智能化38.2实施和运行中的问题648.2.1数据质量问题648.2.2运行环境问题648.2.3精度劣化问题58.2.4范围变化问题658.3问题的解决方法658.3.1数据质量问题658.3.2运行环境问题668.3.3精度劣化问题668.3.4范围变化问题668.4部署后的持续优化679.展望未来671. 工业大数据分析概论1.1 工业大数据分析的概述1.1.1 工业大数据分析的概念工业大数据分析是利用统计学分析技术、机器学习技术、信号处理技术等技术手段,结合业务知识对工业过程中产生的数据进行处理、计算、分
7、析并提取其中有价值的信息、规律的过程。大数据分析工作应本着需求牵引、技术驱动的原则开展。在实际操作过程中,要以明确用户需求为前提、以数据现状为基础、以业务价值为标尺、以分析技术为手段,针对特定的业务问题,制定个性化的数据分析解决方案。工业大数据分析的直接目的是获得业务活动所需各种的知识,贯通大数据技术与大数据应用之间的桥梁,支撑企业生产、经营、研发、服务等各项活动的精细化,促进企业转型升级。工业大数据的分析要求用数理逻辑去严格的定义业务问题。由于工业生产过程中本身受到各种机理约束条件的限制,利用历史过程数据定义问题边界往往达不到工业的生产要求,需要采用数据驱动+模型驱动的双轮驱动方式,实现数据
8、和机理的深度融合,能较大程度去解决实际的工业问题。图1.1工业数据分析多领域交叉示意图1.1.2 工业大数据分析的相关技术近年来,大数据的兴起有两种起因:传统业务的发展遭遇数据存储量大、采集速度频率快、结构复杂等瓶颈问题,需要采用新的技术来解决,即“大数据平台技术”,如时序数据采集技术、海量数据存储技术等;另一种起因是随着数据存储量的增大和处理能力的增强,催生了新的应用和业务,即“大数据应用技术”,如智能制造、现代农业、智能交通等。下图是工业大数据系统参考框架,从底至上分别是由工业大数据平台技术到工业大数据的应用技术。图1.2工业大数据分析软件栈总体上看,“大数据平台技术”关注的主要偏重IT技
9、术,而“大数据应用技术”关注的重点主要是业务和领域知识。而大数据分析技术则是深度融合这两类技术知识,并结合机器学习技术、产品分析技术等数据分析技术,去解决实际业务问题的技术统称。1.1.3 3工业大数据分析的基本过程工业数据分析的基本任务和直接目标是发现与完善知识,企业开展数据分析的根本目标却是为了创造价值。这两个不同层次的问题,需要一个转化过程进行关联。为了提高分析工作的效率,需事先制定工作计划,如下图所示。图1.3工业数据分析任务的工作方案与探索路径数据分析起源于用户的业务需求,相同的业务需求会有多个可行方案,每一个方案又有若干可能的实现途径。例如,面对减少产品缺陷的业务需求,可以分成设备
10、故障诊断和工艺优化等方案。而设备诊断又可进一步根据设备和机理的不同,分成更明确的途径,如针对特定设备特定故障的诊断。遇到复杂问题,这些途径可能会被再次细分,直至明确为若干模型。首先了解到的输入输出关系,如特定参数与设备状态之间的关系,这些关联关系即为知识的雏形,然后需要寻找适当的算法,提取和固化这些知识。知识发现是个探索的过程,并不能保证每次探索都能成功,上述计划本质上是罗列了可能的方案。只要找到解决问题的办法,并非每一条方案或途径都需要进行探索。在不同的途径中,工作量和成功的概率、价值成本都是不一样的,一般尽量挑选成功概率大、工作量相对较小、价值大成本低的路径作为切入点,尽量减少探索成本。在
11、项目推进或者探索的过程中,还会根据实际的进程,对预定的计划及顺序进行调整。计划制定和执行过程,本质上体现了领域知识和数据分析知识的融合。其中,方案和途径的选择,要兼顾业务需求和数据条件。这就是第三到第五章讨论的问题,而算法、模型、验证等相关问题,则放在第六章和第七章讨论。1.1.4工业大数据分析的类型根据业务目标的不同,数据分析可以分成四种类型:描述型分析:描述型分析用来回答“发生了什么”、体现的“是什么”知识。工业企业总的周报、月报、商务智能(BI)分析等,就是典型的描述型分析。描述型分析一般通过计算数据的各种统计特征,把各种数据以便于人们理解的可视化方式表达出来。诊断型分析:诊断型分析用来
12、回答“为什么会发生这样的事情”o针对生产、销售、管理、设备运行等过程中出现的问题和异常,找出导致问题的原因所在,诊断分析的关键是剔除非本质的随机关联和各种假象。预测型分析:预测型分析用来回到“将要发生什么?”。针对生产、经营中的各种问题,根据现在可见的因素,预测未来可能发生的结果。处方型(指导型)分析:处方型(指导型)分析用来回答“怎么办”的问题。针对已经和将要发生的问题,找出适当的行动方案,有效解决存在的问题或把工作做得更好。业务目标不同,所需要的条件、对数据分析的要求和难度就不一样。大体上说,四种问题的难度是递增的:描述性分析的目标只是便于人们理解;诊断式分析有明确的目标和对错;预测式分析
13、,不仅有明确的目标和对错,还要区分因果和相关;而处方式分析,则往往要进一步与实施手段和流程的创新相结合。同一个业务目标可以有不同的实现路径,还可以转化成不同的数学问题。比如,处方型分析可以用回归、聚类等多种办法来实现,每种方法所采用的变量也可以不同,故而得到的知识也不一样,这就要求要对实际的业务问题有着深刻的理解,并采用合适的数理逻辑关系去描述。1.1.5工业大数据分析价值工业大数据分析的根本目标是创造价值。工业对象的规模和尺度不同,价值点也有所不同,数据分析工作者往往要学会帮助用户寻找价值。价值寻找遵循这样一个原则:一个体系的价值,决定于包含这个体系的更大体系。所以,确定工作的价值时,应该从
14、更大的尺度上看问题。对象不同,隐藏价值的地方往往也不尽相同。下面是常见的价值点。1)设备尺度的价值点船舶、飞机、汽车、风车、发动机、轧机等都是设备。设备投入使用之后,首先面对的就是如何使用,包括如何使用才能有更好的性能或更低的消耗、如何避免可能导致造成损失的使用;其次是如何保证正常使用,也就是如何更好更快更高效地解决设备维修、维护、故障预防等问题。除此之外,从设备类的生命周期看问题,分析下一代设备进行设计优化、更方便使用等问题。2)车间尺度的价值点按照精益生产的观点,车间里面常见的问题可以划分为七种浪费:等待的浪费、搬运的浪费、不良品的浪费、动作的浪费、加工的浪费、库存的浪费、制造过多(早)的
15、浪费。数据分析的潜在价值,也可以归结到这七种浪费。一般来说,这七种浪费的可能性是人发现的,处理问题的思路是人类专家给出的。人们可以用数据来确定他们是否存在、浪费有多少,并进一步确定最有效的改进方法。3)企业尺度的价值点除了生产过程,工业企业的业务还包括研发设计(创新)、采购销售、生产组织、售后服务等多方面的工作。相关工作的价值,多与跨越时空的协同、共享、优化有关。比如,把设计、生产、服务的信息集成起来;加强上下级之间的协同、减少管理上的黑洞;把历史数据记录下来,对工业和产品设计进行优化;把企业、车间计划和设备控制、反馈结合起来等等。随着企业进入智能制造时代,这一方面的价值将会越来越多。然而,问
16、题越是复杂,落实阶段的困难越大,应在价值大小和价值落地直接取得平衡。4)跨越企业的价值点跨越企业的价值点包括供应链、企业生态、区域经济、社会尺度的价值。这些价值往往涉及到企业之间的分工、协作、以及企业业务跨界重新定义等问题,是面向工业互联网的新增长点。1.1.6工业大数据分析支撑业务创新一般来说,工业大数据分析服务于现有业务,但越来越多的企业开始把这一工作作为业务创新、转型升级的手段。两类工作的性质不同,前者重点在如何进行数据分析,后者重点是如何应用数据分析。支撑企业的转型升级、业务创新是工业大数据最重要的用途之一,但是从转型升级的尺度看问题,工业大数据分析只是一种技术支撑手段,利用该技术手段
17、之前,需要梳理清楚数据分析技术和目标之间的关系。首先耍关注的是业务需求什么,而不是能从数据中得到什么,反之,思维就会受到较大的局限,甚至南辕北辙。用大数据推动业务创新时,需要确认几个问题:想做什么(业务目标)、为什么这么做(价值存在性)、打算怎么做(技术线路、业务路径)、需要知道什么(信息和知识,数据分析的目标)、怎么才能知道(数据分析过程)。由此观之,推动企业的业务创新和优化(做什么、怎么做)是个大目标,而具体的数据分析则只是一个子目标(怎么才能知道)。两类目标之间的尺度是不一样的。对于具体的问题,数据分析不仅要关注如何得到小目标,还要结合业务需求,将大目标分解成子目标,也就是确定“需要知道
18、什么。从数据分析师的过程来说,子目标的实现是战术问题,子目标的设定则是战略问题。它们都是数据分析团队需要面对的难点所在。如前所述,数据分析是个探索的过程。而数据分析的子目标(想知道什么)能否实现取决于数据的条件,数据条件不满足时,有些子目标是无法满足的。而数据条件是否满足,往往需要在探索的过程中才能确定下来。同时,如果子目标无法实现,人们可能需要围绕业务需求,重新设置数据分析的子目标、甚至业务子目标,如此会降低数据分析的效率。总之,工业大数据分析,必须要从业务高度上看问题,才能找准工作定位。以上的想法,可以用下面的图来表示:图1.4工业大数据价值创造的基本过程1. 2工业大数据分析的特殊性进入
19、大数据阶段,数据本身的变化是最基本的,在此基础上引发工作方法和价值体现的改变。对于数据的变化,非工业领域往往强调数量变化,但在工业领域,数据变化的重点更是数据完整性和质量的提升。随着数据完整性和质量的提高,人们能从不同的侧面观察对象和过程,从而得到更加可靠、更加精确、应用范围更大、涉及领域更多的分析结果,从而为工业大数据的应用奠定了基础。所以,工业大数据分析方法的重点,是如何利用数据条件的改善,得到质量高的分析结果。这使得工业大数据分析方法不同于传统的数据分析,也不同于商务大数据分析。此外,工业场景的边界都有专业领域的机理进行约束,所以工业大数据的分析注重数据模型和机理模型的融合,它的重要特征
20、是数据与机理的深度融合。1.1.1 从工业数据分析到工业大数据分析工业数据的分析或知识挖掘是学术界和工业界研究了多年的问题,诸多算法的基本思路都类似。进入大数据时代以来,由于数据和处理量的暴增,人们不得不采取各种并行算法和分布式处理技术,以提高数据处理的效率。换句话说,工业数据分析是“本”,大数据分析技术是“术”。由于本白皮书重在“工业”特色,上述通用技术不是本文的重点。与此同时,数据量更大、来源更广泛、记录更完整、种类更多样,给数据分析工作带来了新的机遇。无论复杂的算法(如深度学习)还是简单的算法(如线性回归),都有可能带来过去无法企及的效果。人们甚至更乐于采用一些简单的算法。但在大数据的条
21、件下,这些简单算法的有效性却大大提高了,能帮助人们得到可靠性更高、适用范围更大的模型。引发这些变化的原因包括:便于模仿(场景下的模仿):大数据常常是全体样本,而不是抽样。在这个前提下,就可以根据历史上成功或者失败的案例,模仿成功的做法、避免失败的做法,而不必通过理解规律来指导行动。这使得近邻算法等简单算法可以起到很好的效果。便于检验:当已知样本不能涵盖各种复杂的情况和场景时,数据模型很难有较强的泛化性。在大数据的背景下,这种现象可能会有本质性的好转,从而得到泛化性高的模型。视角全面:数据来源广泛时,有条件从不同的角度观察对象、分析验证,也有更好的条件辨别和剔除虚假的现象。这些都有利于建立可靠性
22、极高的模型、甚至可能挖掘出新的科学规律。如此,就将工业大数据分析的应用带入一个巨大的蓝海,人们有条件让数据分析工作更加规范,明显区别于传统的数据挖掘或知识发现。但是,相关的条件不是天然具备的,需要在数据的完整、规范、质量等方面做更多的基础性工作。我们在实践中认识到工业大数据分析的瓶颈难点,往往不是计算机存储和处理数据的能力,而是数据关联关系的复杂性。这种复杂性使得传统的数据分析方法难以奏效,无法高效提炼出质量更高、价值更大的知识。如果没有合适的方法,面对工业大数据价值的蓝海时,就会束手无策、坐等机会的流失。要解决这类问题,不能仅仅停留在算法层面,而是必须借鉴工程思想和方法,这是其挑战所在。1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 工业 数据 分析 指南
链接地址:https://www.desk33.com/p-1082670.html