面向人工智能的数据治理实践指南(1.0).docx
《面向人工智能的数据治理实践指南(1.0).docx》由会员分享,可在线阅读,更多相关《面向人工智能的数据治理实践指南(1.0).docx(40页珍藏版)》请在课桌文档上搜索。
1、一、人工笆能数据治理概念界定(一)数据治理的发展1 .数据治理的发展数据治理的概念起源于企业管理领域,关于数据治理的定义研究众多,但由于业界权威研究机构、研究学者以及国内外标准组织研究视角不同,尚未形成较为统一的认知。国际数据治理研究所(DG1.)提出数据治理的定义为“一个根据既定模型针对信息相关过程的决策权和职责分配体系梅宏院士在数据治理之论一书中提出数据治理的核心内容包括以释放数据价值为目标、以数据资产地位确立为基础、以数据管理体制为核心、以数据共享开放利用为重点、以数据安全与隐私保护为底线。国际数据管理协会(DAMA)提出的数据治理概念为“在管理数据资产过程中行使权力和管控活动,包括计划
2、、监控和实施。”此外,在国际标准中,最早出现的数据治理(daiagOVCrnaneC)术语定义源自IS0/TR14872:2019Hea1.thinformaticsIdentificationofmedicina1.productsCoreprincip1.esformaintenanceOfidcniificrsandterms,将其定义为“以管理信息的质量、一致性、可用性、安全性和可用性为重点的过程”,并强调该过程与数据所有权和管理的概念密切。从上述定义的内容来看主要对信息质量的管理,而后有国际标准从IT治理、数据资产管理等视角定义数据治理,逐渐凸显数据治理应具有统筹协调、权责分配、资源
3、调度等核心能力,涉及数据质量、数据安全、数据合规等关键治理内容。在国家标准中,最早出现的数据治理术语定义源自GBT35295-2017信息技术大数据术语,将其定义为“对数据进行处置、格式化和规范化的过程。“,从定义内容来看主要是从数据管理视角来理解数据治理,而后有国家标准从数据管理权利、管控活动等视角定义数据治理,逐渐凸显数据治理具有过程性、集合性以及统筹与协调管控的特征。结合通用场景下数据治理定义的特征来看,数据治理的核心治理内容主要围绕数据质量、数据安全、数据合规等内容展开,强调要围绕治理内容进行统筹协调、权责分配、资源调度等。2 .数据治理的三个阶段第一阶段,20世纪80年代,随着数据库
4、技术的发展,企业开始意识到数据的重要性。但当时数据管理主要依靠数据库管理系统(DBMS),直到1988年由麻省理工学院的两位教授启动了全面数据质量管理计划(TDQM),可以认为是数据治理最初的雏形。第二阶段,伴随着数据仓库的建设,主数据管理与商务智能平台的实施,国内也逐步开始接受并利用数据治理的概念进行推广实践。第三阶段,21世纪20年代,以大模型为代表的生成式模型成为推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新的挑战和需求。B-mK-DBMS01第二舱段EDW02m.CMbM(际Bmm国年IOa务手来论文OMRg然f中开触观一IttCtt的却M*g1.0AMA(KXVttKU
5、1.911Qg.OMUMOMKWITK-ttff9S(10)发布.mutOR和MIewrft6.43UOfnIEttasr-三(10)xWHinaAG1.03MAxmumax三Mrs*rrtMtnM.*B,TJtiAIMBfiOJtMm.对个於em产事WMM.Mn隼.WiAIWWAKW三OW以JB图为中b时ttKBtt!f出手.3 .大模型时代数据治理的难题随着人工智能技术的飞速发展,大模型已成为推动A1.应用创新的重要驱动力。这些模型依赖于海量的数据、强大的算力以及复杂的算法参数来支撑其庞大的智能体系。在这一过程中,数据可谓是大模型的“灵魂”,塑造了其独特的“个性”。大模型的智能程度与“个性
6、”表现,促使人类社会生产力迈上新的台阶,同时也带来了更大的挑战与危险。1)数据“高量低质”数据是人工智能技术的基石,是大模型训练和推断的原材料已成为共识。然而,数据的数量和质量并不总是成正比。在来源上,模型往往依赖于从互联网、社交媒体和公开数据库中采集的数据进行训练,这些数据的来源和质量无法得到有效控制。在管理上,我们面对多模态、非结构化数据缺乏理论与技术的支操来客观评价数据质量的高低。这些问题需要数据治理来解决,但传统的数据治理理论与实践更多的适配于面向B1.时代的结构化数据,在人工智能所需要的结构化、半结构化、多模态数据上较为空白。为了应对这些挑战,开发出更负责任、更可控的人工智能应用,面
7、向人工智能的数据治理(DG4AI,DataGovernanceforArtificia1.Inte1.1.igence)概念应运而生,它旨在通过创新的数据管理策略和技术,解决A1.发展中的痛点问题。2)安全与隐私泄露频发随着大模型对数据的依赖性日益增强,数据安全和隐私保护已成为核心问题.在大模型的全链路研发、管理和应用过程中,其各个阶段都存在着数据安全与隐私的问题和风险,包括但不限于数据的过度采集、样本的偏差、数据的投毒等情况,存在危害个人、企业甚至社会的安全与利益的巨大风险。3)偏见与歧视随处可见在科技E速发展的背景下,人工智能伦理和道德的关注程度及应对措施尚未完全跟上技术的步伐。自然语言处
8、理技术的滥用案例日益增多。其中包括压制不同意见、侵犯隐私与匿名性等。随着人工智能技术驱动的应用逐步走向产业化,潜在的道德伦理问题成为备受关注的焦点。这些伦理问题可能源于系统意外产生,也可能是恶意行为者蓄意开发。常见的负面后果包括因人口统计偏见而导致的不公平问题、面向不同用户群体的服务性能不平等、对话者需求的错误识别,以及有害内容与刻板印象的传播等。此外,许多应用只注重信息内容,对文本作者及其信息的社会意义缺乏足够的意识与关注。DG4AI的提出,是对现有数据治理体系的重要补充。它强调了数据治理在A1.研发全生命周期中的重要性,并指出了实现高质量A1.应用的关键路径。这一概念的实践,需要跨学科的合
9、作、政策的支持以及技术的创新,以确保A1.技术的健康发展,并最大化其对人类社会的积极影响。(二)面向人工智能的数据治理的定义对于面向人工智能的数据治理定义建立于对人工智能和数据治理的共同理解之上,因此在这里我们先对几个关键概念进行明确:人工智能:人工智能(A1.,Artificia1.Inte1.1.igence)是一个与认知科学/心理学、哲学、语言学和数学等学科进行了知识融合的计算机科学,当前由于对于智能的定义存在困难,在学界并未有一个统一的定义,但是从商业的角度来看,A1.意味着使计算机能够执行各种高级功能(包括查看、理解和翻译口语和书面语言、分析数据、提出建议等能力),达到帮助替代或超越
10、人类的工作的能力。数据治理:根据IBM、标准要求、数据治理协会等研究(见附录-)综合来看,数据治理主要是从组织层面对数据进行管理。其目的在于确保数据的质量安全性。可指代为企业数据价值化开展的一系列具体性工作,也可指代一系列数据管理活动的集合。由此,我们可以认为面向人工智能的数据治理(DG4AI,DataGovernancefor/Xrtificia1.Inte1.1.igence)是指在人工智能应用中管理和控制数据的过程与实践,用以确保数据的质量、可竟性、安全性与合规性,数据能够被准确地用于训练和部署A1.模型,同时保护数据的隐私和安全。面向人工智能的数据治理()(4,DataGovernan
11、ceforArtificia1.Inte1.1.igence)指在人工W爱应用中越理和控制InK的过程与实用以确保依据的质量、可靠性.安全住与合规性,散据能弊根准地用于训练和SMIA1.模叟,同的保护取盛的饴口。仪和工Wtt1下依MtmsiZ森本的K化与三ffAJttMtStm9fiMftMXWffOEMm*XJWtt.MDBIaHMJI安全分新y4(三)面向人工智能开展数据治理的主要阶段与对象从组织层面开展数据治理工作方面来看,面向人工智能开展数据治理的工作,主要包含以卜四个阶段:1.顶层设计阶段:o治理目标:确立数据治理的总体框架和战略目标,确保数据治理与组织的整体战略相匹配。o工作篁点:
12、根据组织的业务现状、信息化现状、数据现状和A1.现状,设定组织中各机构和部门的职贲、权力的利益,定义符合组织战略目标的整体数据治理目标和可行的行动路径。2 .数据治理组织保障体系搭建阶段:O治理目标:确保面向A1.的数据治理得到必要的支持和资源,包括人力、算力、算法、数据、技术和管理等支持。O工作重点:分析领导层、管理层、执行层等利益相关方的需求,建立健全面向A1.数据治理的相关管理制度和标准,并基于数据治理所需的专项能力和业务价值目标构建支持面向A1.的数据治理体系。3 .数据治理工程建设阶段:o治理目标:基于数据战略目标,结合A1.数据治理的特点,制定并执行数据治理实施计划,确保数据治理能
13、够按照既定目标和流程进行。o工作重点:包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等实施步骤。4 .数据治理运营优化与A1.应用融合阶段o治理目标:提升A1.应用的规模化落地效果,实现数据治理与A1.应用的良性互动。进一步,形成数据治理与A1.应用相互促进的闭环,实现数据价值的最大化。o工作重点:通过数据治理提升A1.模型的拟合效果,同时利用A1.技术优化数据治理流程,形成良性闭环系统。从面向人工智能场景下所需的数据来看,大致可分为原始的多模态数据集、训练数据集、验证数据集、测试数据集和推理数据集。从面向人工智能场景的工程建设阶段来
14、看,可分为数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等九个阶段。对于人工智能训练和推理的阶段与数据治理对应关系如下:环MWXaaMIWMKU1.节Mara场注做黑含JUn1.XMKB三博餐、WS.f1.WS.1.1.ttwMnRf1.CCMMMMma1)数据收集阶段:此阶段治理时象包括:结构化数据、非结构化数据、半结构化数据、空间地理数据、时间序列数据等多种模态数据集。数据来源的选择和收集策略直接影响后续的数据质量。数据的有效性和代表性在此阶段就已开始形成。此阶段我们需要保障相关来源的数据量和多样性。2)数据预处理/清洗阶段:此阶段数
15、据治理对象是数据收集阶段所采集的多模态数据。此阶段对收集到的数据进行初步处理,去除无关信息,修正错误数据,处理缺失值、异常值、重复值等问题,确保数据质量。数据必须具备高度的质量和准确性,保证训练模型时使用的样本数据能够反映真实世界的情况。3)特征工程阶段,此阶段治理对象包括:原始数据集,中间数据和特征变量、标签数据集等。此阶段将原始数据转化为适合机器学习算法使用的特征表示,包括特征提取、特征选择、特征构造等。对于非结构化数据,可能需要进行特征提取,如文本分词、图像特征提取等。特征的选择、构造与转换过程决定了模型能否有效捕捉到数据中的有用信息,特征的质量直接影响模型的表现力和泛化能力。4)数据标
16、注阶段:此阶段治理对象主要是标注数据集。对于监督学习任务,需要人工或半自动方式对数据进行标注。高质量的标注数据对于模型的学习至关重要。准确、致且全面的标注能显著提升模型训练效果。5)数据划分阶段:此阶段治理对象主要是训练集、验证集和测试集三类。本阶段将数据集划分为训练集、验证集和测试集,训练集用于训练模型。数据划分阶段的质量治理重点在于保障数据分布和数据F衡,合理地将数据划分为训练集、验证集和测试集,确保每个集合都能代表总体数据分布,有助于避免过拟合或欠拟合。6)数据增强阶段:此阶段治理对象主要是合成数据。为了提高模型的泛化能力和应对不平衡数据问题,合成数据是通过模拟或生成技术生成的人工数据,
17、用于模型训练、隐私保护等目的。虽然对合成数据的质量治理不是宜接改善原始数据质量,但能间接提高模型对各种情况的适应性和泛化能力。合成数据质量治理包括对合成数据的生成过程、使用限制等方面进行规范和管理。7)模型训练阶段:此阶段治理对象主要是训练数据。使用高质量的数据训练模型,会得到更准确、稳定的结果。训练过程中,如果数据质量不佳,模型容易学得有偏差或者过拟合。训练数据的数据质量治理重点保障数据的完整性、准确性、一致性、多样性和代表性。8)模型验证与测试阶段:此阶段治理对象主要是验证数据和测试数据,包括对抗性样本、稀有事件或者小样本数据等。模型的性能验证和测试依赖于独立的高质量测试集,只有当测试数据
18、具有良好的代表性时,才能准确评估模型在新样本上的真实性能。在模型验证与测试阶段,对数据的要求和活动更加聚焦于检验模型在未知数据上的表现和鲁棒性,确保模型不仅在训练集上表现出色,而且在新的、未见过的数据上也能维持良好的性能。9)模型推理阶段:此阶段治理对象主要是推理数据集。在模型推理阶段,除了确保模型自身的性能以外,还要关注用于推理的实时数据的质量,通过一系列的数据处理活动来保证模型在实际应用中的效果和稳定性。推理数据集质量治理的关注点主要包括推理数据集的数据格式兼容性、数据质量监控、数据有效性验证、实时数据更新与维护、在线特征提取与转换等。(四)面向人工智能的数据治理价值通过在面向人工智能场景
19、下对数据集与数据工程流程进行系统化、标准化的治理,一是能够提高人工智能模型的准确性和可维性。:是能够缩短人工智能模型的开发周期,降低开发与维护成本。三是能婚提升整个AI系统的安全水平。此外,这项工作还能够完善对未来全域数据治理理论版图的构建。运升人工IR雒应用M果与性能通过提升效茏的质IHQ安全水平,从而显IHi升A1.8!的小雄效图和凌测淮性.撮升人工IS提应用的观模化落也JS率缗短人工IW煦盟的开发梅健全顺砌.从而提升人工管电宓用的MMMa1.sftSS加智人工WiS1.8安全与除私保护水平确保赎屈的安全和合规隹.防止38Uf1.却机保护个人JSMin企业机制.VA1.UE先善或物治9!体
20、系在传统敛前自理体系上增爆对非结构化IM1.fS0K9的关注,是对.空敷Ie给A的刑a.(五)面向人工智能的数据治理原则在开展面向人工智能的数据治理工作时,建议遵循以下原则,从而更好的提升人工智能应用效果、保护个人隐私与社会安全、降低成本、消除歧视与偏见。标准化原则:人工智能数据治理应具有灵活性、可操作性和实用性,能够被实际应用到数据治理中,通过制定和使用统一的标准、规范和流程并不断迭代完善。这有助于降低数据管理成本,提高数据质量和效率。透明性原则:人工智能数据治理应该是透明的,运作方式和数据处理过程应该是可解释和可理解的,有助于建立信任和可靠性,并确保合规性。合规性原则:人工智能数据治理应该
21、符合相关法律法规和行业标准的要求,如隐私法、知识产权法等。安全性原则:人工智能数据治理应注重数据的安全性,采取适当的安全措施,如加密、访问控制等,以保护敏感数据的机密性和完整性。 负责任原则:人工智能数据治理应该遵循道德和伦理标准,保证对数据和个人隐私的尊重,避免歧视和不公平的结果。 公正性原则:人工智能数据治理应该确保公正和平等的对待所有用户和利益相关方,不偏袒特定群体或个人。 可审计原则:人工智能数据治理应建立审计机制,对数据的收集、存储、处理和使用等过程进行监控和记录,以便及时发现和解决潜在问题。上述原则为人工智能数据治理提供了指导方针,确保A1.系统的可靠性和公正性,保护个人隐私和数据
22、安全,促进组织的数字化转型和发展.二、面向人工看能数据治理的重点工作数据治理理论已有多年的发展,相关治理逐步趋于完善和成熟。然而,针对人工智能领域的数据治理,由于治理对象与评价方式的特殊性,各方实践仍处于初步探索阶段。本章节我们将从数据质量治理、数据安全与隐私治理、数据伦理治理三方面展开探讨,为人工智能场景下的数据治理工作提供指导。这三大重点工作与传统的数据治理理论过程类似(如PDCA循环、安全分级分类等),但鉴于人工智能应用场景的特殊性,其在技术和实施细节上有所差异。随着技术与产业实践的不断演进,数据治理的市点工作将持续补充和完善,以更好地适应人工智能领域口新月异的需求和挑战。(一)数据质量
23、治理推进面向人工智能的数据质量治理是保障人工智能应用高质量、准确、持续可用的重要基础,这要求企业找准人工智能应用建设过程中的数据质量治理需求,把握人工智能数据质量治理与传统数据质量治理的差异,精准识别人工智能数据质量治理的范围和对象,从而帮助企业科学设计人工智能数据质量治理的机制、方法和步骤,建设面向人工智能的全面的数据质量治理技术能力,以良好的数据质量治理实践预防和杜绝数据质量问题,提高人工智能应用的性能和效果。1 .治理方法面向人工智能的数据质量治理是确保数据质量对人工智能模型效果的重要保障。数据质量管理贯穿于人工智能研发、管理和应用的整个生命周期,需要建立一套完善的数据质量管理体系,制定
24、相应的数据质量管理制度和流程,并明确各环节的责任和要求。同时.,还需要建立有效的数据质量评估和监控机制,以确保数据质量符合要求,为人工智能模型的训练、调优提供高质量、高可信度的数据资源,从而提升模型表现效果。1)需求分析与质量目标设定在面向人工智能的数据治理过程中,数据质量治理始于需求分析与质量目标设定阶段。明确人工智能应用对于数据质量和数量的具体需求,设立针对性的数据质量基准和目标。通过这一系列的数据需求分析与质量目标设定工作,可以为后续的数据清洗、预处理、特征工程、标注和增强等数据质量管理活动提供清晰的方向和依据,确保整个数据治理体系围绕既定目标有序展开,最终提升人工智能模型的性能和稳定性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 人工智能 数据 治理 实践 指南 1.0
链接地址:https://www.desk33.com/p-1540418.html