2023年大模型合规白皮书.docx
《2023年大模型合规白皮书.docx》由会员分享,可在线阅读,更多相关《2023年大模型合规白皮书.docx(73页珍藏版)》请在课桌文档上搜索。
1、大模型合规白皮书2023大模型作为人工智能发展脉络中的里程碑,引发了新轮的科技创新浪潮,其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。世界上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以人工智能法案为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案
2、为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。在此背景下,本白皮书在我国人工智能法律监管框架下进一步梳理了大模型相关方的合规义务及要点,并展望未来大模型法律监管体系的发展趋势与特征,对政府、企业
3、、社会共建大模型治理体系提出切实建议,从而为社会各界了解大模型立法最新动态和立法趋势提供有价值的参考,并为相关单位开展大模型业务提供法律解读及合规指引,保障大模型相关业务的合规经营以及行业的健康规范发展。目录-XZ.-Jl-刖&一、大模型的发展历程(一)早期模型的探索与局限性8(二)深度学习的崛起11(三)GPT等代表性大模型的影响121 .大模型带来的效率与准确度革命142 .大模型带来的机会与挑战15二、全球大模型监管现状(一)主要国家和地区加快完善大模型监管171 .欧盟172 .美国253 .英国35(二)我国对于大模型的监管现状381 .立法现状382 .合规要素473 .大模型业务
4、中各方合规义务一览表594 .运营角度的其他考量61三、未来展望与发展建议(一)未来展望:大模型合规的前沿701 .大模型技术创新发展与合规风险并存702 .大模型合规框架走向标准化与国际化703 .社会文化和伦理逐渐与合规体系相融714 .行业应用面临不同合规挑战与监管725 .治理路径分阶段、有弹性地构建73(二)发展建议:构筑大模型合规生态741 .政府推动构建行业新秩序742 .企业创新与责任担当783 .社会组织加强协同合作80-、大模型的发展历程(一)早期模型的探索与局限性从早期的符号逻辑到现代的深度学习I模型,AI领域经历了数卜年的探索和迭代,为后续突破打下了坚实基础。随着大数据
5、的发展和AI计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为AI领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。1956年6月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段:早期发展期(1956-2005):该阶段主要是传统神经网络模型的阶段,例如循环神经网络(ReCUrrentNeuralNetwork,*RNNw)深度学习(Deep Ieain
6、ingl是机耨学习iMachine leammg)中的 类妹法.指利用多层神羟网络秋仇人脑处理信息的方 式从Kl始ft入中逐步提取和发达数据的特征“ h11ps:/ ,en.wikipedia.org,wik:,Deep learning.段后访问于2023年11月 22日.Z成、卷积神经网络(ConVolUtiOnalNeuralNetworks,CNN)衡环神经网钻!Recurrent Ncurai Ne,.work. KNNl是只不时间联结的的馈神经网络IFeedfonvard Neural Networksl.特 点是必须按)酹处理,并”上一层的神经细愚层输出和Pa减状态JUi较大的权
7、/影响F -层的运Jr得环神娇网络必须完 上一步才能进行下一步,只能行不能并行,因此褥坏神经网络具有“短时记忆”的特点,技术上把这个现象称为梯度 浦t成梯燃拗储机时热网络M州也姐理和蝇捉长文本中的语义.https, en.uk.pedia.orgw1kbcurrent .neural,卷枳神经网络(ConvoWtQtBlNcuelN twos,CNN) rk,最后访问于 2023 年 Il 月 22 日.机器学习(MaChmCICammg3作为人工智能的一个分支,是指不箫要进行显式加出,而由计算系统荔于算法和数据集自 行学习,做出识别、决策和预测的过程,https:.,eawikipedia.
8、org/wiki/Machine_leamtng,最后访问于2023年11月 22 H.6 LeNet又称LeNek5,由YannLeeUn提出,是一种经典的卷积神经网珞,是现代卷枳神经网络的起源之,https:/ on.wikipdi.org.,wikiLeNet.最后访问于 2023 牟 11 月 22 日.Transformer是一种基于注意力机制的序列帙型.酸初由Google的研究团队提出并应用于机洛翻译任务.0起初,Al发展主要基于小规模的专家知识,然后逐渐转向机器学习M1980年和1998年诞生的CNN和LeNeL5,奠定了深度学习模型的基础。快速成长期(2006-2019):该阶
9、段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以TranSfOrmer6架构的出现为代表。从2013年的WOrd2Vec?到2017年的TranSfOrmer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPTWord2vec. 群用来产生.词向量的相关模型,这些博$为浅而双星的神经网格,用来训练以取新St构语言学之词文本 httpsenwikipediaorgwiki,Word2vec. Jft后访问于 2023 年 11 月 22 日GRT,全称Gcncrciiivc Prc-Traincd Tmn疝OnnCz生成式预训练Tmnsforcr模型I
10、,是一种基于互联网的、可用数匏来 训练的、文本生成的深度学习模里 ha7enwikipedia.OrgfwikuGenennivMprQTraEedjranskHmer,最后访问 F 2023 年2月 22 H.BERTlBidircctiomi! Encoder Rnprcscntatians from TnlnSlOnnrrC ,种预训ft的深度学习模型,用于自然语有处理任务, 基于TranBGrmer架构的双向编码题,通过无监督的学习方式预设嫁语言表示,以便能鲂捕捉证三的上下文信息.OpenAI是在美国成立的人工智能研究公司.核心宗旨在于“实现安全的通用人工智能(Artificial G
11、eneral Intelligence. G1 .使其/I祗于人类OhlmS en w k.pediaor w k OpenAl. Jft后访问于 2023 军 11 月 22 日 O和BERT-等预训练模型逐渐成为主流。全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OPenAl“推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。监督学习(SUPerViSedLearning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数据特征和期望的
12、输出值),让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗:回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标签进行训练,当模型接收新的猫咪图片时可以根据特征预测猫的价值。无监督学习(UnSUPerViSedLearning):“开卷有益”(多投喂资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户型的规律,并自动将相同类型的房屋进行汇总。降维:例如学习大
13、量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。,强化学习(ReinforCeInentLearning):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性。早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低。由于模型的简单性,其在计算上相对高效
14、,不需要大量的计算资源。表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。大模型早期所面临的主要局限性包括: 存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。 缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。 泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。 存
15、在环境和任务依赖:早期的Al模型通常需要根据特定任务定制和调整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。 模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。 安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。以上局限性不仅为AI领域的研窕者和工程师带来挑战,也为AI技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。(二)深度学习的崛起深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了人类在追求智慧和知识
16、上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性。因此,深度学习的崛起可以被视为人类科技史上的一大里程碑。神经网络的早期探索。1957年,FrankRosenblatt提出感知器模型,被称为最简单的神经网络,通过简单的线性组合实现分类任务。尽管当时的应用领域有限,但其为后续神经网络的发展奠定了基础。19世纪80年代,Rumel-hart.Hinton及其团队
17、引入了反向传播算法,通过多层神经网络训练,为复杂模型和任务提供强大工具。数据与计算能力的融合。21世纪初,互联网的广泛传播和智能设备的普及,使得数据呈现指数级增长,为深度学习提供丰南的训练数据。同时,硬件技术也在飞速发展,NVlDIA等厂商投入GPU研发,其能够大幅度加速数值计算,尤其是深度学习中的矩阵运算,软硬件的进步大大加速了模型的训练过程。关键技术突破与模型创新。1997年,Hochreiter和SChmidhUber提出长短时记忆网络(LongShorl-TennMemory,LSTM),解决了循环神经网络的梯度消失/梯度爆炸的问题,使得神经网络可以更好的处理长文本内容,为序列数据的处
18、理开辟了新天地。1998年,YannLeCun及其团队提出LeNet-5,但真正让深度学习走向世界舞台的是2012年由AlexKrizhevsky等人设计的AlexNet,其在ImageNet挑战赛中大胜,展示了深度学习在图像处理上的潜力。2014年,生成式对抗网络(GenerativeAdversarialNetworksGAN)被提出。GAN的原理是通过竞争机制来逐步提高生成器的准确性。2016年横空出世击败围棋世界冠军李世石的AlphaGo,就是基于GAN架构训练的模型。2017年,Google提出Transformer架构,此后BERT、GPT等模型皆以其为基础,在自然语言处理任务中达
19、到新高度。(三)GPT等代表性大模型的影响Transformer架构的优点是可以并行处理输入序列的所有元素,能够捕捉长序列内容的关联关系,因此Transformer架构不再受到“短时记忆”的影响,有能力理解全文,进而Transformer成为自然语言处理的主流架构。一个原始的TranSfOrmer架构由编码器(EnCoder)和解码器(Decorder)两部分构成,其中编码器用于将输入序列转换为一系列特征向量,解码器则将这些特征向量转换为输出序列,即:输入内容一一编码器一一解码器一一输出内容。如果给编码器输入一句英语“Sheisastudent,解码器返回一句对应的中文“她是一名学生”Tran
20、sformer的架构和自注意力机制能够实现这些的关键在于“将词汇转换为词向量,并通过多头注意力机制(Multi-HeadAttention)和前馈神经网络(Feed-FOrwardNetwork)两个子层进行处理”。第一步:模型对接收到的输入序列文本Token化,Token可以被理解为文本的基本单元,短单词可能是一个Token,长单词可能是多个TokenoToken是GPT的收费单元,也是源于此。第二步:将Token转换成一个数字,成为TokenID,因为计算机语言只能存储和运算数字。第三步:将TOkenID传入嵌入层(EmbeddingLayer),转换为词向量(WordEmbedding)
21、,词向量是一串数字。可以将这个过程想象为将一个单词放到多维空间中,每个数字就表达了这个单词某个维度的含义,一串数字所能表达和蕴含的信息量远多于TokenID的一个数字,可以记载这个单词的词义、语法和不同语境、语序中的变化关系。第四步:对词向量的语序和语境进行位置编码,形成位置向量。上文提到语境和语序对理解词义至关重要。之后将同向量合并位置向量,将合并后的结果传给编码器,这样模型既能理解词义也能理解语境和语序。第五步:接收到上述信息后,编码器中的多头注意力机制将会运作,捕捉其中的关键特征,编码器在处理时不仅会关注这个词与临近的词,还会关注输入序列中所有其他词,将输入的信息根据上下文进行调整,输出
22、了降维后的向量。第六步:进入编码器的前馈神经网络处理,前馈神经网络“思考”之前步骤中收集的信息,并增强模型的表达能力,尝试进行预测。第七步:降维后的向量将继续传输给解码器运算。解码器具有带掩码的多头注意力机制,解码器在处理时仅关注这个词及其之前的词,遮盖输入序列中后面的内容,并结合已经生成的文本,保持未来输出文本的时间顺序及逻辑连贯性。第八步:进入解码器的前馈神经网络处理,解码器中的前馈神经网络与第六步类似,也是增强模型的表达能力。第九步:解码器的最后处理环节经过linear层和softmax层,这两个子层将解码器输出内容转换为词汇表的概率分布,概率分布反映下一个Token生成概率。通常模型选
23、择概率最高的Token作为输出,生成输出序列。因此解码器本质上是在做“单词接龙”的游戏,猜下一个输出单词。Ofd-Som,Evolutionary Tree图1近年来大语言模型进化树”从图1可以看出,经过演变,大模型大致分为三种:其一是舍弃Decoder,仅使用Encoder作为编码器的预训练模型,以Bert为代表,但Bert未突破ScalingLaws,Encoder-Only分支在2021年后逐渐没落。其二是同时使用Encoder.Decoder的预训练模型,代表模型有清华大学的ChatGL其三是舍弃EnCOder、仅使用DeCOder作为编码器的预训练模型,以GPT为代表,其通过预测下一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 模型 合规 白皮书

链接地址:https://www.desk33.com/p-955033.html