2024先进人工智能安全国际科学报告.docx
《2024先进人工智能安全国际科学报告.docx》由会员分享,可在线阅读,更多相关《2024先进人工智能安全国际科学报告.docx(80页珍藏版)》请在课桌文档上搜索。
1、前言7执行摘要91 导言152 的能力1821 通用AI如何获得其能力?1822 当前的通用Al系统能够实现19221能力按方式20222能力和限制技能2123 最近的趋势能力及其驱动因素2223.1 最近的趋势在计算,数据和算法22232最近的趋势能力2524 能力进步在未来292A1,如果资源继续快速扩展,这是否会导致快速发展?30242将迅速扩大资源规模?30243算法的进步会带来快速的进步?323方法评估和理解通用人工智能系统34il通用Al评估用于评估模型功能和影响。3432 模型性能分析方法35321案例研究35322基准35323红色团队和对抗性攻击36324审计3733 模型透
2、明度、解释和解释383.4挑战与研究通用Al系统394风险414.1 恶意使用风险414.1.1 伤害个人通过虚假内容414.1.2 虚假信息和操纵舆论424.13 网络犯罪444.14 4双重用途科学风险454.2故障风险474.2.1 风险来自产品功能问题474.2.2 偏见和代表性不足的风险494.2.3 失控5143系统性风险544.3.1 劳动力市场风险544.3.2 全球Al鸿沟574.3.3 市场集中风险和单点故障58InternationalScientificReportontheSafetyofAdvancedAI:InterimReport4.3.4 危害环境594.3.
3、5 隐私风险604.3.6 版权侵权614.4交叉风险因素634.4.1 交叉技术风险因素634.4.2 跨领域的社会风险因素665的技术方法来减轻风险685.1 风险管理与安全工程685.1.1 风险评估695.1.2 风险管理705.2 培训更多值得信赖的模型725.2.1 使通用Al系统与开发人员的意图保持致725.2.2 减少幻觉的谎言745.2.3 提高对故障的鲁棒性745.2.4 消除危险能力755.2.5 分析和编辑内部工作的模型755.3 监测和干预765.3.1 检测通用Al生成的内容765.3.2 检测异常和攻击7753.3 解释模型动作7753.4 4将保障措施纳入Al系
4、统775.4 技术方法公平和表示在通用人工智能系统785.4.1 减轻偏见和歧视的工作贯穿于通用人工智能的开发和部署阶段795.4.2 通用人工智能系统的公平性是实现的?805.4.3 挑战实现公平的通用Al系统815.5 隐私方法的通用Al系统816结论83主席关于中期报告的说明84不同观点86词汇表87参考文献91这份报告是人工智能安全之旅的开始,我很荣幸主持发布首届高级人工智能安全国际科学报告。我很自发地发布这份中期报告,这是自2023年【1月布莱奇利公园人工智能安全峰会委托这项工作以来的六个月里,许多专家付出了巨大努力的结果。我们知道先进的人工智能正在迅速发展,而且这些先进的人工智能系
5、统如何影响我们未来的生活和工作方式存在很大的不确定性。人工智能有巨大的潜力让我们的生活变得更好,但它也带来了伤害的风险。这就是为什么要进行彻底的分析家意见至关重要。我们知道的越多,我们就越有能力塑造我们的集体命运。我们的使命很明确:推动对高级人工智能安全性的共享、基于科学的、最新的理解,并随着时间的推移继续发展这种理解。该报告正确地强调了专家之间存在共识的领域,以及对高级人工智能的能力和风险的分歧,特别是那些预计在未来开发的。为了有效地履行我们的使命,我们的目标是解决知识分子诚实的专家社区之间的分歧。通过剖析这些差异,我们为明智的决策铺平了道路,并刺激了有助于消除迷雾和减轻风险所需的研究。我感
6、谢我们的国际专家咨询小组的宝贵意见,这些意见最初确定了报告的范围,后来又对整个草案提供了反馈。他们的不同观点和认真审查扩大并加强了这份临时报告。同样值得认可的是我敬业的作家和高级顾问团队。他们在过去几个月的承诺创造了一个超出我预期的临时产品。我还要感谢英国政府启动这一进程并提供出色的运营支持。对我来说,同样重要的是,英国政府同意撰写这份报告的科学家应该拥有完全的独立性。这份中期报告只是旅程的开始。亳无疑问,这份报告在第一次尝试中未能捕捉到的观点和证据。在这样的科学过程中,反馈是宝贵的。我们将纳入更多的证据和科学的观点,因为我们对最终版本的工作。YoshuaBCngio教授蒙特利尔大学/Mila
7、-魁北克人工智能研究所和主席Al安全是一个共同的全球问题我很高兴向您介绍有关高级Al安全性的第份国际科学报告的临时更新,这是2023年11月在布莱奇利公园举行的开创性Al安全峰会的重要成果。这份具有里程碑意义的报告代表了全球前所未有的努力,以建立对人工智能快速发展所带来的机遇和风险的共同的,基于科学的理解,并证明了“布莱奇利效应”-召集才华横溢的头脑来应对人类最大的挑战之一。I工智能造福人类的巨大潜力,需要积极努力,以确保安全、负责任地开发和部署这些强大的技术。没有一个国家能够独自应对这一挑战。这就是为什么我如此热衷于将一群世界领先的专家聚集在一起,贡献他们的知识和观点。我要特别感谢YOShU
8、aBengio教授作为主席在巧妙地指导这一更杂的国际努力方面发挥的领导作用。至关重要的是,该报告还揭示了我们当前知识中的重大差距以及迫切需要进一步研究和讨论的关键不确定性和辩论。我真诚地希望,这份报告及其背后的合作进程能够成为缩小关键知识差距所需的研究和政策努力的傕化剂,并为未来具有挑战性的政策选择提供宝贵的投入。我们还有很多东西要学,但这份报告标志着一个重要的开始。英国期待继续与国际伙伴合作,促进负责任的、以人为本的人工智能发展方法-利用这些强大的工具来改善生活和生计,同时警惕地防范下行风险和伤害。我们可以共同努力,建设一个全人类都能从人工智能的奇迹中受益的未来。,RtHonMiChelie
9、Donelan议员,科学,创新和技术部国务卿向前迈出的关键一步,呼吁Al安全采取行动人工智能的快速发展将以深刻和不可预见的方式重塑我们的世界。从革命性的医疗保健和运输到自动化复杂任务和解锁科学突破,人工智能的积极影响潜力是不可否认的。然而,除了这些显著的可能性之外,还存在着重大的挑战,需要采取前瞻性的方法。关注的范围从嵌入算法中的意外偏见到自治系统超过靠风险凸显了迫切褥要进行全球对话,以确保人工智能的安全和负责任的发展。在这种情况下,国际人工智能安全报告将为全球合作提供重要的基础。该报告汇集了来自30个国家、欧盟和联合国的专家的知识,提供了对人工智能安全性的全面分析。通过关注对通用人工智能能力
10、和风险的早期科学理解,并评估评估和缓解这些风险的技术方法,该报告将引发多方利益相关者之间的持续对话和合作。我希望基于这份报告,来自30个国家、欧盟和联合国的专家继续进行平衡的讨论,实现可接受的、适合发达国家和发展中国家具体情况的人工智能风险缓解,从而创造一个创新和负责任的人工智能和谐共存的未来。1.eejong-ho大韩民国MSIT部长执行摘要关于本报告.这是第一份“关于高级ai安全性的国际科学报告”的临时出版物。由75位人工智能(Al)专家组成的多元化小组为本报告做出了贡献,其中包括由30个国家,欧盟(EU)和联合国(UN)提名的国际专家咨询小组。.在本报告主席的领导下,撰写本报告的独立专家
11、集体对其内容拥有完全的酌处权。.在人工智能发展取得前所未有的进展之际,这份第一份出版物将其重点限制在近年来发展特别迅速的一种人工智能上:通用人工智能,即可以执行各种任务的人工智能。在快速发展的过程中,通用人工智能的研究目前正处于科学发现的时代,尚未成为科学定论。.世界各地的人们只有在风险得到适当管理的情况下,才能安全地享受通用人工智能的许多潜在好处。本报告着重于识别这些风险,并评估评估和减轻这些风险的技术方法。它的目的不是全面评估通用人工智能的所有可能的社会影响,包括其许多潜在的好处。.这份中期报告有史以来第一次汇集了30个国家、欧盟和联合国提名的专家以及其他世界领先的专家,为通用人工智能安全
12、的讨论和决策提供了一个共享的科学、循证基础。我们仍然在围绕通用人工智能能力、风险和风险缓解的几个问题上存在分歧,无论是次要的还是主要的。但我们认为这个项目对于提高我们对这项技术及其潜在风险的集体理解,以及更接近达成共识和有效的风险缓解至关重要,以确保人们能够安全地体验通用人工智能的潜在好处。赌注很高。我们期待着继续这一努力。执行摘要的要点.如果管理得当,通用人工智能可以用于促进公共利益,可能会带来更好的福祉,更多的繁荣和新的科学发现。然而,通用人工智能出现故障或被恶意使用也可能造成伤害,例如,在高风险环境中做出有偏见的决定,或者通过诈骗、虚假媒体或侵犯隐私。.随着通用人工智能能力的不断发展,可
13、能会出现诸如大规模劳动力市场影响,人工智能黑客攻击或生物攻击以及社会失去对通用人工智能的控制等风险,尽管研究人员对这些情况的可能性存在争议。对这些风险的不同看法往往源于对社会将采取的限制措施、这些措施的有效性以及通用人工智能能力的推进速度的不同期望。.通用人工智能能力的未来进展速度存在相当大的不确定性。一些专家认为,到目前为止,进展最有可能放缓,而另一些专家则认为,极快的进展是可能的或可能的。.开发人员可以采用各种技术方法来评估和降低通用人工智能的风险,监管机构也可以要求,但它们都有局限性。例如,用于解释为什么通用Al模型产生任何给定输出的当前技术受到严重限制。.通用人工智能技术的未来是不确定
14、的,即使在不久的将来,也可能出现各种各样的轨迹,包括非常积极和非常消极的结果。但关于Al的未来,没有什么是不可避免的。社会和政府的决定将决定人工智能的未来。这份临时报告旨在促进对这些决定的建设性讨论。这份报告综合了对通用人工智能的科学理解-人工智能可以执行各种各样的任务-重点是理解和管理其风险。使用人工智能的系统的能力一直在迅速发展。这凸显了人工智能为商业、研究、政府和私人生活创造的许多机会。它还提高了人们对与先进人工智能相关的当前危害和未来潜在风险的认识。关于高级人工智能安全的国际科学报告的目的是朝着对人工智能风险以及如何减轻风险的国际共识迈出一步。该报告的第一份临时出版物将其重点限制在一种
15、能力发展特别迅速的人工智能上:通用人工智能,即可以执行各种任务的人工智能。在快速发展的过程中,通用人工智能的研究目前正处于科学发现的时代,尚未成为科学定论。该报告概述了当前对通用人工智能及其风险的科学理解。这包括确定科学共识的领域以及存在不同观点或开放研究问题的领域。世界各地的人们只有在风险得到适当管理的情况下,才能安全地享受通用人工智能的潜在好处。本报告的重点是识别通用人工智能的风险,并评估评估和缓解这些风险的技术方法,包括使用通用人工智能来缓解风险。它的目的不是全面评估通用人工智能的所有可能的社会影响,包括它可能提供的好处。根据许多指标,通用AI能力近年来增长迅速,并且在如何预测未来进展方
16、面没有达成共识,使得各种场景出现可能根据许多指标,通用Al能力正在迅速发展。五年前,领先的通用人工智能语言模型很少能产生连贯的文本段落。今天,一些通用的人工智能模型可以在广泛的主题上进行多轮对话,编写简短的计算机程序,或者从描述中生成视频。然而,通用人工智能的能力很难可能地估计和精确定义。通用人工智能的发展速度取决于技术进步的速度和监管环境。本报告侧重于技术方面,不讨论监管工作如何影响通用人工智能的开发和部署速度。近年来,人工智能开发人员迅速提高了通用人工智能功能,主要是通过不断增加用于训练新模型(一种称为“扩展”的趋势)和改进现有算法的资源。例如,最先进的人工智能模型用于训练的计算资源(“计
17、算)每年增加约4倍,训练数据集大小增加2.5倍,算法效率(相对于计算的性能)增加1.5倍。缩放”是否导致了诸如因果推理等基本挑战的进展,研究人员之间存在争议。通用人工智能能力的未来进展速度对管理新兴风险具有重大影响,但专家们对即使在不久的将来也会发生什么持不同意见。专家们以各种方式支持通用人工智能能力缓慢、快速或极快发展的可能性。这种分歧涉及一个关键问题:继续扩展资源和改进现有技术是否足以产生快速进展并解决可靠性和事实准确性等问题,还是需要新的研究突破来大幅提高通用AI能力?几家开发通用人工智能的领先公司正在押注扩展以继续带来性能改进。如果最近的趋势继续下去,到2026年年底,一些通用人工智能
18、模型将使用比2023年发布的最计算密集型模型多40倍至100倍的计算进行训练,并结合使用这种计算效率提高3倍至20倍的训练方法。然而,进一步增加数据和计算存在潜在的瓶颈,包括数据的可用性、人工智能芯片、资本支出和本地能源容量。开发通用人工智能的公司正在努力解决这些潜在的瓶颈。一些研究工作旨在更可靠地理解和评估通用AI,但我们对通用AI模型和系统如何工作的总体理解是有限的管理通用人工智能风险的方法通常基于这样的假设,即人工智能开发人员和政策制定者可以评估通用人工智能模型和系统的能力和潜在影响。但是,虽然技术方法可以帮助评估,但所有现有方法都有局限性,无法提供强有力的保证,以防止与通用人工智能相关
19、的大多数危害。总体而言,对通用人工智能的内部运作、能力和社会影响的科学理解非常有限,专家普遍认为,提高我们对通用人工智能的理解应该是当务之急。一些关键挑战包括:.开发人员仍然对他们的通用Al模型如何运行知之甚少。这是因为通用Al模型不是传统意义上的编程。相反,他们是经过训练的:人工智能开发人员建立了一个涉及大量数据的训练过程,这个训练过程的结果就是通用人工智能模型。这些模型可以由数万亿个称为参数的组件组成,并且它们的大部分内部工作都是难以理解的,包括对模型开发人员来说。模型解释和可解释性技术可以提高研究人员和开发人员对通用Al模型如何运行的理解,但这项研究还处于起步阶段。.通用Al主要通过在各
20、种输入上测试模型或系统来评估。这些抽皆有助于评估优势和劣势,包括漏洞和潜在的有害能力,但不提供定量的安全保证。测试通常会忽略危险,高估或低估功能,因为通用Al系统在不同情况下,不同用户或对其组件进行其他调整时可能会表现不同。.原则上,独立参与者可以审核公司开发的通用Al模型或系统。但是,公司通常不向独立审计师提供必要的直接访问模型或有关严格评估所需的数据和方法的信息。一些政府正在开始建设进行技术评估和审计的能力。.很难评估通用人工智能系统的下游社会影响,因为对风险评估的研究还不足以产生严格和全面的评估方法.此外,通用人工智能具有广泛的用例,这些用例通常不是预定义的,只是受到轻微的限制,使风险评
21、估进一步复杂化。了解通用人工智能模型和系统的潜在下游社会影响需要细致入微的多学科分析。增加多样化的代表性通用人工智能开发和评估过程中的观点是一项持续的技术和制度挑战。通用人工智能可能对个人和公共安全和福祉构成严重风险该报告将通用Al风险分为三类:恶意使用风险,故障风险和系统性风险。它还讨论了导致许多风险的几个交叉因素。恶意使用。与所有强大的技术一样,通用Al系统也可能被恶意使用以造成伤害。可能的恶意使用类型包括相对证据充分的类型,例如通用Al实现的诈骗,以及一些专家认为未来几年可能发生的类型,例如恶意使用通用Al的科学功能。.通过通用Al生成的虚假内容对个人造成的伤害是一种相对有据可查的通用A
22、l恶意使用。通用Al可用于增加诈骗和欺诈的规模和梵杂性,例如通过通用Al增强的“网络钓鱼”攻击。通用人工智能也可以用来生成虚假的妥协内容,包括未经个人同意的个人,例如未经同意的deepfake色情内容。.另一个令人担忧的领域是恶意使用通用人工智能来提供信息和操纵公众舆论。通用人工智能和其他现代技术使生成和传播错误信息变得更加容易,包括影响政治进程。像水印内容这样的技术对策虽然有用,但通常可以被适度复杂的参与者规避。.通用人工智能也可能被恶意用于网络犯罪,提升个人的网络专业知识,并使恶意用户更容易进行有效的网络攻击。通用Al系统可用于扩展和部分自动化某些类型的网络操作,例如社交工程攻击。但是,通
23、用Al也可以用于网络防御。总体而言,尚无任何实质性证据表明通用AI可以自动执行复杂的网络安全任务。.一些专家还对通用人工智能可能被用来支持生物武器等武器的开发和恶意使用表示担忧。没有强有力的证据表明目前的通用人工智能系统会带来这种风险。例如,尽管目前的通用人工智能系统显示出与生物学相关的不断增长的能力,但有限的研究并没有提供明确的证据表明,目前的系统可以比使用互联网更容易地提升恶意行为者来获取生物病原体。然而,未来的大规模威胁几乎没有得到评估,也很难排除。故障风险。即使用户无意造成伤害,由于通用AI的故障,也可能会产生严重的风险。这种故障可能有几种可能的原因和后果:.基于通用人工智能模型和系统
24、的产品的功能可能会被用户理解得很少,例如由于误解或误导性广告。如果用户随后以不合适的方式或出于不合适的目的部署系统,这可能会造成损害。.人工智能系统中的偏见通常是一个很明显的问题,对于通用人工智能来说也没有解决。通用人工智能输出可能会在种族、性别、文化、年龄和残疾等受保护特征方面存在偏见。这可能会产生风险,包括在高风险领域,如医疗保健,工作招聘和金融贷款。此外,许多广泛使用的通用人工智能模型主要是在不成比例地代表西方文化的数据上训练的,这可能会增加对这些数据不能很好地代表的个人造成伤害的可能性。.“失控”情景是潜在的未来情景,在这种情景中,社会不再能够有意义地限制通用人工智能系统,即使它们显然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 先进 人工智能 安全 国际 科学 报告
链接地址:https://www.desk33.com/p-1389419.html