2024年斯坦福AgentAI论文.docx
人工智能代理:调查多模式交互的前景TheEmergingAgentAlParadigmforMulti-modalandCross-RealityAGIPhysical WorldVirtual WorldAgent ParadigmEmbodimentProductCamerasAmbient IntelligenceService Robots Virtual RealityMid Reality Virtual AvatarAugmered Reality GUI AppMuhi*moda sensors Social networksGencralistAgentsAssistantAutonomous VehicleGamingAutonomousVehiclesManufacturingEmbodied SystemAl CopilotsAl for HealthInfra- StrUetUre Microphones IOTMuItbGPUVideolAudio SimulatorsPlanning capabilitiesPrirtiveaction ystemActuatorsSecurityCloud ServersWeb>searcKnowledgeReasoning systemhoboticsdontrollerHumanInteractionMechanical armGenerative AlMemoryrainComipiltcr Interface) Objects / EnvironmentOser/Agent Input2D lmaSpeechPhysicsEnvironmentControllerPhysical ExperimentsPhilosophy of mindTextBig dataI ObservationsInferenceTrainingAgent ActionPerception Task-SpecificInfoSmartsensorsData CompressionMLTheoryInformaticsTask-Planning and Skill-ObservationPerceptionReasoningIntuitionConsciousness Intelligence!Cognitkmc ScienceTactileensorsControl TheoryMechanicsOptimizationSystem EfficiencyActionCognition(Thinking, Consciousness,Sensing, Empathy, andoverall Cognitive System)/ Agent、 I Interactive J I Closed-loop/ XiJ.Learning(PretrainZero-shot, few-shotfrom LLM and VLM, etc.)Memory(Knowledge, Logic, Reasoning, and Inference)图1:可以在不同领域租期幅序中够由采取行动的智铜W系统概述一大壬智能伸蚯在成为通用天王智能(AGI序f有前途的途径。i智能代理Uii练警展示了对物理世界的多模式理解的能力。它叫怀IJm生成式人工智能以及多个独立数据源为导赎无随培训提供了一个框架当针对跨现翔据进行练时针对代理手呦作相关任务说刊练的大型基础模型可以应用于物理和虚拟世界。物摘绍了智能体人工智能系统的总体概述该螭可以在许多不同的领域和应用程序中感知和行动可能作为使用智能僦隧现AGl的途径抽象的多模式人工智能系统可能会在我们的日常生活中无处不在。一个有前途的使这些系统更具交互性的方法是将它C麻现为物理中的代理和虚拟环境.目前系统利颠有的幽的甦作为基5出用于创建具体代理的构建块。在此类环境中嵌入代理促进模型处理和解释视觉和上下文数据的能力,这一点至关重要用于创建更复杂和上下文感知的人工智能系统。矽如一个系统可以感知用户动作、厩行为、环境物体、敲隔番喋体场景的情绪可用于通知和指导代理在给定环境中的响应。为了力睡基于代理的多模态智能的研究我的uAgentAIw定义为T交互系统可以感知视觉激、语言输入和其他基于环境的数据并可以产生有意义的具体行动。悔屉我门探索系统旨在通过结合外部来改进基于下一个具体动作预测的智能体知识'多感官输入和人类反馈。我们认为通过开发代理人工智能接地环境中的系统,还可以减轻大型基础的幻觉模型及其产生环境不正确输出的倾向。代理新兴领域人工智能包含了多模式交互的更广泛的体现和代理方面。超越代理商在物理世界中行动和互动,我彳门设想未来人门可以轻松地创腌任何虚拟现实或模拟场景并与虚拟环境中体现的代理进行交互。AgentAI分类通才代理领域5.2。20实体代理。GOO。OooOOOOQaOaoo201.1.1 "T1t9oo*oevooo*20理°21.1.2 弋*veooooo*evovoo理。一°25.3 模拟和环境代.0°.0。°01理。°°°°°°°°°°°°°o°o°°°°°ooo°°°°°°25.4 生成代理。.。.1。°。°0°。°25.4.1 AR/VR/2混合现实代理.0°<,°0°.°(I(I(I°0°.°°<,°0°.°°°<l°2、知识和逻辑推理主2体。°OO.OOO.O.0.0.0.0。23“逻辑代理。情感推理代2理°234神经象征齐Il°。23独蚪M和VLMN46苦能代理应用任务6.1游戏代理245.4.2 NPC行为245.4.3 人与NPC交互255.4.4 基于代理的.25博弈分析。25.4.5 游戏场景合.7成.i三三三2°°°°°°°°281.LM/VLM机器人代30理3实验和结果31.医疗保健35.当前的医疗保健能力36.多模式代理。.图像语言理。36解和生成。ooooooooooooo.«视频和语言36理解和生成.实验和结果376.5视频语言实验。39OOOOOOO41.NLP代理N一般LLM代理.法学硕士.遵循指令的LLM代理代理。实验与结果4545°.°.0°°<>°°°°°45。46467跨模态'领域和现实的智彘体7.1跨模态理解的智能体48“跨域理解代理48,跨模态和跨现实的交互代理49.模拟到真实的传输OOooo*oooooooooo*oo*oooooo8AgentAI的持续自我完善&1人机交互数据49。498.2基桃模型生成的数据509代理数据集和排行榜9.1用于多代理游戏的uCuisineWorIdw数据集。50509.1.1基准9.1.2任务9.1.3指标和判断。51519.1.4评价519.2音频-视频-语言预训练数据51集,10更广泛的影响声明52道德考虑S3领印本12多元彳W明53参考55附录69GPT-4V代理提示详切佶息69BGPT-4V尖端技术69CGPT-4V用于微软战斗模以筹69DGPT-4V适用于刺客信条奥德赛69域用于(战争机器4EGPT-4V69FGPT-4V任用于星空751简介1.1 动机从历史上看人工智能系统在1956年达特茅斯会议上被定义为人工生命形式,可以从环境中收集信息并以有用的方式与之交互。个定义的!发,明斯基的麻省理工学院J'组于1970年构建了一个名为“复制演示"的机器人系统该系缴嚓"块世界"场景并成功重建了观翎的多面隔相构。该系融膘、规划W限懈成表明每个子间瞬湘具挑战性蠲注一步研究。人工智能领域分为专门的子领域这些子领或在解决这些问题和其他问题方面基本上独立地取得了巨大进展M强度还原论哪了人工智能研究的总体目标,为了超越现状有必要回归亚里士多德整体论驱动的人工智能基础。幸运的是,最近大型语言模型(LLM前视觉语言模型(VLM的革命使得创建符合整体理想的新型人工智能代理成为可能。抓住这个机会本文探讨了整合语言能力、视觉认知、情境记忆'直犍野嗨应性的魁。它探讨了使用LLM和VLM完成这种整体综合的可能性。在我们掰稼中我(i比重斯审视了基于亚里士多德最终胭的系统设计即目的论"系统为何存在n几轮人工智能发展中可捱被忽视随着强大的预训练法学硕士和VLM的出现自然语言处理和计算机视觉领域的更兴解!1了促进法学硕士现在展现出令人印象深刻破译现实世界语言数据细微差别横力通常能物挺I归人类专业知iR相当甚至随雌力(OpenAI-2023)最近研究人员表明法学硕士可以扩展到在各种环境中充当代理与特定领域的知识和模块配合使用时执行复都臊作和任务(Xi等人2023)这些场景的特点是杂的推理'对智能体角色及小腐漉解以及多步骤规划测试智能体在其环微雅(1内做出高度细致和复杂的决策的能力(Wuetal.,2023;MetaFundamentalA三究(FAIR外交团队等,2022)在这些初步努力的基础上人工智能社区正处于重大范式转变的风A浪从为被动、结构fbff务仓腱人工智能模型过海蛇够在多样化和复杂的环境中承担动态、代理角色的!磔在It情景下,本文财了使用LLM和VLM作为代理的巨大潜力强国7融合了语言能力、视觉认口、情境记忆、直碘野腌应曲外睡mLLM和VLM作为代理,尤其是在游戏、机器人和园7保健等领域不仅可以为最先进的人工智能系僦供严格的评估6台,而且还预示着以代理为中心的人工智能将产生的变革性影响社会和行亚。当充邠岬时田野镂可以重新定义人类体验并提靛营标准。这些模型带来的全面自动(冰J潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的排行榜型R在一起不仅是技术方面的而且是道德方面的IB瞰们将在第11节中详细阐述的那样。我们深入研究智能体这些子领域的重叠领域并在图1中说明它们的相互关联性。1.2 12我们现在将介绍支持智能体的概念、理论前景和现代实现的相关研究论文大型基础模型:LLM和VLM一直在推动通用智能机器的开发(BUbeCk等人2023;MirChandani等人2023)尽管他们是使用大型文本语料库进行训练的但他们酬问题解决能力并不局限于规范语言处理领域法学硕士可以解决以前被认为是人类专家或特定领域算法独有的更杂任务范围从数学推S(Imani等人2023年;Wei等人2022年;Zhu等人2022年到回答专业法!问题(Blair-Stanek等人2023年;Choi等人2023年;Nay,2022年)最近的研究表明使用法学硕士为机器人和游戏人工智能生成复杂计划可能性(Liangetal.r2022;Wangetal.z2023a,b;Yaoetal.,2023a;Huangetal.,2023a)标志着法学硕士作为通用智能代理的一个重要里程碑。预印本体现人工智能:许多工俯蝴法学硕士来执行任务规划(Huangetal.,2022a;Wangetal.,2023b;Yaoetal.,2023a;Lietal.,2023a)特别是法学硕士的WWW规模领域知识不幽兴的零样本体现了执行豆杂任务规划和推理的能力最近的机器人研究三利用法学硕士来执行任务砌(Ahn等人2022a;HUang等人2022b;Liang等人2022)将自然语言指令分解为一系列子任务无论是目然语言形式还是在PythOn代斛盛糊彳。Ii矽卜它M蟠等不晅金(Huang等人2022b)、(Liang等人2022)、(Wang等人2023a和(Ikeuchi等人-2023)。交互式学习:专为交互式学习而设计的人工智能代摩合机器学习林和户交互进行操作三J人瑾爵漉&梗婴解母例I练蟋据集包含各种类型的信息具体取决于代哪娜曦例如为酷任务设H的A谑能将在大量文本数镂J施行y练训跳服使用啥习算法其中可能包括解网络等深度学习模型,这些Ul练模型使人工智能能够根据l三(据识别式、做出瓒W生成领Z,AI留能f愧硝M与用户的实时交互中学习。这职恒式学习可以通过多种方觎行1基于反馈的学习:人工智能三S直接ffi户反迷醺其。向应(Lietal.,2023b;Yuetal,2023a;Parakhetal.,2023;Zhaetal.,2023殍人2023;Wake等人2023abe)»«5lmPiET三o陋T域何以聊此信息来改进未来的响®(Zha等人2023;LiU等人2023a)-2观察学习:AT智能U嚓用户交互并隐式学习。例如礁用F缴侬螂问殿以特访式与人身狡互期丽啦以更刷亟幽赋它母午人工窗断隔螂和处理人类语言、多I建设雪、晒等赎上下手断认瑚户的)诋.随着时间的推移嫡更多的用户交互和反而AZ智能代理0州就通常会持续提高这个过程通常由人类操作员或开发人员监督他IiTS嘛人工踊舐解习产生偏见或不正确的模式1.3 概述多模态智能体(MAA)是一系列系统,可基于对多模态域官输入的理解在给定环境中生成有效的操作,随着大型语言模型(LLM和视觉语言模型(VLM的出现从基础研卿!应用领域大型的MAA系统被提出虽然这些研究领域通封与每个领域的传统技术(例如视觉问答和视觉语言导航)相结合而快速发展,但,施阚剧摩基觑诞贼林浒琳凄族汕IAA的一些代表性研究领域艮唐娜游戏(VR/AR/MR)、机器人和箭保健旨在提f贿趟些领域讨通婵见问题的全酬识。因此物瞬望7解MAA的基础知识并获得见解以进一步推进他们的研究。具体学习成果包括:-MAA概述:深入探讨其原理和在当代应用中的作用,让研究人员全面掌握其歪要性和用途.-方法论:LLM和VLM如何增强MAA的详细示例电物戏、机器人和医疗雕领域的案例研究进行说明领效评估:使睡关蹦集评估MAA的指南重点关注其有效性和阉Stt帝德考虑:讨论S醋人工智能趣!的社会影1照海德排行榜强调负责任的开发实践。渐兴趋势和未来排行榜:对每个领域的最新发展进行分类并讨论未来发展方向基于计算机的动作和多面手代理(GA)对于许多任务都很有用GA要对其用户真正有价值它可以自然地与广泛的上下文和!耘进行交互并推广到广泛的上下文和模式我们的目标是培WY充解力的邮生态版并在AgentAI社区中创造一种共同的认同蝴目标感MAA有潜力广泛牯用于各种环境和模式包/藏输入Qt-挪泄地个AgentAI领域可以吸引不同领域的研究人员培育f充满活力的AgmtAI社区,共同的目标,初三学术界Qk界的受A尊®的专熟货吗下酬崛本文将是一次到目丰富的礴迪i三羁、翩螭、任维娴实验讨论,确保所有研究人员获得全面且引人入胜6泮习体验本文旨在提供有关AgentAI领域当前研究的一般性和全面的知识。为此本文的其余部分组织如下宛节概述了AgentAI如何从与相关新兴技术(特别是大型基础模型的集成中受益索节描述了我们提出的用于训练AgemAI的新范式和框架第节概述了智能体训练中广泛使用的方法。第节对各种类型的代理进行分类和讨论。制节介绍AgentAI在游戏、机器人和医疗保健中的应用。符节探讨了研究界为开发多功能智能体所做的努力该智能体靛够应用于各种模式、领域并弥合懒与现其之间的差距第节讨论了AgentAI的潜力,它不仅依赖于预先讥陈的基陶蝇而且因酸然用与不聊用尸板互来礴学习和自翔姆。第9节介绍了我们为多模式智能体Ul练而设计的新数据集第节讨论了人工智能代理的伦理考虑、局限性和¾。柏文的社会牌的热11话里2代理人工智能集成正如之前的研究中所提出的基于LLM和VLM的基础模型在嵌入式AI领域仍然表现出有限的性能,特别是在未见过的环境或场景中的理解'制、缴麻交互方面(Huang等人2023a;皆等人,2023)因此这些限制事认工智能代理萌出碎泡当前以代理为中心的人工智能建模方法侧重于直接访问和明确定义懒据(例如世界状态的文本或字符串表示)并且通常使用从大规模预Vl陈中学习型的与领域和环境无关的模式来预测每个环境的动作输出(Xi等人2023;Wang等人2023c;Gong等入2023a;WU等人2023)在(Huangetal.i2023a中我们通对结合大型基础模型来研究知识引导的协作和交互式场景生成任务并显示出有希望的结果棚基于知识的LLM智能体可以提高2D和3D场景理解的性能、生成和嵋以及其他人初交互(Huangetal.,2023a)通过集成AgentAI框架-大型基础模型能够更深入地理解用户输入从而形成兔杂且自适应的HCI系统1.LM和VLM的新兴能力在生成人工智能、醐匕U智能、多憾更的i识增强、混霞注成、文樨的螭三、渊臧懈A例中2D/3D模拟的人机交互中发挥着无形的作用。AT智能代理在基础I莫型方面的跚进展为解锁实体代理&搬用智能提供了迫在眉喻幽删枪劫作模型或智能体视觉语言模型为通用具体系统(例如复杂环境中的规划'问题解决和学习开辟了新的可能性AgentAl在元宇国中进一步测试,并路由了AGl的早期版本2.1 无限AI代理入工智靛代理有能力根据其训练和输入数据进行解释、颁厢响应。虽然这些功能既进并且不断改进但重要的是要认识到它1方局限性以及它们所训练的基础数据的影响。人工留靛健系统通常具有以下能力:1圈健模:人工智能代S可以根据历史数据和碱照I釜的结果或建议下一步行动。例如他I洞峰硼蚊趣破'i调蟠案'机器的下昨或t裾&瞬舫案。2)决策:在某些应用中人工智能代S可以根据他们的推理做出决策。一般来说代理的瞄最有可能频特定目标的方式做出决定。对于推荐系统等人工智能应用代理可以根据对用户偏好的推断来决定推翻喳产品或内容03)处理岐义:人工部玳理通常可以根据上下文和Ul陈推断最可筋懈释来处理岐义输入然而他Ii网翔的能力受到Ul绽螂藤趣用的E麻上4持续改进:虽然一些人工智转代理有能力从蹦据位互中学习但许多大型语言睡在讥练后不会持续更新其知m或内部表示颂邳睢论通常仅基于上次训练更新时可用的数据我们在图2中展示了用于多模态和跨现实不可知集成的增强交互代理与涌现机制。人工智能代理需要为每个新任务收集大量训练数据这对于许多领域来说可能成本高昂或不可能。在这项研究中,琳班发了既理译习从Physical-World InteractionMulti-Modality AgentSimulator/Mixed-Reality/Metaverse/ProductVirtual-Reality AgentKnoW<>AtlQI Human I D I mgcMon Scenewvth coMe<ehc room. COcnpiett with a . con1erno tN * omochMB wMbord. rvd projector*X-2 -1Mrw Tr TM c<yfmQ WbM technology i UMd in 2 conference roon7A. Th cnfrtnc room H >pd w* rMo coorw1cm2 tfvc<GPT-XI ChatGPT 11 GMne EMinGenerate Avatar virtual attendees IX InteractionMh*Team & Microsoft Gaming图2 :用于2D/3D的多模型代理AI体现了酸飒中的生成液编辑交互w*o ConWrwcmgGa m EngmGPT4 EditiGame EngineKnowledge Agent QADM2GFT-Xveto of itA bu$ is going down the street and it has an " advertisement on the side of it.New TeM a bk9 bm 90Og don tw t*t nd <thaanWIthGRT4Cross-Reality叁POE,三 ns通用基础模型(WGPT-XDALL-E到新领域或场景用于物理或虚拟世界中的场景理解、生砌咬互式编辑这种无限代理在机器人技术中的应用是Rob。Gen(Wang等人2023d)在这项研究中作者提出了一个自主运行任务提出'环境生瞬胶学习周期的管道ROboGen致力于将大型模型中嵌入的知识转移到机器人技术中2.2 具有大型基胆模型的智能体最近的研究表明大型基础模型在创廖媚方面发解至欠重热推用这些数据可以作为确定代理的懒速下的行为的基准。例如使用机器人操纵(Blacketal.,2023;Koetal.,2023和导航(Shahetal.12023a;Zhouetal.,2023a的基础模型为了说明这一点磁克等人采用图像瀛i模型作为高级峨蹴来生成未来子目标的图像从而指导t幽政策(Blacketal.,2023)对于机器人导航Shah等人。提出了一种系统该级采用LLM来识别文本中的地标并使用VLM将这些地标与视觉输入相关联从礴2自然语言指令增强导航(Shah等人2023a)人们对根据语言和环境因素产生条件性人类运动也越来越成兴趣已经提出了几种人工智能系献生成针对特定语言指定的动作和动作(Kim等人2023;Zhang等人2022;Tevet等人2022并适应各种3D场景(Wang等人将人2022a)这项研究强调了生成模型在增强人工智能代理在不同场景中的适应性和口酮凝力方面不断增强的能力2.2.1 幻觉生成文本的代理通常容易产生幻觉即生成的文本无意义或不忠实于所提供僦内容(Raunak等人2021;Maynez等人2020)幻觉可以分为两类:内在谢的例0宽(Jietal,2023)内在幻觉是相互矛盾的幻觉外在幻觉是指生成的文本包含原始材料中最初未包含的附加信息。降低语言生成中幻觉率的一些有希望懒径包括使用检索增强生成(Lewis等人2020年;Shuster等人2021年或其他通过外部矢曲检索来基础自然语言输出的方法(DZiri等人2021年)2021;彭等人,2023)一般来说这些方法试图通过检索额夕部J源材料并提供检查生成的响应和源材料之间矛僭的机制来增强语言生成在多模式代理系统的背景下VLM也被证明会产生幻觉(Zhou等人2023b)基于视觉的语言生成产生幻觉的T常见原因是过度依赖训稣数据中对象和视觉线索的共现(Rohrbachetal.,2018)完全依赖预训练的LLM或VLM并使用有限的特定于环境的微调的人工智能代三可能做IJ容易产生幻觉因为它们依赖于预W练模型的内S胸识库来生成动作,并且可棘法准胸螂世界状态的动态他们部署在其中。2.2.2 偏见和包容性基于LLM或LMM(大型多模态模型的AI代理由于其设计和训练过程中固有的几个因素而存在偏差。在设计这些人工智能代理时琳龙'须注意包容并了解所有魁用户福爆相关者的需求。在人工智能代5里的背景下包容性是指为确保代理的响应和交互对来自不同背景的广泛用户具有包容性、尊重性和敏感性而采取的措施和原则。我们在下面列出了代理偏见和包容性的关键方面。训练数据:基础模型根据从互联网收集的大型文本初鼬行训练QS三、苏、网屈圜蚊栅,哨蝇在瓯映了蜂中存在的偏见模型可以无意中学习并重顺些偏见演括身!族、忸b民族、会娴询!个A局号联侬版蹲、偏廊!卿贼特另提侬对互联磁据(通常仅是英文文本进行训练憾将含他学习了西方、受那育、IilWb、匐翻民主(WEIRD社会的文化规范(Henrichetal.,2010)这些社会拥有不成比例的大量互联网存在。»必须认帆M三殿据集不可霞全没有偏见因为它(I弊常反映社会偏见以及最初生成和/或编译数据的个人的倾向岳常包括来自不同文化的历史和文化偏见:人工智能模型是在来自不同内容的大型数据集上进行训练的。Slhb,训练历史文本或材料。提来自历史来源的Ul缝据可食胞含例特定社会文彳邸S'态度和偏见的冒犯性或贬损性语言。这可能会导致模型延续过时的刻板印象或者无法完全理解当代文化的转变和散差别。语言和上下文限制:语言模型可能难以理解和准确表示语言中的细微差日如讽刺、鳗或如旧镌些阖兄下这可能会导致误解或有偏见的反应。止的卜A语的许多方面都无法被纯文本数据摘获,从而导致人类对语言的理解与模型如何理解语言之间存在潜在的脱节。政策和指南:AT智代理按照严格的政策和指南运作,以确保公和包容性。例如在生成图像0寸有一些感何以使人物的描述多样化避免与种族、性国度他属性相关的匆版印象。R度概括:这些模型倾向于根据训练数据中看到的模式生成响应这可能会导致过度概括模型可能会产生似乎对某些群体刻板印象或做出广泛假设的反应。持续监控和更新:Al智能系统受到持续监控和更新以解决任何新出现的偏见或包容性问题。用户的反馈和E在进行的人工智能伦理研究在这一过程中发挥着至关重要的作用。生流观点的放大:由于练数据通常包含更多来自主流如t三羊体的内容因It模型可能更保向这些观点可能会低估或歪曲少数观点婚德和包容性设计:AZ智能工醐设计应1镯弱虑和雷性作为杨炳I这出酣朝居异、信土池以及询纵工智S环郃曲褂®J板印金用户瞒:JBS导用户如场娓进包容性植说妨式与人工智能互动。这刨魏免提出可能导致有偏见或不适当输出的请求Itt外它可以砌磁惯型从用户交互中学习有害材料的风险,尽管采取了这些措施,人工智能但1欣痴咄偏见,人工智能代理研究和开雌茄鳞力生点是进一步减少这些偏见并增强人工智能代理的包容性和公性,减少多样化和包容性的培训数据:努力纳入更加多样彳讶口包容性的培训数据训练数据中的来源据差检测和纠正:正在进行的研究重点是检测和纠正模型中的偏差回应三德准则和政策:模型通常受道德准则和政策的约束旨在减少馀见并确保相互尊里和包容的互动冬样化的表现:确保人工智能代i甦成的内容或提廊8诋代表广泛的人蟠验'文化'咻和驰速S图像的回舞序构甥屐中瘫要-偏承解:积极努力减少人工皆能O崛中的偏差.这蹒哥嗾't捌'镯、残疾'性取I丽圜也队特征榴说偏见.目标是提供公6和衡的回应不会延续陈规定型观念或偏见。改化敞成性:人工智阚设H具有如团微性承U并唯文刖施、舞群盼题的蝴性这封书聊曲醋回的gl三嵯别可访问性:确保人工智能代三可供具有不同盥t的用户(包括残障人士防同这可能涉及整合一些功能颜视觉听觉阚阈发曜碍的人能健轻松地进行互动福于语言的包容性:提供对多种语言和方言的支持,以满足全球用户的需求基倒并对语言内的细微差别和变化敏感(Liuetal.,2023b)履德和尊重的互动:代理被编程为以道德和尊重的方式与所有人互动用户,避免做出可能被视为冒犯、有害或不尊重的回应转户反馈和宿应:纲用户颂.襁提高人手能f由启容性旃姆这S聒从3恒中学习以翱i三蝌曲礴脚嚼,酒守包容性准则:遵守既定的包容性准贝杯口标准Al代理通常由行业团体、道彼委员会或监管机构设定尽管做出了这些努力但重要的是要意识到反应中可能存在的偏见并用腮附股蛛睇它们。AZ智能代理技术和道德实践的不断改进旨在随着时间的推移减少这些偏见。人工智能代理包容性的苜要目标之一是创建一个尊垂所有用户且易于访问的代理,无论其译察或身份如何2.2.3 数据隐私和使用人工智能代理的一项关键道德考虑涉及理解这些系统如何旭理、存储和可能检索用户数据*我们讨论以下关键方面:翻剧嫖、目的,当使用朋锄囹般高模型幼时才感开发人超访问AI代理在生产过程中以及与用户交互时收集的数据,某期颜允许用户通过用户帐户或向服务提供商提出请求颊看其数据,重要的是要认识到AI智能代理在这些交互过程中收集哪些数据,这可能包括文本输入用=使用模式、三?郁还封獭娜介人信息用诲破7题何踊W凶弼恒中!瀚朔据噫田F题题人现理握了有关特定个人或首琳的错误信息那纳5涛一种假耻用P在曜垢帮触MiE这¾于准确1I捌尊野斤有用P稚林都触要。蜩吩析用P数雕)常见途包括改进用户交互、个用UW蝴系统优化对于开发人员来说,獭果雌不会用于未经用户同意的目的(例如未经请求的营销扳其重要存储和安全。开发人员应邀嘴用户交互数据的存储位置以及采取了哪些安全措棘保O膈免受槌授权的访问或破坏。这包括加密、安全务器御据保护协议。确定代理婶是否与第三方共享以及在什么条件下共享常重要。这应该是透明的并且通常需要用户同意。数据删除和保留。对于用户来说,了解用F嘤螂例部间以及用户如何请求删赊也彳踵要。许戮兆保护法赋予用户被遗忘的权利,这意味着他们可以要求删除其数据。AI代理必须遵守数据保护法,例如欧盟的GDPR或加利福尼亚州的CCPA。灌法律管辖数据处理实践和有关其个人数据的用户权利。数据可移植性和隐私政策。此外,开发人员必须6腱人工普眈黝隐私隙以记录并向用户蟒他们麒据三如何处理的。这应该详细说明数据收集、使用、存蹄0用户权利。开发者应确保在收集数据(尤其是敏感信息时获得用户同意。用户通常可以蝌退出或限制他们提供穗据。在某些司法三辖区用户甚至有权请求酸据的国依.其格式可以传输给其他服务提供商。匿名化对于更广泛的分析或人工智能培训中使用曦据理想情况下应该进行匿名彳W保护个人身份。开发人员必须了解他们的人工智代理在交互过程中如何检索和使用历史用户数据。这可能是为了个性化或提高响应的相关性。总之了解人工智能代理臧豌私涉及了解用户数据的触、使用、存题Qf谢式并确保用户了祺访问、MlOTW据的权利.用户和人工智能代理对数据检索机制的认识对于全面理解数据隐私也至关重要。2.2.4 可解释性和可解释性模仿学习解耦通常使用画片习(RL)或模仿学习叫中的连续反馈循环来训练代理从随机初始(时獭新始«标i-懑防法在秘悉的环境中获得初始奖励时面临排行榜特别是当奖励稀疏或仅在长步交互结束时可用时。因此T更好的解方案是使用釐HL训练的无限内存代理它可以从专毅(据中学习频通过紧急基三S施改迸对看不见在环境空间的探翔酥惘,瞳所示利用专家特征来帮助代理更好地探索和利用看不见的环境空间。AT智能代理可以追纵专家数据中学习策略和新范式流。传统的IL有TR理模仿专家演示者的行为来学习策略。然而直接学习专家辘确目杯总是最好的方法因为代理可能无法很好地泛假味年t的情况为了解决这个问题郑蔚议学习f具有上下文提示或隐式奖励酬的代理以廨氏家行为鹤昉面如图3所示这为无限记忆代理配备了用于任务执行的物理世界行为数据从专家演示中了僻卜它有助于克腑贿的模仿学习缺点伤!MI需要大量专家数据和复杂任务中的潜在错误AgentAI背后的关键思想有两个部分1无限代理将物理世界的专家演示收集为状态-动作对;2娟仿代理生成器的虚拟环境惭代理产生模仿专家行为的动作,而侬通过减少专家动作与学习策略生成碱作N'嵯异的损失函数来学习从状态至励作的策略映射,解耦T泛化。代理不是依赖于特定于任务的奖励函数,而是从专家演示中学习专家演示提供了涵盖各个任务方面的一组不同的状态-动作对。然后传蝴模仿专家的行为来学习将状态映螂臊作的触。模仿学习中的解耦是指将学习过程与特定于任务的奖励函数分开允许策略在不同任务之间进行泛化而不需要明确依颗于特定于任务牌励函数。遹四勰智能体可以从专家演示中学习学习适应各种情况的纲各。解耦窗盟移学习成为可能在一个域中学习的物各可以通过最少的微调来适应其他域。磔学习与特定奖励函数段的一般飒各代理可以利用在一项任务中获微於联来在其他相关任务中醐良好。由于智能体不依赖于特定的奖励函数因此它可以适应奖励函数或环融硼匕而无需进行量的再训练。这做群的I郢藻略在不同环境中更加稳健和通用。这里的解耦是指学习过程中两个任务的分离:学习奖励函数和学习最滕略.泛化紧急行为,而蹄释了知可从更简物斓件或檄件产生新的属性或行为.吴镀思想在于识别姗系统行押厚本元素或规则例如单个嗨元或基本算法因此通咖融些翻胸桢卿收晌相互交互犍组件(十个的相互作用会导致复杂行为的出现,而仅通过检查单个组件是无法预测这些行为的,不同层次的S聒复杂性允许系统学习适用于这些级别的一般原则从而产生涌现的属性。这使得会襟够颉渐的情况展示了从更简单的规则中出现更复杂的行为。止的卜跨不醺杂性缎陋行泛彳的能力促进了知识从一个领域到另一个领域的转移,这有助于随着系细强应在新的环境中出现复杂的行为。图3 :使用代理识别与候选只图像假的爻本的紧急交互机制示例。 该任务涉及使用来自网络的多模人工智能代S和人工潮的知识交 互样本来整合外部世界信息。2.2.5 推理增强人工智能代理的推理能力在于其根据出练和输入数据进行解释、预泱厢响应的能力虽懒些斶蜘2并且不断改进,但夏的是要认识到它们的局限性以及它们所训练的基础数据的影响。悔提在大型语言蜘靖景下,它指的是它根据所练的数据和接收到的输入得出结论、做出颁师生成!诋的能力。人工智能代理中的推理增强国旨通过额5W工M、技术瞬据来增强人工智能的自然推理能力,以Ii骐性能、准确t线质用性,旗复翩嫁场景或处理觊城专!羊讷容时尤其鳗我们在下面指出了推理增强的特别重要的来源:数据丰富。合并醐啪(通常是外部的数据源来提供更多上下文或背景可以帮助人工智能代理做出更明智的推论根提在其训练数据可能有限的领域。例如Al智能代理可以从对话或文本的上下文中推断含义。他们分析给定的信息并使用它来理解用户查询的意图和相关细节这些模型携长i即敷据模式。他们利用这种力根据训练期间学到6嫩式来懒i语言'用B次或其