2024年斯坦福AgentAI论文.docx
《2024年斯坦福AgentAI论文.docx》由会员分享,可在线阅读,更多相关《2024年斯坦福AgentAI论文.docx(82页珍藏版)》请在课桌文档上搜索。
1、人工智能代理:调查多模式交互的前景TheEmergingAgentAlParadigmforMulti-modalandCross-RealityAGIPhysical WorldVirtual WorldAgent ParadigmEmbodimentProductCamerasAmbient IntelligenceService Robots Virtual RealityMid Reality Virtual AvatarAugmered Reality GUI AppMuhi*moda sensors Social networksGencralistAgentsAssistantA
2、utonomous VehicleGamingAutonomousVehiclesManufacturingEmbodied SystemAl CopilotsAl for HealthInfra- StrUetUre Microphones IOTMuItbGPUVideolAudio SimulatorsPlanning capabilitiesPrirtiveaction ystemActuatorsSecurityCloud ServersWebsearcKnowledgeReasoning systemhoboticsdontrollerHumanInteractionMechani
3、cal armGenerative AlMemoryrainComipiltcr Interface) Objects / EnvironmentOser/Agent Input2D lmaSpeechPhysicsEnvironmentControllerPhysical ExperimentsPhilosophy of mindTextBig dataI ObservationsInferenceTrainingAgent ActionPerception Task-SpecificInfoSmartsensorsData CompressionMLTheoryInformaticsTas
4、k-Planning and Skill-ObservationPerceptionReasoningIntuitionConsciousness Intelligence!Cognitkmc ScienceTactileensorsControl TheoryMechanicsOptimizationSystem EfficiencyActionCognition(Thinking, Consciousness,Sensing, Empathy, andoverall Cognitive System)/ Agent、 I Interactive J I Closed-loop/ XiJ.L
5、earning(PretrainZero-shot, few-shotfrom LLM and VLM, etc.)Memory(Knowledge, Logic, Reasoning, and Inference)图1:可以在不同领域租期幅序中够由采取行动的智铜W系统概述一大壬智能伸蚯在成为通用天王智能(AGI序f有前途的途径。i智能代理Uii练警展示了对物理世界的多模式理解的能力。它叫怀IJm生成式人工智能以及多个独立数据源为导赎无随培训提供了一个框架当针对跨现翔据进行练时针对代理手呦作相关任务说刊练的大型基础模型可以应用于物理和虚拟世界。物摘绍了智能体人工智能系统的总体概述该螭可以在许多
6、不同的领域和应用程序中感知和行动可能作为使用智能僦隧现AGl的途径抽象的多模式人工智能系统可能会在我们的日常生活中无处不在。一个有前途的使这些系统更具交互性的方法是将它C麻现为物理中的代理和虚拟环境.目前系统利颠有的幽的甦作为基5出用于创建具体代理的构建块。在此类环境中嵌入代理促进模型处理和解释视觉和上下文数据的能力,这一点至关重要用于创建更复杂和上下文感知的人工智能系统。矽如一个系统可以感知用户动作、厩行为、环境物体、敲隔番喋体场景的情绪可用于通知和指导代理在给定环境中的响应。为了力睡基于代理的多模态智能的研究我的uAgentAIw定义为T交互系统可以感知视觉激、语言输入和其他基于环境的数据
7、并可以产生有意义的具体行动。悔屉我门探索系统旨在通过结合外部来改进基于下一个具体动作预测的智能体知识多感官输入和人类反馈。我们认为通过开发代理人工智能接地环境中的系统,还可以减轻大型基础的幻觉模型及其产生环境不正确输出的倾向。代理新兴领域人工智能包含了多模式交互的更广泛的体现和代理方面。超越代理商在物理世界中行动和互动,我彳门设想未来人门可以轻松地创腌任何虚拟现实或模拟场景并与虚拟环境中体现的代理进行交互。AgentAI分类通才代理领域5.2。20实体代理。GOO。OooOOOOQaOaoo201.1.1 T1t9oo*oevooo*20理21.1.2 弋*veooooo*evovoo理。一2
8、5.3 模拟和环境代.0.0。01理。ooooo25.4 生成代理。.。.1。0。25.4.1 AR/VR/2混合现实代理.0,0.(I(I(I0.,0.l2、知识和逻辑推理主2体。OO.OOO.O.0.0.0.0。23“逻辑代理。情感推理代2理234神经象征齐Il。23独蚪M和VLMN46苦能代理应用任务6.1游戏代理245.4.2 NPC行为245.4.3 人与NPC交互255.4.4 基于代理的.25博弈分析。25.4.5 游戏场景合.7成.i三三三2281.LM/VLM机器人代30理3实验和结果31.医疗保健35.当前的医疗保健能力36.多模式代理。.图像语言理。36解和生成。oooo
9、ooooooooo.视频和语言36理解和生成.实验和结果376.5视频语言实验。39OOOOOOO41.NLP代理N一般LLM代理.法学硕士.遵循指令的LLM代理代理。实验与结果4545.045。46467跨模态领域和现实的智彘体7.1跨模态理解的智能体48“跨域理解代理48,跨模态和跨现实的交互代理49.模拟到真实的传输OOooo*oooooooooo*oo*oooooo8AgentAI的持续自我完善&1人机交互数据49。498.2基桃模型生成的数据509代理数据集和排行榜9.1用于多代理游戏的uCuisineWorIdw数据集。50509.1.1基准9.1.2任务9.1.3指标和判断。51
10、519.1.4评价519.2音频-视频-语言预训练数据51集,10更广泛的影响声明52道德考虑S3领印本12多元彳W明53参考55附录69GPT-4V代理提示详切佶息69BGPT-4V尖端技术69CGPT-4V用于微软战斗模以筹69DGPT-4V适用于刺客信条奥德赛69域用于(战争机器4EGPT-4V69FGPT-4V任用于星空751简介1.1 动机从历史上看人工智能系统在1956年达特茅斯会议上被定义为人工生命形式,可以从环境中收集信息并以有用的方式与之交互。个定义的!发,明斯基的麻省理工学院J组于1970年构建了一个名为“复制演示的机器人系统该系缴嚓块世界场景并成功重建了观翎的多面隔相构。
11、该系融膘、规划W限懈成表明每个子间瞬湘具挑战性蠲注一步研究。人工智能领域分为专门的子领域这些子领或在解决这些问题和其他问题方面基本上独立地取得了巨大进展M强度还原论哪了人工智能研究的总体目标,为了超越现状有必要回归亚里士多德整体论驱动的人工智能基础。幸运的是,最近大型语言模型(LLM前视觉语言模型(VLM的革命使得创建符合整体理想的新型人工智能代理成为可能。抓住这个机会本文探讨了整合语言能力、视觉认知、情境记忆直犍野嗨应性的魁。它探讨了使用LLM和VLM完成这种整体综合的可能性。在我们掰稼中我(i比重斯审视了基于亚里士多德最终胭的系统设计即目的论系统为何存在n几轮人工智能发展中可捱被忽视随着强
12、大的预训练法学硕士和VLM的出现自然语言处理和计算机视觉领域的更兴解!1了促进法学硕士现在展现出令人印象深刻破译现实世界语言数据细微差别横力通常能物挺I归人类专业知iR相当甚至随雌力(OpenAI-2023)最近研究人员表明法学硕士可以扩展到在各种环境中充当代理与特定领域的知识和模块配合使用时执行复都臊作和任务(Xi等人2023)这些场景的特点是杂的推理对智能体角色及小腐漉解以及多步骤规划测试智能体在其环微雅(1内做出高度细致和复杂的决策的能力(Wuetal.,2023;MetaFundamentalA三究(FAIR外交团队等,2022)在这些初步努力的基础上人工智能社区正处于重大范式转变的风
13、A浪从为被动、结构fbff务仓腱人工智能模型过海蛇够在多样化和复杂的环境中承担动态、代理角色的!磔在It情景下,本文财了使用LLM和VLM作为代理的巨大潜力强国7融合了语言能力、视觉认口、情境记忆、直碘野腌应曲外睡mLLM和VLM作为代理,尤其是在游戏、机器人和园7保健等领域不仅可以为最先进的人工智能系僦供严格的评估6台,而且还预示着以代理为中心的人工智能将产生的变革性影响社会和行亚。当充邠岬时田野镂可以重新定义人类体验并提靛营标准。这些模型带来的全面自动(冰J潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的排行榜型R在一起不仅是技术方面的而且是道德方面的IB瞰们将在第11节中详细
14、阐述的那样。我们深入研究智能体这些子领域的重叠领域并在图1中说明它们的相互关联性。1.2 12我们现在将介绍支持智能体的概念、理论前景和现代实现的相关研究论文大型基础模型:LLM和VLM一直在推动通用智能机器的开发(BUbeCk等人2023;MirChandani等人2023)尽管他们是使用大型文本语料库进行训练的但他们酬问题解决能力并不局限于规范语言处理领域法学硕士可以解决以前被认为是人类专家或特定领域算法独有的更杂任务范围从数学推S(Imani等人2023年;Wei等人2022年;Zhu等人2022年到回答专业法!问题(Blair-Stanek等人2023年;Choi等人2023年;Nay
15、,2022年)最近的研究表明使用法学硕士为机器人和游戏人工智能生成复杂计划可能性(Liangetal.r2022;Wangetal.z2023a,b;Yaoetal.,2023a;Huangetal.,2023a)标志着法学硕士作为通用智能代理的一个重要里程碑。预印本体现人工智能:许多工俯蝴法学硕士来执行任务规划(Huangetal.,2022a;Wangetal.,2023b;Yaoetal.,2023a;Lietal.,2023a)特别是法学硕士的WWW规模领域知识不幽兴的零样本体现了执行豆杂任务规划和推理的能力最近的机器人研究三利用法学硕士来执行任务砌(Ahn等人2022a;HUang等
16、人2022b;Liang等人2022)将自然语言指令分解为一系列子任务无论是目然语言形式还是在PythOn代斛盛糊彳。Ii矽卜它M蟠等不晅金(Huang等人2022b)、(Liang等人2022)、(Wang等人2023a和(Ikeuchi等人-2023)。交互式学习:专为交互式学习而设计的人工智能代摩合机器学习林和户交互进行操作三J人瑾爵漉&梗婴解母例I练蟋据集包含各种类型的信息具体取决于代哪娜曦例如为酷任务设H的A谑能将在大量文本数镂J施行y练训跳服使用啥习算法其中可能包括解网络等深度学习模型,这些Ul练模型使人工智能能够根据l三(据识别式、做出瓒W生成领Z,AI留能f愧硝M与用户的实时交
17、互中学习。这职恒式学习可以通过多种方觎行1基于反馈的学习:人工智能三S直接ffi户反迷醺其。向应(Lietal.,2023b;Yuetal,2023a;Parakhetal.,2023;Zhaetal.,2023殍人2023;Wake等人2023abe)5lmPiET三o陋T域何以聊此信息来改进未来的响(Zha等人2023;LiU等人2023a)-2观察学习:AT智能U嚓用户交互并隐式学习。例如礁用F缴侬螂问殿以特访式与人身狡互期丽啦以更刷亟幽赋它母午人工窗断隔螂和处理人类语言、多I建设雪、晒等赎上下手断认瑚户的)诋.随着时间的推移嫡更多的用户交互和反而AZ智能代理0州就通常会持续提高这个过程
18、通常由人类操作员或开发人员监督他IiTS嘛人工踊舐解习产生偏见或不正确的模式1.3 概述多模态智能体(MAA)是一系列系统,可基于对多模态域官输入的理解在给定环境中生成有效的操作,随着大型语言模型(LLM和视觉语言模型(VLM的出现从基础研卿!应用领域大型的MAA系统被提出虽然这些研究领域通封与每个领域的传统技术(例如视觉问答和视觉语言导航)相结合而快速发展,但,施阚剧摩基觑诞贼林浒琳凄族汕IAA的一些代表性研究领域艮唐娜游戏(VR/AR/MR)、机器人和箭保健旨在提f贿趟些领域讨通婵见问题的全酬识。因此物瞬望7解MAA的基础知识并获得见解以进一步推进他们的研究。具体学习成果包括:-MAA概述
19、:深入探讨其原理和在当代应用中的作用,让研究人员全面掌握其歪要性和用途.-方法论:LLM和VLM如何增强MAA的详细示例电物戏、机器人和医疗雕领域的案例研究进行说明领效评估:使睡关蹦集评估MAA的指南重点关注其有效性和阉Stt帝德考虑:讨论S醋人工智能趣!的社会影1照海德排行榜强调负责任的开发实践。渐兴趋势和未来排行榜:对每个领域的最新发展进行分类并讨论未来发展方向基于计算机的动作和多面手代理(GA)对于许多任务都很有用GA要对其用户真正有价值它可以自然地与广泛的上下文和!耘进行交互并推广到广泛的上下文和模式我们的目标是培WY充解力的邮生态版并在AgentAI社区中创造一种共同的认同蝴目标感M
20、AA有潜力广泛牯用于各种环境和模式包/藏输入Qt-挪泄地个AgentAI领域可以吸引不同领域的研究人员培育f充满活力的AgmtAI社区,共同的目标,初三学术界Qk界的受A尊的专熟货吗下酬崛本文将是一次到目丰富的礴迪i三羁、翩螭、任维娴实验讨论,确保所有研究人员获得全面且引人入胜6泮习体验本文旨在提供有关AgentAI领域当前研究的一般性和全面的知识。为此本文的其余部分组织如下宛节概述了AgentAI如何从与相关新兴技术(特别是大型基础模型的集成中受益索节描述了我们提出的用于训练AgemAI的新范式和框架第节概述了智能体训练中广泛使用的方法。第节对各种类型的代理进行分类和讨论。制节介绍Agent
21、AI在游戏、机器人和医疗保健中的应用。符节探讨了研究界为开发多功能智能体所做的努力该智能体靛够应用于各种模式、领域并弥合懒与现其之间的差距第节讨论了AgentAI的潜力,它不仅依赖于预先讥陈的基陶蝇而且因酸然用与不聊用尸板互来礴学习和自翔姆。第9节介绍了我们为多模式智能体Ul练而设计的新数据集第节讨论了人工智能代理的伦理考虑、局限性和。柏文的社会牌的热11话里2代理人工智能集成正如之前的研究中所提出的基于LLM和VLM的基础模型在嵌入式AI领域仍然表现出有限的性能,特别是在未见过的环境或场景中的理解制、缴麻交互方面(Huang等人2023a;皆等人,2023)因此这些限制事认工智能代理萌出碎泡
22、当前以代理为中心的人工智能建模方法侧重于直接访问和明确定义懒据(例如世界状态的文本或字符串表示)并且通常使用从大规模预Vl陈中学习型的与领域和环境无关的模式来预测每个环境的动作输出(Xi等人2023;Wang等人2023c;Gong等入2023a;WU等人2023)在(Huangetal.i2023a中我们通对结合大型基础模型来研究知识引导的协作和交互式场景生成任务并显示出有希望的结果棚基于知识的LLM智能体可以提高2D和3D场景理解的性能、生成和嵋以及其他人初交互(Huangetal.,2023a)通过集成AgentAI框架-大型基础模型能够更深入地理解用户输入从而形成兔杂且自适应的HCI系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 斯坦福 AgentAI 论文
链接地址:https://www.desk33.com/p-1202874.html