原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx
《原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx》由会员分享,可在线阅读,更多相关《原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx(69页珍藏版)》请在课桌文档上搜索。
1、4睛便产t-J4Cv:t:.莅:,grl*httpsfanyi.ycH谷歌DeePMindGemini:一个非常有能力的多模式模式的家庭Gemini小赳,我是Googlei本报告介绍了一个着的多模式模型家族,Gemini,它在图像、音频、视项和文本理解方面表现出卓越的能力.Gemini系列包括UlIra、ProDNano尺寸,适用于从复杂推理任务到设备上内存受限用例的应用.对广泛基准涌战的评估表明,我旬最强大的GeminiUIIra模型在32个基准流试中的30个中都达到了最先进的水平一一值得注意的是,它是第一个在经过充分研完的考试基准MMLU上达到人类专家性能的模型,并且在我们测试的20个多模
2、式基准次试中都提高了最先进的水平.我11相信,Gemini模型在普模态推理和语言理解方面的新功能将支持各种各样的用根,我基于神经网络的深度学习的长期工作历史(LeCUnetal.,2015)和机器学习分布式系统(Barhamctal.2022;BradbUry等人,2018年;Deanetal.,2012),使大规模训练成为可能。我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果,包括12个流行文本和推理基准测试中的10个,9个图像理解基准测试中的9个,6个视频理解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。GeminiUItra
3、是第一个在MMLU上实现人类专家性能的模型(hendricks等人,2021a)个通过一系列考试测试知识和推理的著名基准一一得分超过90%0除了文本,GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如,在最近的MMMU基准测试(YUeetal.,2023),它包含了关于需要大学水平学科的多学科任务中的图像的问题1完整的作者列表见投稿和致谢部分。请发送信件到gemini-l-report(3googJe.m02023谷歌版权所有知识和深思熟虑的推理,GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性
4、能提升。定性评估展示了令人印象深刻的跨模态推理能力,使模型能够对输入的音频、图像和文本序列进行原生的理解和推理(见图5和表13)o考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题,一个学生解决了这个问题。利用Gemini的多模态推理能力,该模型能够理解杂乱的笔迹,正确理解问题的表述,将问题和解决方案转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性,我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。提示这是一个学生对物理问题的!爸.ZIaK示,41修知W上a下,991Q
5、M%SS能量的一致性意味着滑雪者在开 始和结束时的能量是相同的 Staul: E=mgL结束:E=lmv2NGL = 2MV2v=-2gL=2x9.81r80 = 39.6m.s-l试着一步一步地推理这个问题.学生得到正确答案了吗?如果答宴是ts的,话解称错在中里并解决向建,仅便用LaTeXS行政学海鼻,弁轿佟答案四包五人到小Bt点后再位.响应这个学生没有得到正确答案.这个学生在计真斜率开始处的势能时犯了一个福 误。料理开始处的势能由mgh给出,其中m是滑雪者的质.g是由于重力引 起的想速度,h是斜坡的百度O在计B!势能对,学生使用的是坡度的长度L 而不是高度儿正BHM决方让JE:彘量守恒是指
6、潘雪杳在斜城开始和结束时的总能量是相同的,在斜坡的起点,清金者只有为IIL ISmgh6ttL在斜坡的末诸,滑击者只有动能,用ImV给出IStt, M可以写:MGH = ImV消去两边的质量m,我In得到:克二1解出V SflSH:v=V2gh代入给定值,得到:v=V2x9.81x 40=28.01 m/s因代,哥Sif在科收度尊的速度为28Qlm图1I验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上,它需要理解问题设置并正确遵循指令来生成LATEX。大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AIpha
7、Code团队构建了AlphaCode2(Leblond等人,2023年),这是一个新的双子座驱动的代理,它将Gemini的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上,AlphaCode2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进(Lietal.,2022)。与此同时,我们通过GeminiNano推进了效率的前沿,这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并相对于其规模,在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。在接下来的章节中,
8、我们首先提供了模型架构、训练基础设施和训练数据集的概述。然后,我们对Gemini模型家族进行了详细的部旅涵盖了经过充分研究的基准和人类偏好评估,包括文本、代码、图像、音频和视频一一包括英语表现和多语言能力。我们还讨论了友清任期著的方法,2包括在部署决定之前进行影响评估、制定模型政策、评估和减轻危害的过程。最后,我们讨论了Gemini更广泛的影响,它的局限性以及它的潜在应用一一为人工智能研究和创新的新时代铺平了道路。2 .模型架构Gemini模型建立在Transformer解码器(VaSWani等人,2017)之上,通过架构和模型优化的改进得到增强,以实现大规模的稳定训练,并在Google的张量
9、处理单元上优化推理。它们经过训练以支持32k上下文长度,采用高效的注意力机制(例如,多查询注意力(ShaZeer,2019)。我们的第一个版本,Gemini1.0,包括三种主要尺寸,以支持广泛的应用程序,如表1所示。模型尺寸我们最有能力的模型,在各种高度复杂的任务中提供最先迸的性能,包括推理和多模式任务。由于双子座架构,它可以在TPU加速器上大规模有效地服务。在成本和延迟方面的性能优化模型,可在广泛的任务中提供显着的性能。该模型表现出强大的推理性能和广泛的多模态能力。我们最高效的型号,设计用于设备上运行。我们训练了两个版本的Nan0,参数分别为1.8B(NanO-I)和3.25B(NanO-2
10、),分别针对低内存和高内存器件。它是通过从更大的双子座模型中提取来训练的。它为部署进行了4位量化,并提供了一流的性能。表1IGeminiLO模型家族概述Gemini模型经过训练,可以适应文本瑜入与各种各样的音频和视觉输入交织在一起,比如自然图像、图表、截图、pdf和视频,它们可以产生文本和图像输出(见图2)oGemini模型的视觉编码灵感来自我们自己在FIamingO(AIayraC等人,2022)、CbGi(YU等人,2022a)和RlLl(Chen等人,2022)上的基础工作。有一个重要的区别,即模型从一开始就是多模态的,并且可以使用离散的图像标记原生输出图像(RameSheIal.,20
11、21;YUetal.,2022b)o视频理解是通过将视频编码为大上下文窗口中的一系列帧来完成的。视频帧或图像可以与文本或音频自然交错,作为模型输入的一部分。模型可以处理可变的输入分辨率,以便花费更多的计算我们计划在GeminiUIg模型全面上市之前更新这份报告,提供更多细节。喻入序列图2IGemini支持文本、图像、音频和视频的交错序列作为输入(通过输入序列中不同颜色的标记来说明)。它可以用交错的图像和文本输出响应。需要细粒度理解的任务。此外,Gemini可以直接从通用语音模型(USM)(ZhangeIal.,2023)特征中摄取16kHz的音频信号。这使得模型能够捕捉音频被天真地映射到文本输
12、入时通常会丢失的细微差别(例如,请参阅网站上的音频理解演示)。训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型,我们的基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练,利用Ultra的一小部分资源。Nano系列模型利用蒸储和训练算法的额外进步,为各种任务(如摘要和阅读理解)生产一流的小型语言模型,为我们的下一代设备体验提供动力。3 .培训基础设施我们使用TPUv5e和TPUV4(Jouppi等人,2023)来训练Gemini模型,具体取决于它们的大小和配置。GeminiUltra训练中心在多个数据中心使用了大量的TPUV4加速器。这代表了我们之前
13、的旗舰型号PaLM-2的规模显着增加,这带来了新的基础设施挑战。加速器数量的增加会导致整个系统中硬件的平均故障时间成比例地减少。我们最小化了计划重调度和抢占的比率,但由于宇宙射线等外部因素,在如此大规模的所有硬件加速器中,真正的机器故障是司空见惯的(MiChaIaketal.,2012)TPUv4加速器部署在4096个芯片的“S叩CrPOdS”中,每个芯片连接到一个专用的光开关,它可以在大约10秒内动态地将4x4x4芯片立方体重新配置为任意3D环面拓扑(JOUPPi等人,2023),对于GeminiUltra,我们决定在每个超级舱中保留少量的立方体,以允许热备用和滚动维护。TPU加速器主要通过
14、高速芯片间互连进行通信,但在GeminiUltra规模下,我们使用谷歌的集群内和集群间网络在多个数据中心中组合SuperPods(Poutievski等人,2022;WelheraIl等人,2023;姚红等,2018)。谷歌的网络延迟和带宽足以支持常用的同步训练范式,利用SUPerPOdS内部的模型并行性和S叩CrPOdS之间的数据并行性。Jax(Bradburyetal.2018)和Pathways(Barhametal.2022)的单控制器”编程模型允许单个PythOn进程协调整个训练运行,极大地简化了开发工作流。XLA编译器中的GSPMD分区器(XUetaL2021)对训练步长计算进行分
15、区,MegaScaleXLA编译器(XLA,2019)通过静态调度适当的集合,使它们在步长时间变化很小的情况下最大限度地与计算重叠。使用对持久集群存储的权重定期检查点的传统方法,在这种规模上保持一个高的goodput5at是不可能的。对于Gemini,我们使用了模型状态的冗余内存副本,并且在任何计划外的硬件故障上,我们可以直接从完整的模型副本中快速恢复。与PaLM和PaLM-2相比(Anilctal.,2023),尽管使用了更大的训练资源,但这在恢复时间上提供了显着的加速。因此,最大规模训练工作的总体有效产出从85%增加到97%o空前规模的训练总是会出现新的有趣的系统故障模式一一在这种情况下,
16、我们需要解决的问题之一是“无声数据损坏(SDC)(Dixit等人,2021;Hochschildetal.2021;VishwanathanetaL,2015)0虽然这种情况非常罕见,但Gemini的规模意味着我们可以预期SDC事件每隔一两个星期就会影响训练。快速检测和移除故障硬件需要几种新技术,利用确定性重放来隔离不正确的计算,并结合空闲机器和热备用上的主动SDC扫描仪。我们完全确定的基础设施使我们能够在Ultra模型的开发过程中快速识别根本原因(包括硬件故障),这是稳定训练的关键因素。4 .训练数据集Gemini模型是在一个多模态和多语言的数据集上训练的。我们的预训练数据集使用来自网络文档
17、、书籍和代码的数据,包括图像、音频和视频数据。我们使用SentencePiecetokenizer(Kudo和Richardson,2018)发现在整个训练语料库的大样本上训练tokenizer可以提高推断的词汇表,并随后提高模型性能。例如,我们发现Gemini模型可以有效地标记非拉丁文字,这反过来又有利于模型质量以及训练和推理速度。用于训练最大模型的token数量是按照Hoffmann等人(2022)的方法确定的。较小的模型被训练为明显更多的token,以提高给定推理预算的性能,类似于Touvron等人(2023a)提倡的方法。将高质量过滤器应用于所有数据集,使用启发式规则和基于模型的分类器
18、。我们还执行安全过滤,以删除有害内容。我们从训练语料库中过滤我们的评估集。最终的数据混合和权重是通过较小模型上的消融来确定的。我们分阶段训练以在训练期间改变混合组成-在训练结束时增加领域相关数据的权重。我们发现,数据质量对一个高性能的模型至关重要,并相信围绕寻找预训练的最佳数据集分布仍然存在许多有趣的问题。3我们将goodput定义为诃算有用的新步滕所花费的时间除以训练1:作经过的时间。5 .评价Gemini模型本身是多模态的,因为它们是通过文本、图像、音频和视频联合训练的。一个开放的问题是,这种联合训练是否可以产生一个在每个域都具有强大能力的模型一一即使与仅为单个域量身定制的模型和方法相比。
19、我们发现情况就是这样:Gemini在广泛的文本、图像、音频和视频基准上树立了一个新的艺术状态。5.1. 文本我们将GeminiPro和Ullra与一套外部法学硕士和我们之前最好的型号PaLM2进行了比较,涵盖了推理、阅读理解、STEM和编码等一系列基于文本的学术基准。我们将这些结果报告在表2中。总体而言,我们发现GeminiPro的性能优于GPT-3.5等推理优化模型,并与市面上几种功能最强大的模型相媲美,而GeminiUltra的性能优于当前所有模型。在本节中,我们将检查其中的一些发现。在MMLU(Hendrycks等人,2021a),GeminiUltra可以优于所有现有模型,达到90.0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原生 多模态大 模型 Gemini 有道 翻译 市场营销 策划 重点 报告 202301202 _doc

链接地址:https://www.desk33.com/p-1103227.html