2024大语言模型能力测评报告.docx
《2024大语言模型能力测评报告.docx》由会员分享,可在线阅读,更多相关《2024大语言模型能力测评报告.docx(65页珍藏版)》请在课桌文档上搜索。
1、极客邦科技双数研究院InfoQ研夯中心大语言模型综合能力般一屈料枝或被确免除InfoQ研变中心大模型市场发展洞察2023年,全球大模型市场进入爆发阶段大模型爆发阶段2022-2023年大模型诞生阶段2017-2018年大模型探索阶段2019-2021年11.22谷雌出BERTRoBERTa 和 XLNet2022 1130 C)PenAI 推出 ChatGPT在爆发期,大数据、大算力和大算法完美结合, 态理解与多类型内容生成能力。了多模人发布MC)SS 2.2020232.7谷歌发布Ba成(应对ChatGPT 4.11阿里云发布通义干问 5月百度发布文心大模型3.5 5.6科大讯飞发布认知大模
2、型 5.11谷歌更新Bard并推出PaLM 2侬 5.24微软宣布WindoWS系统全方 IiCopiIot在诞生阶段,以TranSformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模期术的性能得到了显著提升。2017 6.12谷歌推出用于处理自然语言任务的Transformer神经网络架构2018 6.11C)PenAI发布GPT-I在探索期,基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。2019 3.16百度推出可以准确理解语义的ERNIE1.0 8.21OpenAI发布GPT-2并部分开源 10.11谷即推出B
3、ERT模型的两个新版本2020 11.5OPenA吸布12(X3#版GPT-3微软基于ChatGPT发布NeWBing 2.25FaCeBook发布LLaMA-13B 3.14OPenAI发布GPT-4并实现图像识别 3.16百度发布文,A言3.17微软宣布将GPT-4接入OffiCe全家桶4.10昆仑万维发布天工3.52023年中央及地方政府积极制定政策鼓励和规范大模型产业发展2023年,中央及地方围绕基础设施、算法、算力、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则,鼓励和规范作为硬科技的Al大模型产业发展。序号时间文件名主要内容12023年7月生成式人工智能
4、服务懿暂行办法明确了生成式人工智能“提供者“内容生产、数据保护、隐私安全等方面的法定司王及法律雁,确立了人工智能产品的安全评估规定及管理办法。22023年7月上海市推动人工智能大模型创新发展的若干措施推动上海大模型创新发展,营造通用人工智能创新生态,力瞅打造世界级人工智能产业集群。32023年8月电子信息制造业2023-2024年稳增长行动方案鼓励加大数据基础设施和人工智能基础设施建设,满足人工智能、大模型应用需求.42023年10月人形机器人创新发展指导意见到2025年,AOl器人创新体系初步建立,大脑、小脑、肢体等一批关键技术取得突破,确保核心部组件安全有效侬,开发基于人工智能大模型的人形
5、机人大脑。5202评11月北京市人工智能行业大模型创新应用白皮书(2023年)从大模型全球发展态势、国内外行业应用概述、北京应用情况和发展建议等方面进行了系统分析和阐述,旨在进一步推动大模型应用落地,展示北京市大模型应用成果,促进大模型价值传播和供需对接。6202舜1月广东省关于加快建设通用人工智能产业创新引领地的实施意见22条铀打造国家通用人工智能产业创新引领地。72023年12月关于加快推进视听电子产业高质量发展的指导意见支持骨干企业做大做强,支持人工智能企业研发视听应用大模型.82023年12月“雌要数(2024202弹)(征期碉)以科学数据支持大模型开发,深入挖掘包含科技文献在内的各类
6、科学数据,通过细粒度的知识抽取,构建科学知识资源底座,建设高质量语料稿库和基础科学数据集,支持开展通用人工智能大模型和垂直领域人工智能大模型训练。2023年下半年,中国百模大战掀开序幕2023年6月至2023年8月 6.14 360发布智脑大模型4.0 6.15百川智能发布开源BaichUan-7 B 6.25清华&智谱Al发布开源ChatGLM 2 7.7华为发布盘古3.0 7.7商汤科技发布商量2.0 7.9西湖心辰发布西湖大模型 7.19 Meta 发布开源 Llama 22023年10月至2023年12月 10.9月之暗面发布Kimi Chat 10.17百度发布文心大模型4.0 10
7、.24科大讯飞发布星火大模型3 . 0 10.27智谱Al开源了ChatGLM 3等模型 10.30百川智能发布BaiChUan2-192 K 10.31阿里云发布通义千问2.0 11.7 OPenAl发布GPT-4 Turbo 11.16 OPP。发布 AndeSGPT 11.24零一万物发布开源Yi - 34 B 12.22腾讯发布混元大模型标准版多模态.长文本、逻辑能力加强2023年8月至2023年10月 8.3阿里云推出开源QWen-7B 8.7元象科技发布开源XVERSE-13B 8.11小米发布大模型MiLM 8.17字节跳动公测大模型产品豆包 8.21云从科技发布从容大模型L5
8、9.5商汤科技发布商量3.0 9.6百川智能发布开源BaiChUan2 9.7腾讯发布混元助手 9.20上海人工智能实验室发布开源ImernLM-20B 9.25OPenAl发布多模态GPT-4V文本理解和逻辑能力提升、具备初级代码生成、跨模态能力从头部企业到百模家族,大模型井喷式爆发增长游戏电商IJli*三BAAI费YM能源制造I社交文娱eL*阅文集团*V基粒模型S维I日日新A r IbflI颐O I智脑0从容的EI玉吉Ifl IChatGLMM I山海门出门问问I 筋喉子研究机构tiR I PoIyLMidea二峥mossJAAI悟道X I蜗就IE)a.7 W I天河天元ChatBot。文
9、曲B6O885IBaichuan-ChatChatJD豆包MCSS及SenseChat工天工kimichat智谱清言(?知海国Chat1+培刚E田IJWPSAl7可打首艇助手尊MyAI客服营销CcMcta淘宝问问思涌Al代码CBaiducomateOCMEFKeS。1京遢义灵码U其他0文曲TSQ对金鬲增肯励手工场JHWmHiEcho如影V三X三忘遢义仁深容医疗智能多模态科研平台(IRMlB作f戏电商_日JlI窗色大霰*阅文妙笔尢鲤1mX*三zDB文心传媒/影视行业大模型教育山港,011三b星辰教育大模型:子日J教:OWRC*S三AMI仓预汽车大模型金融文心金融行心处想金融人蚁睡文因金女模Ant
10、FinGLM型FD-LLMMFRML9Mfl能造文心能源/制造行业大模型a三r山大盘古矿山大模型ISvnTiuo(4lB)其他文心幽和城色展程同宣市,雪聚Ik科神飞首销大模型小里盘古气妣鲤白玉兰科学大模型1.0盘古跨境电商大模型玉言游戏行业大模型.SooaI(7T文曲大模型盘古媒体大模型等DriveGpt三t三xm-AtmoTO三WXW三盘古;铸大侬叮当HeaithGPTDoctorGLM星火医疗大模型ChatLaw法律大模型LJUul辘来源:InfOQ研究中川魏厂商官网、媒体资讯等公开资电健从通用大模型到大模型产品,大模型细分应用赛道不断涌现2023年国内主要科技公司在推出通用大模型的同时,
11、也正在根据企业资源特征、用户使用场景、生态圈层需求等将通用大模型产品逐渐扩展成为覆盖多个应用场景的产品家族。大模型头部厂商逐渐形成。Bai!百度通用大模型:文心大模型大模型产品:文心一言、文心一格行业产品家族:媒体、能源、金融等行业的13款产品通用大模型:通义大模型大模型产品:通义千问行业产品家族:金融、法律、医疗等行业9款产品通用大模型:混元大模型通用大模型产品:腾讯混元行业产品家族:金融、文旅等行业的5款产品/V科大讯KIFLYTEK通用大模型:讯飞星火认知大模型大模型产品:讯飞星火行业产品家族:教育、办公、汽车等行业的4款产品国离部科民双效研究院InfoQ研交中心2023年大模型从极客世
12、界走向大众从定邀小众用户到APP端大众可以直接下载,大模型产品正在从极客世界走向更多大众。常用应用中嵌套功能产品发布邀请测试2023年上半年只有少数几款产品可以直接申请使用。大部分产品需要获得开发的企业定向邀请,才能注册使用。向公众开放测试2023年8月31日起,文心一言、通义干问、讯飞星火等产品逐步完全向公众开放,9月APP应用商店的下载冠军多次由大模型产品获得。通义千问入驻钉钉号,百度文库也接入了文心一言,上线了智能小助手功能。办公场景中,大模型开始更直接地与用户互动,性能水平直线提升。国离部科民双效研究院InfoQ研交中心2023年下半年,中国大模型用户开始真正使用产品2023年9月起,
13、中国大模型产品开始陆续开放公众注册和使用功能。以开发者为例,用户大模型产品开始使用时间67.17%集中在2023年下半年。开发者开始使用大模型产品的时间统计糠来源,2023年12月InfoQ 献部 出,.”开发部研,N=1217S国离部科民双效研究院InfoQ研交中心2023年,中国大模型正在进入更多用户的认知心智中开发者大模型的认知度统计开发者认知心智梯队基本形成国离部科民双效研究院InfoQ研交中心第一梯队GPT系列大模型、百度文心大模型近半数受访开发者了解或使用过上述模型。A第二梯队阿里通义大模型、LLaMA2、讯飞星火大模型、华为盘古大模型、智谱ChatGLM3大模型超过1/5的受访开
14、发者了解或使用过第二梯队模型。第三梯队百川大模型、StableVideo.Diffusion.昆仑万维天工大模型、360智脑大模型、MOSS大模型、智源悟道大模型、商汤科技商量SenSeChat大模型认知度为4%-11.5%,大模型产富.蹄1综合结果般一屈料枝或被确免除InfoQ研变中心14分类权重具体任务测试方法题目类型1语义理解10%语言理解能力古诗文识记、中文分词和词性标注、命名实体识Slk阅读理解、实体关系抽取关键字提炼、语义相似判断、怎么办题2文学写作5%根据给定条件,生成连贯文本制作文案作文写作、中文特色写作给出主题,生成连贯文本制作多种类型的文案对对联、写领3知识问答5%知识问答
15、历史常识、法律常识、崛常识、商业常识、医学常识、科学常识、生活常识、购物常识4逻辑推理20%抽象给定应用场景,执行数学计算任务数值计算数学应用题、数学计算题、商务制表题非数学逻辑推理逻辑推理中文特色搏里、MB砥辑题、编程5编程15%代码能力程;写、错误提示、IT知识问答代码自动补全、错误提示和修复、文本摘要、IT知识问答6上下文理解15%多轮对话的理解、连贯上下文题、多轮对话上下文题国离部科民双效研究院InfoQ研交中心但E3麻W分类权重具体任务测试方法题目类型7语境感知10%通过语境推测身份商务应用题营销文案、视频脚本、市场分析报告、市场运营报告、邮件写作8多语言能力10%完成涉及多种语言任
16、务英文翻译题英文翻译、英文阅读理解、英文作文9多模态能力10%文生图、智能语音等多模态问题文字输入图片回答、文字输入语音输出本次测评选取的大模型产品及使用版本大模型版本:产品版本:大模型版本:产品版本:G PT-4ChatGPT 40文也一言文心大模型4.0文心一言专嫩Gemini ProBard 2.0通义千问大模型2.0通义千问V2.1.1百川大整53B百川大模型vl.0星火认知大模型3.0讯飞星火V3.03600360智脑4.0360智月齿4.0ChatGLM-3智谱清言网页版云雀大模型豆包叁 Moonshot AlMoonshot Al 大模型Kimi Chat网页版16InfoQ研交
17、中心题目类别问题总量分类题目数逻辑推理题60中文特色推理题10商务制表题10数学应用题15幽默题5数学计算题10MB侬辑题10编程类60代码自动!卜全15错误提示和修复15文本摘要15IT知识问答15翻15英译中5英文阅读理解5英文写作5多模态20文字输入图片回答10文领入语出10上下文阅读20连贯性测试10上下文推理10大模型综合测评题库说明本次问题部分共300题,具体分布如下:题目类别问题总量分类题目数科学常识4历史常识3医学常识3知识题30法律常识4地理常识3生活常识3购物推荐5商业常识5关键字提炼10词句理解题30语义相似判断10怎么办题10营销文案写作11商业写作题45酗牛写作7视频
18、脚本10访谈提纲5市场分析报告6市场运营报告6文学题20简单作文写作5对对联5写领5中文特色写作题5部分进阶能力板块获得高得分率,大模型能力整体提升排名测试类型综合得分率1编程类87.00%2翻译题85.00%3知识题84.68%4商业写作题82.22%5文学写作题81.00%6词句理解题74.17%7上下文理解题65.25%8逻辑推理题51.92%9多模态20.50%大模型综合测试结果蝇加月:InfOQ机缀!1测评结果仅基于上文所列模型,测评截止时间为2024年1月5日进阶能力更为进阶的理解力多模态和上下文识别能力展现了显 著的进步与是升进阶能力逻辑推理能力编程类、商业写作能力表现良好基础能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 语言 模型 能力 测评 报告
链接地址:https://www.desk33.com/p-987051.html