20231204-招商证券-计算机行业AIGC系列报告(五):大模型多模态应用深化AIAgent为应用普及提速正式版.docx
《20231204-招商证券-计算机行业AIGC系列报告(五):大模型多模态应用深化AIAgent为应用普及提速正式版.docx》由会员分享,可在线阅读,更多相关《20231204-招商证券-计算机行业AIGC系列报告(五):大模型多模态应用深化AIAgent为应用普及提速正式版.docx(17页珍藏版)》请在课桌文档上搜索。
1、大模型多模态应用深化,AlAgent为应用普及提速推荐(维持)AIGC系列报告(五)TMT及中小盘/计算机追踪当前AlGC行业发展,大模型多模态发展进一步深化,尤其文生视频能力快速提升,将大幅降低创作门槛,打开C端创作商业空间,及游戏、影视制作等B端视频应用空间。应用端,在大模型能力提升及大模型开发工具门槛降低共同作用下,AIAgent构建能力有望快速下沉,推动Al应用进一步爆发,也将推动大模型厂商需求提升。口大模型文生视频能力快速发展,AlGC赋能智能创作。继文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。近期多家厂商发布相关产品或更新,大幅提升文生视频效果,实现
2、更高清晰度、更高流畅度、视频任意修改等功能。海外厂商中,文生视频头部厂商Runway的发布Gen-2更新,支持4K高清视频,并新增“涂哪动哪”功能,实现由静态图到动态图的转变;此外PikaLabS发布Pikal.0,实现高质量的Al视频生成与编辑。国内万兴科技天幕大模型也实现文生视频能力,万兴FiImOra、万兴瞄影、万兴播爆等工具实现大模型多模态应用商业化。文生视频能力升级将大幅降低创作门槛,打开C端创作商业空间,同时进一步打开游戏、影视制作等B端视频应用空间。更强的大模型基座能力+低门槛开发工具=AlAgent提升应用普及效率。大模型赋能让进一步智能化的AlAgent成为可能,未来或将使软
3、件应用的范式从面向过程转为面向目标,提升AlGC应用的能力边界和使用效率。目前OPenAl的GPTs+AssistantsAPI已为用户提供自定义AlAgent的初级形态,GPTBuilder自然语言开发大幅降低开发门槛,使人人都有可能拥有自己的人工智能助理,从供给端打开GPT相关Al应用空间。国内讯飞已构建星火助手生态,上架超5000个Al助手,昆仑万维发布天工SkyAgents,将Agent构建能力推向C端,国内应用爆发可期。大模型厂商纷纷跟进AlAgent浪潮,在大模型能力提升及大模型开发工具门槛降低共同作用下,AlAgent构建能力有望快速下沉,Al应用将迎来进一步爆发,也将推动大模型
4、厂商需求提升。口风险提示:Al应用研发进度不及预期;Al服务器供应链风险;Al芯片研发不及预期风险;技术创新不及预期。行业规模占比股票家数(只)2755.4总市值(十亿元)2821.73.6流通市值(十亿元)2352.03.4行业指数%1m6m12m绝对表现5.1-11.916.3相对表现7.6-3.326.911%jtI-JWI沪深30050-20-Dec/22Mar/23Jul/23Nov/23资料来源:公司数据、招商证券相关报告1、计算机行业2024年度投资策略一数据驱动增量价值,静候百花齐放2023-12-042、UMGC应用生态加速成熟,自动驾驶聚焦路侧建设一计算机行业周观察2023
5、12032023-12-03刘玉萍S1090518120002liuyuping林语潇研究助理Iinyuxiaol公司简称公司代码市值22EPS23EPS23PEPB投资评级金山办公688111.SH143.12.422.86108.415.1强烈推荐科大讯飞002230.SZ109.50.240.23204.66.7强烈推荐彩讯股份300634.SZ10.00.500.9723.03.9强烈推荐重点公司主要财务指标资料来源:公司数据、招商证券(备注:市值单位为十亿元)正文目录一、模型端:多模态发展深化,文生视频能力升级41、大模型多模态能力升级,文生视频快速发展42、万兴科技:己实现AIGC
6、赋能智能创作5二、应用端:Al应用开发门槛降低,AlAgent提升应用普及效率81、AlAgent或将帮助Al应用进一步智能化82、海外:OPenAlGPTS展现AlAgent初级形态113、国内:讯飞构建星火插件生态,昆仑发布天工SkyAgent12(1)讯飞构建星火助手生态12(2)昆仑发布天工SkyAgents14三、风险提示15图表目录图1:RUnWayGen-2“涂哪动哪”功能5图2:MetaEmUVideO按指令精准修正图片能力5图3:PiXelDanCeMagiCMOde生成效果图5图4:Pika输入指令ElonMuskinaspacesuit,3danimation”视频截图5
7、图5:万兴天幕大模型Al创作人生四季5图6:FiImOraAl文生视频6图7:FilmoraAlCopilotEditing智能编辑视频6图8:Filmora基于人工智能的文本编辑6图9:FilmoraAlThumbnailCreator智能创建缩略图6图10:Al稳定影片,稳像算法全面升级7图11:智能人声分离,基于文本剪辑,事半功倍7图12:Al智能补帧,多种补帧选项7图13:Al智能遮罩,智能笔刷切换多种背景7图14:上百套专业级模板,覆盖不同场景视频需求7图15:超逼真数字人,满足各类口播视频7图16:输入关键词,Al快速生成脚本8图17:基于LLM驱动的Agent基本框架8图18:人
8、类与Al协同的三种模式9图19:AlAgent使软件行业从面向过程框架转向面向目标框架10图20:OpenAI发布的官方GPTs11图21:用户自行构建的热门GPTS12图22:星火插件为大模型赋能助力13图23:星火大模型已接入8款插件13图24:星火APP已上架大量助手13图25:SkyAgents六大优势14图26:高度自定义编排,工具更灵活高效14图27:SkyAgents对话式交互14图28:SkyAgents示例15表1:近期文生视频产品动态频繁4表2:AlAgent四大模块8表3:AlAgent历史与现阶段对比9表4:AlAgent或将实现多场景下智能程度大幅提升10一、模型端:
9、多模态发展深化,文生视频能力升级1、大模型多模态能力升级,文生视频快速发展大模型多模态能力升级,文生视频快速发展。继文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。近期多家厂商发布相关产品或更新,大幅提升文生视频效果,实现更高清晰度、更高流畅度、视频任意修改等功能。如RUnWay的Gen-2发布更新,现可支持4K高清视频,并新增“涂哪动哪”功能,实现由静态图到动态图的转变;Meta发布EmUVide0,既支持图像编辑,也支持根据文本图片生成高分辨率视频;字节跳动发布PixeIDance,生成有高度一致性且有丰富动态性的视频,细节处理覆盖人物动作、脸部表情、相机视角控
10、制、特效动作等;PikaLabS发布PikaI.0,使用Al实现画布与视频长度拓展。文生视频能力升级将大幅降低创作门槛,打开C端创作商业空间,同时进一步打开游戏、影视制作等B端视频应用空间。表L近期文生视频产品动态频繁日期公司产品更新简介11月3日RunwayGen-2升级至可支持4K清晰度的作品;训练有效性:通过视频生成“分解”或分割方法,训练视频生成模型。关键设计决策:包括调整视频扩散的噪声时间表和多阶段训练,直接生成更高分辨率的视频。11月16日MetaEmuVideo模型性能:与以前的深度级联模型相比,EmUVide。的先进方法使用仅两个扩散模型即可生成分辨率为512x512的四秒长视
11、频,每秒16帧。用户评估:在人类评估中,EmUVide。得到高度青睐,96%的受访者更喜欢该模型基于质量,85%的受访者更喜欢该模型基于对文本提示的忠实度。基础模式(BaSiCMode),提供一张指导图片+文本描述,PiXelDanCe可以生成有高度致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。成品适应多种风格,细节处理覆忐人物动作、脸部表情、相机视11月18日字节跳动PixeIDance角控制、特效动作等。高级魔法模式(MagiCMOeIe),用户提供两张指导图片+文本描述,可生成进阶难度的各种特效镜头。11月21日RunwayGen-2上线“涂哪动哪
12、”运动笔刷新功能,用户可使用笔刷简单涂抹,使静态图变为动态图。11月21日StabilityAlStableVideoDifusion(SVD)支持文本到视频、图形到视频生成、物体从单视角到多视角的转化、3D合成。文本/图像生成视频:输入文本或上传图像,Al即可创建简短高质量视频。视频样式转换:将现有视频以不同风格转换,包括角色、对象,保持视频结构。11月28日PikaLabsPika1.0画布扩展:扩展视频画布或宽高比,从TikTok9:16到宽屏16:9格式,Al预测超出原视频边界的内容。内容编辑:使用Al编辑视频,如更换衣服、添加角色、改变环境或添加道具。视频长度扩展:使用Al扩展现有视
13、频剪辑的长度。资料来源:RUnWay官网、Meta官网、PixeIDanceGithub.StabiIityAI官网、PikaLabS官网、招商证券图1:RunwayGen-2“涂哪动哪”功能资料来源:RUnWayGen2官方宣传视频、招商证券图2:MetaEmuVideo按指令精准修正图片能力资料来源:MetaEmUVideO官网、招商证券图3:PixelDanceMagicMode生成效果图资料来源:PiXelDanCeGithUb网站、招商证券图4:Pika输入指令ElonMuskinaspacesuit,3danimation”视频截图资料来源:Pikal.0宣传视频、招商证券2、万兴
14、科技:已实现AIGC赋能智能创作天幕大模型支撑万兴AlGC创作能力。万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型,由视频、音频、图片、文本大模型组成,支持视觉、音频、语言多模态Al生成及优化,具备一键成片、Al美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。万兴于12月1日展示天幕大模型文生视频能力,生成视频“人生四季”,视频已具备较高的清晰度和流畅度。图5:万兴天幕大模型Al创作人生四季资料来源:万兴科技官方公众号、招商证券WondershareFilmora:已实现Al文生视频。万兴海外产品WondershareFiImora已实现Al文生视频,同
15、时具备Al辅助创作、基于文本编辑视频等功能。FilmoraAl文生视频:基于用户输入的prompt生成视频;FilmoraAlCopilotEditing:Al辅助创作及编辑,使用Al分析用户视频并根据用户需求提供智能建议;基于人工智能的文本编辑:将用户的视频转换为文本,并使用Al基于文本的编辑功能像编辑文档一样编辑视频;FilmoraAlThumbnailCreator:通过Al帮助用户创建视频缩略图。图6: FiImOraAl文生视频图 7: Filmora Al Copilot Editing 智能编辑视频资料来源:WonderShareFiImora官网、招商证券资料来源:WOnder
16、ShareFilmora官网、招商证券图8: FiImOra基于人工智能的文本编辑资料来源:WOnderShareFilmOra官网、招商证券图 9: Filmora Al Thumbnail Creator 智能创建缩略图资料来源:Wondershare Filmora官网、招商证券万兴嘀影:多种Al功能赋能视频创作。万兴嗜影是万兴科技旗下的一款视频剪辑软件,内含多款Al功能,包括Al稳定影片、Al智能补帧、Al智能遮罩、Al文字快剪、智能人声分离等。通过万兴啮影,万兴已实现AIGC赋能视频创作。图10: Al稳定影片,稳像算法全面升级图11:智能人声分离,基于文本剪辑,事半功倍资料来源:万
17、兴喷影官网、招商证券资料来源:万兴啼影官网、招商证券图12: Al智能补帧,多种补帧选项图13: Al智能遮罩,智能笔刷切换多种背景资料来源:万兴啮影官网、招商证券万兴播爆:脚本一数字人一场景,实现智能化视频营销。万兴播爆为万兴科技的智能化营销视频生成工具,现已实现Al文生视频、Al字幕及配音、3D数字人等功能,内含180+专业级模版、120+标准语言声音、免版权音乐资源库、海量视频创作素材,可制作200+免版权多国籍数字人,输入关键词即可快速生成A脚本。图14:上百套专业级模板,覆盖不同场景视频需求图15:超逼真数字人,满足各类口播视频资料来源:万兴播爆官网、招商证券资料来源:万兴播爆官网、
18、招商证券图16:输入关键词,Al快速生成脚本Ol产品种草剧本ISoIfoundthisAppcalledsWondershareVirbolItmakesvideosbasedonAJtechnologyvandhelpedmegetmorethan5,0likesinjust1day.Idecidedtorecommendittoyou11产Ifta本我近发现一个OM万兴!W的手机APp。它使用Ae字人技术制作视SL井糖助程在婚场1天*获了5000多个9.我决定耙它推荐给大家!I资料来源:万兴播爆官网、招商证券二、应用端:Al应用开发门槛降低,AlAgent提升应用普及效率1、AlAgent
19、或将帮助Al应用进一步智能化根据计算机科学技术名词(第三版),Agent是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特征的软件或硬件实体。在人工智能领域,agent是一个计算实体,AlAgent视为能够使用传感器感知周围环境、做出决策并使用执行器做出响应的人工实体。图17:基于LLM驱动的Agent基本框架资料来源:腾讯研窕院、GitHubx招商证券表2:AlAgent四大模块模块功能优势记忆(Memory)记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于个智能体来说,有效的记忆机制能够保障它在面对新的或免杂的情况
20、时,调用以往的经验和知识。a.b.短期记忆,所有的上下文学习都是利用短期记忆来学习;长期记忆,这为智能体提供了长时间保留和回忆(无限)信息的能力,通常是通过利用,比如某个行业领域沉淀的大量数据和知识。有了长期记忆,很多数据可以被积累卜来,使得智能体的可用性更加强大,更具行业深度、个性化、能力专业化等优势。规划(Planning)规划模块具有事前规划和事后反思两 个阶段。工具使用(Tool use)工具使用模块指的是智能体能够利用 外部资源或工具来执行任务。行动(Action)行动模块是智能体实际执行决定或响 应的部分。a.事前规划阶段,这里涉及对未来行动的预测和决策制定,如执行复杂 任务时,智
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 20231204 招商 证券 计算机 行业 AIGC 系列 报告 模型 多模态 应用 深化 AIAgent 普及 提速 正式版
链接地址:https://www.desk33.com/p-1204972.html