AIGC行业市场简析.docx
《AIGC行业市场简析.docx》由会员分享,可在线阅读,更多相关《AIGC行业市场简析.docx(7页珍藏版)》请在课桌文档上搜索。
1、AlGC行业市场简析底层模型技术框架梳理文生图:基于文本生成图像,StableDiffUSion开源后迎来快速发展文生图(TeXtto-lmage)是基于文本通过生成式Al生成图像的模式。近3年时间,文生图的技术已实现大幅的进步,海外的StableDiffusion、Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心一格也投入商用。文本生成图像的底层模型可以分为GAN,扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。文生视频:与文生图底层技术一致,自回归和扩散模型为主流文生视频(TexEoVideo)是基于文本通过生成式Al生成视频的模式。随着
2、文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐演变及增加,近3年时间,以RUnWay为代表的文生视频公司在不断涌现,互联网行业的巨头,比如谷歌、Meta,微软,同样投入人员和精力参与其中,国内目前文生视频技术还在初期发展阶段,目前魔搭社区(ModelScope)里的开源模型ZerOSCoPe表现亮眼。文本生成视频模型的发展经历三个阶段:图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。GAN:通过生成器和判别器对抗训练提升图像生成能力GANs(GAN,GenerativeAdversariaINetworks),生成对抗网络是扩散模型前的主流图像
3、生成模型,通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力,使得生成式网络的数据趋近真实数据,从而图像趋近真实图像。自回归模型:采用TranSfOrmer结构中的自注意力机制自回归模型(AUto-regressiveModel)采用TranSformer进行自回归图像生成。TranSformer整体主要分为EnCOder和DeCOder两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。采用该架构模型的文生图通常将文本和图像分别转化成tokens序列,然后利用生成式的Transformer架构从文本序列(和可选图像序列)中
4、预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。扩散模型:当前主流路径,通过添加噪声和反向降噪推断生成图像扩散模型(DiffUSionMOdeI)是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。CLIP:实现文本和图像特征提取和映射,训练效果依赖大规模数据集CLIP(ContrastiveLanguage-imagePre-training)是基于对比学习的文本图像跨模态预训练模型,由文本编码器(T
5、eXtEnCOder)和图像编码器(ImageEnCoder)组成,编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从标签文本创建数据集分类器,从而能够根据给定的文本生成符合描述的图像。商业化模式及成本拆分平均来看自回归模型成本最高,生成视频成本远高于生成图片但在实际模型应用中,成本不仅取决于参数量大小,也取决于训练时间和用户规模。前期训练阶段,若对模型训练时间没有要求,可以通过延长训练时间降低GPU成本;若对训练时间要求较短,则需要布局更多芯片提高训练速度。上线阶段,如果用户体量很大,比如OpenAI和Midjourney规
6、模用户体量,线上运营推理的成本可能占到整体成本80-90%,训练阶段成本只占1020%。人眼看到的视频是透过一连串的静态影像连续快速播放的结果,由于每一张静态画面的差异很小,因此连续快速播放时,一张张快速闪过的静态画面在人眼视网膜上产生“视觉暂留”现象,原本静态的图像仿佛连贯运动了起来。通常来说,人看到视频是连贯的需要帧率为每秒24帧以上,电影放映的标准也是每秒24帧以上。如果文生图一次性消耗的算力是一个单元,文生视频一次产生消耗约24个单元。实际应用可能是小于24,但不会小特别多,并且很有可能大于24,因为文生视频不仅仅是简单的把图片快速播放起来,还需要内容具备多维性和多元性。目前主流文生视
7、频模型生成视频长度仅支持2秒4秒。文生图领域整体创业门槛低于大语言模型,商业模式仍存疑问模型层看:图像生成领域已有生成质量较高的开源预训练模型StableDiffusion,且SD具有较为丰富的开发者生态,有许多插件供选择。创业公司可基于StableDiffusion基础版本进行进一步调优和个性化数据训练,StableDiffusion最新发布的开源模型SDXL1.0采用更大参数量级进一步提升了生成图像质量。例如初创公司无界Al便是国内最早基于SD模型推出Al绘画工具的平台之一。成本端看:从主流模型参数规模看,文生图参数量级多在1-10B之间,而通用大模型入门级门槛达到了70B,文生图整体参数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 行业 市场
链接地址:https://www.desk33.com/p-1298313.html