AI视频行业市场分析.docx
AI视频行业市场分析1 .技术路线主流Al视频工具的技术情况目前Al视频工具的底层模型主要基于扩散模型。基于GAN和VAE:早期的文生视频,在给定文本描述的情况下自回归生成视频帧,仅限于低分辨率、短距以及运动单一情况。基于TranSformer:通过自我注意机制拓宽了生成视频的性能,如VideoGPT、Cogvideo.Phenaki等,其生成的视频画质清晰,且具备长视频生成能力,但对算力要求高、生成速度慢。基于扩散模型:正向扩散过程系统地扰动数据中的分布,通过学习反向扩散过程恢复数据的分布,以产生高度灵活且易于计算的生成扩散模型。扩散模型在多样化、超现实和图像联想方面取得成功,催生了一系列以此为底层架构的产品,如RUnaWayGen2、SVD.Pikal.0等。Al视频工具的核心功能布局目前Al视频工具功能布局趋于完善,应用潜力强。主流工具如RunawayGen2和StabIeVideoDiffusion均已推出文生视频、图生视频的功能,画质清晰、连续性强,生成视频的时长均为4s左右,其中Gen2最长支持视频至16s。近日新发布的Pika1.0和MiracleVision4.0在此基础上带来更多应用落地,实现实时拓展画幅和视频运镜等功能;导入更多视频风格,效果惊艳,生成的视频更具真实感与动态性。文生视频与图生视频:基于输入的文字或图像生成对应的视频。部分工具可同时输入图像与文字,生成对应视频。视频生视频:输入一段视频,通过输入prompt,生成各种风格的视频动画,包括动漫、科幻、现实主义等风格。局部重绘:输入原视频,可通过涂抹或圈定需要修改部分的内容并输入prompt,单独修改所涂抹或圈定的内容,如使其运动或增添元素。故事板:通过拍摄现实物体,实现另一形式的模型建立,如拍摄竖立的书本和桌面,可生成相同排布的高楼大厦以及道路。3D合成:支持物体从单一视角到多视角的转化,可以360度查看生成的模型,例如输入平面的人物图,建立该人物的3D模型。视频拓展:将图片拓展画幅的模式迁移到视频工具上,可以实时拖动边框,生成更大画幅的视频,支持三种画幅比例。视频运镜:输入一段视频,可以实现八种角度的视频拍摄,为影视创作带来更多可能性。技术要点:数据、算力、算法文生视频模型常采用两种训练方式训练,流程分为三步。文生视频一般采取两种方式进行训练:从插入额外时间层的预训练图像进行训练或从头开始训练。为获得视觉文本能力,数据集中的图像和视频需具备较大量级和对应的描述性文字。而出于计算限制和描述困难,视频通常被分为固定长度、限于少数目标的孤立动作再进行训练。当前主要存在三个不同的视频训练阶段:文本到图像预训练、低分辨率大数据集上的视频预训练以及在更具有高分辨率的相对小数据集上进行高分辨率视频的微调,过程对数据集的质量要求较高。文生视频模型常在图像和视频数据集上训练,大都为千万以上量级。各数据集官网显示,常用的文本视频数据集如WebVid-WM由1070万个文本视频对组成,其中视频时长5.2万小时;HOWto100M包含13600万个视频剪辑,包含特定的动作任务片段。为了弥补高质量视频数据集数量的不足,必须结合使用图像和视频的训练数据,常用的图像数据集有1.AION-5B,包含58.5亿个C1.IP过滤的图像文本对数据集,提供高分辨率突破、美学图片等子集,以达到内容控制和动态质量的平衡。2 .模型实测文生视频产品进展和不足进展:产品功能更加丰富,图像质量更好,交互平台更加完善。技术层面,Pikal.0和RUnaWayGen2都能生成更多风格内容,除文生视频外,图生视频和视频生视频都陆续推出。功能层面,各家产品交互界面编辑更加灵活,例如,Pika在新版本中提供了画布延展、局部重绘、视频时长拓展等新功能,StabIeVideoDiffusion则支持14frames和25frames可选帧数,并支持单秒内布帧量选择。平台层面,RUnaWayGen2官网不断更新,增强用户交互体验,Pika的全新官网即将上线,用户届时可以直接在除DiSCord以外的网页端进行内容生成和编辑。不足:视频时长仍较短,模型数据集质量和版权有待扩展,动作复杂性和意义感还需加强。时长层面,RUnaWayGen2和PikaI.0等均能将视频时长做至IOS左右,但仍低于1分钟,大规模商用价值有待释放。动作完成度层面,各厂商模型的画面美感已经大大提升,但动作的连续性和意义性还不足,小幅度动作慢镜头仍然占据主导,长连续动作生成能力是算法技术难点,未来还将继续突破。模型数据层面,各模型亟需寻找图构造形和运动轨迹更加丰富的画面进行训练,需与影视厂商和媒体进行谈判,获取更多素材版权。3 .前景展望文生视频的应用领域影视内容Al视频生成可提升影视制作效率和质量。生产端上,利用人脸合成、视频分析、语音合成等,AI视频生成可以实现虚拟演员、智能剪辑、自动配音等功能。画面帧之间的逻辑算法可以为剧本创作、场景设计和特效制作提供更加便捷的可复制路径。观众端,Al视频能将传统大厂具有的视效生成能力下方到小众影视制作,给观众的日常影视欣赏带来更多参与感,观众端的智能推荐、互动评论、个性化定制可量化性大大提升。生产端和观众端的互动上,通过观众文字反馈,创作者可以进一步将评论作为参数优化的参考,实现内容分析和质量控制。短视频方面,Al视频能促进短视频便捷性和美感,带来传播力提升。Al视频能够提升短视频平台的技术水平,如Al视频编码、图像处理、语音合成等。AI视频能帮助创作者生产更多样化和个性化的短视频,利用生成式对抗网络、迁移学习、风格控制等实现虚拟场景、虚拟角色和内容推荐等。文生视频的应用领域游戏文生视频是AIGC重要应用,将带来游戏行业增本增效和范式改变。降本增效方面,脉脉高聘数据显示,Al技术已逐渐应用于游戏产业的策划、美术、程序、运营等各个环节,74.95%的游戏行业从业者已经在工作中不同程度的使用了Al工具,另有19.83%的人员正在主动学习。根据IT时报报道,网易已经在语音生成、原画生成、视频动捕、模型生成等多个关键生产环节应用Al,部分效率提升幅度可以达到90%以上。Al视频的新技术有望进一步提高生产效率。从体验范式上看,根据1.ightSPeed报告,Al视频将有望加持生成类似人类性格的智能NPC驱动的多人游戏体验、动态的游戏社交体验以及超真实和身临其境的画面,使游戏从画质体验上升到情感体验、定制化体验的更高级水平。文生视频的应用领域营销Al视频生成将有效赋能营销行业六大板块。Al视频生成不仅能够对广告、内容创作和流媒运营中的图文音画艺术创意提供支持,还能在电子商务、客户管理服务和产品创新领域带来灵感动能,增强私域、公域打法的灵活性、多样性,有效赋能产品店主和用户进行更高质量的互动。文生视频的应用领域教育“AI+教育”推动教育公平、降低教育成本,多模态技术丰富教学手段。Al+教育有望通过更高程度的普及来摊薄前期成本,还能定制不同的Al教师因材施教,降低人力成本的同时提高教学质量。文生视频等多模态。Al视频技术与教育结合,教学的形式从单纯的信息问答转向互动式、体验式教学,有望进一步优化课堂体验,图像、视频类的内容的广泛应用也可以加快在早教等场景的渗透。