2023AIGC发展趋势报告.docx
AIGC发展趋势报告2023迎接人工智能的下一个时代目录前言01一、AIGC技术、应用和产业生态迎来发展快车道031、生成算法、预训练模型、多模态等Al技术累积融合I催生了AlGC的大爆发042、AIGC产业生态加速形成和发展,走向模型即服务(MaaS)的未来10二、消费端:AlGe牵引数字内容领域的全新变革121、AlGC有望望造数字内容生产与交互新定式,成为未来互联网的内容生产基础设地132、AIGC的应用生态和内容消费市场逐渐繁荣173、AIGC将日益成为未来3D互滕网的基础支撑204、聊天机器人和数字人成为新的、更包容性的用户交互界面,不断拓展应用领域245、AIGC将作为生产力工具来推动元宇宙发展28三、产业端;合成数据牵引人工智能的未来311、合成数据为AI侬训练开发提供强大助推器,推动实现AI2.0332、合成数据助力破解Al“深水区”的数据难题,持续拓展产业互联网应用空间343、合成数据产业加快成为数据要素市场新赛道,科技大厂和创新企业抢先布局374、合成数据加速构建Al嘛旨、数实融合的大型虚拟世界39四、社会端;AIGC助力可持续社会价值411、元价值;解放人类创造力,革新艺术领域432、AlGC社会价值案例45五、发展与挑战并生:积极应对AIGC带来的社会伦理问题481、知识产权挑战492、安全挑战523、伦理挑战544、环境挑战57六、展望;拥抱人工智能的下一个时代,打造可信AIGC生态60刖言2022年是AlGC(Al-GeneratedCOntent,人工智能生成内容)爆火出圈的一年不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。9月23日,红杉美国发表文章生成式Al:一个创造性的新世界,认为AlGC会代表新一轮范式转移的开始。2022年10月,StabilityAl获得约1亿美元融资,估值高达10亿美元,跻身狸角兽行列。StabilityAl发布的开源模型StableDiffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-hmage,T2l)oStableDiffusionsDA1.1.-E2、MidJoUmey等可以生成图片的AIGC模型引爆了AI作画领域,AI作画风行一时,标志人工智能向艺术领域渗透。2022年12月,OpenAI的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱AIGQ不断推出相关的技术、平台和应用。AIGC用户创作UGCAl辅助用户创作AIUGC专业制作PGC内客创作模式三:内容创作模式的四个发展阶段从字面意思上看,AIGC是相对于过去的PCG.UCG而提出的。因此,AIGC的狭义概念是利用Al自动生成内容的生产方式。但是AlGC已经代表了Al技术发展的新趋势。过去传统的人工智能偏向于分析能力,即通过分析一组数据,发现其中的规律和模式并用于其他多种用途,比如应用最为广泛的个性化推荐算法。而现在人工智能正在生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。因此,从这个意义上来看,广义的AlGC可以看作是像人类一样具备生成创造能力的Al技术,即生成式A1.它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。01因此,AIGC已经加速成为了Al领域的新强域,推动人工智能迎来下一个时代。Gartner将生成性Al列为2022年5大影晌力技术之一。MIT科技评论也将Al合成数据列为2022年十大突破性技术之一,甚至将生成性Al(GenerativeAl)称为是Al领域过去十年最具前景的进展。未来,兼具大模型和多模态模型的AIGC模型有望成为新的技术平台。如果说Al推荐算法是内容分发的强大引擎,AIGC则是数据与内容生产的强大引擎。AIGC正朝着效率和品质更高、成本更低的方向发展,在某些情况下,它比人类创造的东西更好。包括从社交媒体到游戏、从广告到建筑、从编码到平面设计、从产品设计到法律、从营销到销售等各个需要人类知识创造的行业都可能被AlGC所影晌和变革。数字经济和人工智能发展所需的海量数据也能通过AJGC技术生成、合成出来,即合成数据(SynthetiCdata)。未来,人类的某些创造性的工作可能会被生成性Al完全取代,也有一些创造性工作会加速进入人机协同时代一人类与AlGC技术共同创造比过去单纯人的创造之下更高效、更优质。在本质上,AlGC技术的最大影响在于,AJGC技术将会把创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。换句话说,正如互联网实现了信息的零成本传播、复制I未来AlGC的关腿影响在于,将实现低成本甚至零成本的自动化内容生产,这一内容生产的范式转变,将升级甚至重塑内容生产供给,进而给依赖于内容生产供给的行业和领域带来巨大影响O但是任何技术都是一把“双刃剑二AlGC在引领Al技术新趋势和相关产业发展的同时I也可能带来一定的风险挑战,诸如知识产权保护、安全、技术伦理、环境影晌等。各界需要秉持科技向善理念,负责任地、安全可控地发展应用AlGC,打造安全可信的AlGC技术和应用,以科技向善引领AlGC技术创新发展和应用,实现高质量、健康可持续的发展。01注:国外他向干使用生成式AI(Genefat流Al)的表迷.国内i½Jfe使用AIGC的表港.本IR告U为两者至表述有不问.但总表怠累一悴的.然而正行又中不欺侍刈的区分.AIGC技术和产业生态迎来发展快车道本身主箸:胡晓荫僵讯研究院研究员虽然从严格意义上来说,1957年莱杰伦希勒(1.ejarenHiller)和伦纳德艾萨克森(1.eonardIsaacson)完成了人类历史上第一支由计算机创作的音乐作就可以看作是AiGC的开潴,距今已有65年,这期间也不断有各种形式的生成模型、Al生成作品出现,但是2022年才真正算是AIGC的爆发之年,人们看到了AlGC无限的创造潜力和未来应用可能性。目前,AlGC技术沉淀、产业生态已初步形成,保持强劲发展和创新势头。1、生成算法、预训练模型、多模态等Al技术累积融合,催生了AIGC的大爆发UAlGC技术来积融合似一是I基础的生成算法模型不断突破创新。2014年,伊恩古德费洛(IanGoodfehw)提出的生成对抗网络(GeneratiVeACiVelrSarialNetWOrk,GAN)成为早期最为著名的生成模型。GAN使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型等。GAN也产生了许多流行的架构或变种IDCGAN1StyIeGAN.BigGAN1StackGAN1Pix2pixlAge-cGAN1CycIeGAN,对抗自编码器(AdVerSaHalAUtOerKOderSlAAE),对抗推断学习(Aclversanally1.earnedInference,A1.I)等。02圉魁:以CAIIE2R例.它通过顼训练模型的石式.名联航合了打遢又字与圉像两种摸忑的CIJP成型.控制图像生成的T歌模型.以今蔽器何时处座多慎退至任务的暹言慢型,显终成为支楮文字生成El像的多嗯秘IGC工具.随后,Transformer、基于流的生成模型(FlOW-basedmodels)、扩散模型(DiffUSionModel)等深度学习的生成算法相继涌现。其中,Transformer模型是一种采用自注意力机制的深度学习模型,这一机制可以按照输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(N1.P),计算机视觉(CV)领域应用。后来出现的BERT、GPT31.aMDA等预训练模型都是基于开ansformer模型建立的。而扩散模型(DiffUSiOnModeI)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链I逐渐向数据添加随机噪声,然后学习逆扩散过程.从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为睢一输入生成逼真的图片。031犷散模型结构然而,从最优化模型性能的角度出发,扩散模型相对GAN来说具有更加灵活的模型架构和精确的对数似然计算,已经取代GAN成为最先进的图像生成器。2021年6月,QDenAl发表论文已经明确了这个结论和发展趋势。0403P.DharirtaIA.Nichol.DiffusionModelsBeatGANsonImage*nthesis(2021Q4httpsai.ggIebbg.<om2021/07/hlgh-flttelity-nage-generatbn-using.htmI模型提出时间模型描述变分自动编码(VariationalAutoencoclers,VAE)2014年基于变分下界约束得到的EnCoder-DeCOder模型对生成对抗网络(GAN)2014年基于对抗的Genelrator-DiSCriminator模型对基于流的生成模型(Flow-basedmodels)2015年学习一个非线性双射转换(bijectivetransformation)l其将训练数据映射到另一个空间,在该空间上分布是可以因子化的,整个模型架构依靠直接最大化Iog-IikelihOod来完成扩散模型(DiffusionModel)2015年扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些去现方法,从随机输入中合成新的“干净”数据。FanSfolrmer模型2017年一种基于自注意力机制的神经网络模型I最初用来完成不同语言之间的文本翻译任务,主体包含EnCoder和DeCOder部分,分别负责对源语言文本进行编码和将编码信息转换为目标语言文本神经辐射场(NeuralRadianceFieIdlNeRF)2020年它提出了一种从一组输入图像中优化连续5D神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图C1.IP(Contrastive2021年1、进行自然语言理解和计算机视觉分析;1.anguage-ImagePre-2、使用已经标记好的“文字-图像”训练数Training)模型据。一方面对文字进行模型训练。一方面对另一个模型的训练I不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值并确认匹配。主流生成模型一览表二是,预训练模型引发了AIGC技术能力的质变。虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了AIGC技术能力的质变,以上的诸多落地问题得到了解决。质着2018年谷歌发布基于TranSformer机器学习方法的自然语言处理预训练模型BERT1人H智能领域进入了大炼模型参数的预训练模型时代。Al预训练模型,又称为大模型、基础模型(foundatiOnmodeI),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。05鉴于这种潜力,预训练模型成为Al技术发展的范式变革,许多跨领域的Al系统将直接建立在预训练模型上。具体到AIGC领域,Al预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括;(1)自然语言处理(N1.P)预训练模型,如谷歌的1.aMDA和Pa1.M、OPenAl的GPT系列;(2)计算机视觉(CV)预训练模型,如微软的Florence;(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。05https7a1.sianford.edWneWSAMectbnafou11dation-modeIs预训练模型应用参数量领域谷歌BERT语言理解与生成4810亿N1.P1.aMDA对话系统N1.PPa1.M语言理解与生成、推理、代5400亿N1.P码生成Imagen语言理解与图像生成IlO亿多模态Parti语言理解与图像生成200亿多模态微软Florence视觉识别6.4亿CVIuring-N1.G语言理解、生成170亿N1.PFacebookOPT-175B语言模型1750亿N1.PM2M-100100种语言互译150亿N1.PDeepMindGato多面手的智能体12亿多模态Gopher语言理解与生成2800亿N1.PAIphaCocIe代码生成414亿N1.POpenAlGPT3语言理解与生成、推理等1750亿N1.PC1.IP&DA1.1.-E图像生成、跨模态检索120亿多模态Codex代码生成120亿N1.PChatGPT语言理解与生成、推理等N1.P英伟达Megatron-语言理解与生成、推理5300亿N1.PTuringN1.GStabilityAlStable语言理解与图像生成多模态Diffusion国外主要的AIGC预训练模型一览表三是,多模态技术推动了AIGC的内容多样性.让AlGC具有了更通用的能力。预训练模型更具通用性,成为多才多艺、多面手的Al模型,主要得益于多模型技术(multimOdaltechnol-Ogy)的使用,即多模态表示图像、声音、语言等融合的机器学习。2021年,Q)enAI团队将跨模态深度学习模型C1.lP(COntraStiVe1.angUage-ImagePre-Training,以下简称"C1.IP")进行开源。C1.IP模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,OJP模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,C1.IP模型广泛利用互联网上的图片,这些圄片一般都带有各种文本描述,成为C1.IP天然的训练样本。据统计,C1.IP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下,目前预训练模型已经从早期单一的N1.P或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。2021年3月QDenAl发布Al绘画产品DA1.1.El只需要输入一句文字,DA1.1.E就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DA1.1.E背后的关诞技术即是ClJP。C1.IP让文字与图片两个模态找到能够对话的交界点,成为DA1.1.EDA1.1.-E2.0.StabIeDiffUSion等突破性AIGe成果的基石。总的来看,AlGC在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了AlGC技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的AlGe模型成为了自动化内容生产的“工厂”和“流水线”。2、AIGC产业生态加速形成和发展,走向模型即服务(MaaS)的未来目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构。基础层中间层应用层预训练模型垂直化、诒景化、个性化模型D像、语音和文字生成等各种各样的AlGC的应用三:AIGC产业生态体系的三层架构第一层,为上游基础层,也就是由预训练模型为基础搭建的AlGC技术基础设施层。由于预训练模型的高成本和技术投入,因此具有较高的进入门槛。以2020年推出的GPT-3模型为例,AlChemyAPI创始人ElliotTurner推测训练GPT-3的成本可能接近1200万美元。因此目前进入预训练模型的主要机构为头部科技企业、科研机构等。目前在AlGC领域,美国的基础设施型公司(处于上游生态位)有OPenAI、Stability.ai等。OPenAl的商业模式为对受控的api调用进行收费。StabiIity.ai以基础版完全开源为主,然后通过开发和销售专业版和定制版实现商业获利,目前估值已经超过10亿美金。因为有了基础层的技术支撑,下游行业才能如雨后春笋般发展,形成了目前美国的AIGC商业流。第二层,为中间层I即垂直化、场景化、个性化的模型和应用工具。预训练的大模型是基础设旗,在此基础上可以快速抽取生成场景化、定制化、个性化的小模型I实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态模型的AlGC模型加速成为新的技术平台,模型即服务(MOdd-asTSeWieMaaS)开始成为现实,预计将对商业领域产生巨大影响。StableDiffUSion开源之后,有很多基于开源模型的二次开发I训练特定风格的垂直领域模型开始流行,比如著名的二次元画风生成的Novel-Al1还有各种风格的角色生成器等。第三层,为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。在应用层,侧重满足用户的需求,将AIGC侬和用户的需求无缝衔接起来实现产业落地。以至ableDiffu-sion开源为例,它开放的不仅仅是程序,还有其已经训练好的模型I后继创业者能更好的借助这一开源工具,以C端消费级显卡的算力门槛,挖掘出更丰富的内容生态,为AIGC在更广泛的C端用户中的普及起到至关重要的作用。现在贴近C端用户的工具越发丰富多样,包括网页、本地安装的程序、移动端小程序、群聊机器人等,甚至还有利用AlGC工具定制代出图的内容消费服务。目前,从提供预训练模型的基础设施层公司到专注打造AIGC产品和应用工具的应用层公司,美国围绕AIGC生长出繁荣的生态,技术创新引发的应用创新浪潮迭起;中国也有望凭借领先的AJGC技术赋能千行百业。随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。与此同时,在推进数实融合、加l央产业升级的进程中,金融、医疗、工业等各行各业的AIGC应用也都在快速发展。消费端:AIGC金引数字内容领域的全新变革本童主第胡晓萌彼讯研究院研究员担菰3讯研究院高级研究员徐思彦腾讯研究院高级研究员曹建峰掩讯研究院高级研究员1、AlGC有望塑造数字内容生产与交互新范式,成为未来互联网的内容生产基础设施内容生产,特别是创意工作,一向被认为是人类的专属和智能的体现。如今,Al正大步迈入数字内容生产领域,不仅在写作、绘画、作曲等多个领域达到“类人”表现,更展示出在大数据学习基础上的非凡创意潜能。这将塑造数字内容生产的人机协作新范式,也让内容创作者和更多普通人得以跨越“技法”和“效能”限制,尽情挥洒内容创意。数字内容迈入强需求、视频化、拼创意的螺旋式升级周期,AIGC在这阶段的发展迎合了这一需要。从全球来看,人们在线的时间持续增长.在线新闻、音乐、动漫、影视、文学、游戏的市场规模仍在上升。同时,数字内容消费的结构也正转型升级,从以图文为主过度到视频为主,视频在网络流量中的占比不断上升。短视频和直播的流行,在生产侧,让原本需要长制作周期的视频变成了可以源源不断产出的“工业品”;在消费侧,过往需要高注意投入、反复观看的视频内容变成了一种媒体“货架”上的“快消品”。最后,创意仍是核心,仍旧稀缺,需要新的模式辅助创作者持续产生、迭代和睑证创意。种种因素,都需要更加低成本、高效能的数字内容生产新方式。AIGC正在越来越多地参与数字内容的创意性生成工作,以人机协同的方式释放价值,成为未来互联网的内容生产基础设施。从范围上看,AIGC逐步深度融入到文字、音乐、图片、视频、3D多种媒介形态的生产中,可以担任新闻、论文、小说写手,音乐作曲和编曲者I多样化风格的画手,长短视频的翦辑者和后期处理工程师,3D建模师等多样化的助手角色I在人类的指导下完成指定主题内容的创作、编辑和风格迁移。从效果上看,AIGC在基于自然语言的文本、语音和图片生成领域初步令人满意,特别是知识类中短文,插画等高度风格化的图片创作,创作效果可以与有中级经验的创作者相匹敌;在视频和3D等媒介复杂度高的领域处于探索阶段,但成长很快。尽管AlGC对极端案例的处理、细节把控、成品准确率等方面仍有许多进步空间,但蕴含的潜力令人期待。从方式上看,AIGC的多模态加工是热点。吴恩达(AndreWNg)认为多模态是2021年AI的最重要趋势,Al模型在发现文本与图像间关系中取得了进步,如OPENAl的C1.IP能匹配图像和文本IDallE生成与输入文本对应的图像;氏epMind的PerCeiVerl。可以对文本、图像、视频和点云进行分类。典型应用包括如文本转换语音、文本生成图片,广义来看Al翻译、图片风格化也可以看作是两个不同"模态”间的映射。PRE-2020三2020BaeiccopywritingFrvtdrafts二Sconddrahs一MUftMtn9mrwon1.ongorkxmttfaccuracy二Potogrpr)fModeUpstproductHgn.fcrt<tur,FEnmptB3Ovteomod*aBMCZfirvfdranv5eoand3DMesTEXTCODEIMAGESVIDEO/30/GAMING1:AIGC基珊模型和应用发展预测(引用自红杉素本)OeAIGC砌研究范式及算力进步下加速发展I特别是自然语言理解能力大幅进化,典型代表是GPT系列模型。自然语言是不同数字内容类型间转化的根信息和纽带,比如“猫”这个词语就是加菲猫的照片,音乐剧猫和无数内容的索引,这些不同的内容类型可以称为“多模态”。创作者以自然语言描述要素、特征后IAl就能生成对应的不同模态的结果。2017年Ggle发布的Transformer开启了大型语言模型(1.argebnguagemodel,简称1.1.M)时代。它作为更强大的特征提取器,生成的语言模型质量高、效率高,被应用到后续的GPT、BERT等各种预训练语言模型中,以大数据预训练+小数据微调的方式,摆脱了对大量人工调参的依赖,在手写、语音和图像识别、语言理解方面的表现大幅突破,所生成的内容也越来越准确和自然。06httpsMvw.sequocap.ctxnarticHgeneat*TH-CfMt*newworld/但大模型的高算力要求对普通用户不友好,这使AIGC长期只是小圈子的爰好I例如GPT-3有1750亿参数量,既需要大算力集群也不开放。2022年.先是部署在论坛CIiSCo3上、以聊天机器人形式向用户开放的nidj。Umey引起关注,一位设计师用其生成的图片甚至在线下比赛中获奖。2022年,StableDiffUSiOn等文本生成图片产品,第一次让大众感受AlGC的魅力。开源的StabieDiffUSiOn仅需一台电脑就能运行,截至10月已有超过20万开发者下载,累计日活用户超过100O万;而面向消费者的DreamStUdi。则已获得了超过150万用户,生成超过1.7亿图片。D.游戏设计师杰森艾彳仑使用MidjOUmey模型生成的太空歌剧院是首个获奖的Al生成艺术在AIGC图像生成火爆的同时,ChatGPT横空出世,真正做到和人类“对答如流",能理解各式各样的需求,做出回答、短文和诗歌创作、代码写作、数学和逻辑计算等。ChatGPT可以看作GPT3.5版本,使用了人类反渍强化学习(R1.HF)技术,能持续学习人类对回答的建议和评价I朝更加正确的方向前进。ChatGPT基于这一思想,用不到GPT3的1%的参数实现了极佳的效果。但是也依然存在一些缺陷,例如引用不存在的论文和书籍,误解和扭曲直观的自然科学知识和历史事实。在AJGC技术开源的背景下,AlGCSI片生成也促进了小众文化的发展。早在2022年五月,QQ影像中心推出的国内第一款基于AIGC的“Al恋爱专属画”520活动就在QQ小世界走红,最近新推出的“异次元的我”二次元形象生成器火遍国内外。GMSB*fc勉力的Z)'18:262022/11/30TwKterW«bApp1.J510218万OtlOlthin«>thatarenotMSthcticxan9B仓QOaU:KFC宫推亲自打破次元壁QQ影像中心将输入模型的提示词分为两个部分一图片主体内容描述和风格描述。这样做是为了避免其他基于StabIeDiffUSion的AlGC图像生成平台常见的问题,如不便捷,用户想要生成比较好的结果,需要对图片内容进行详尽的描述I并增加很多提升效果和强化风格的词,才能得到一个比较理想的效果。(1)内容描述:为了得到图片的内容描述,QQ小世界对输入图中的信息进行人物性别、年龄、姿势等属性的检测,得到最终尽可能准确详尽的内容描述词。(2)风格描述;为了让结果更接近二次元IQQ小世界为各种不同场景设计了非常鲜明的二次元风格。根据第一步对图片内容进行分析后,进一步细分为单人男性、单人女性、多人等不同场景。结合内容描述和风格描述,QQ小世界通过对原图的分析得到最终完整的提示词输入网络,M而能够稳定生成画面精致、风格突出的结果。既保证了生成内容和原图的对应性,又增添了很多“异次元”要素,让用户更有穿越到二次元的感觉,同时也保证了较高的生成炭量。1QQ小世界二次元风格生成流程到2、AlGC的应用生态和内容消费市场逐渐繁荣AIGC在学习通用知识和理解泛化上有更好的表现,这是之前的生成模型没有体现出来的能力。这也决定了AlGC不光是生成,而是建立在认知与理解上的模型的应用生态。2020年,OpenAI推出1750亿参数的预训练语言模型GPT-3.在国内外掀起千亿参数预训练模型的研究浪潮。实际上,那时就出现了专门做文字生成的商业公司,如Jssper.ai与Copy.ai。而今在内容消费领域IAIGC已经重构了整个应用生态。AIGC在内容生成领域有以下优势特征;(1)自动内容生成;大型语言和图像AI模型可用于自动生成内容,例如文章、博客或社交媒体帖子。对于定期创建内容的企业和专业人士来说,这可能是一种宝贵的节省时间的工具。2022年初,Disc。DiffUSiOn给行业带来很大的冲击,其在生成速度、效果,还有词条内容的丰富性等方面都有了显著的改进。架设在社交平台DiSCOrd上的Midjourneyl因其使用便捷与相对较好的效果,在社会层面得到了很大的关注。(2)提高内容质量;AlGC生成的内容可能比人类创建的内容质量更高,因为人工智能模型能够从大量数据中学习并识别人类可能看不到的模式。这可以产生更准确和信息更丰富的内容。CA1.1.E2和Google的Imagen都可以通过文字来要求Al画出特别具体的内容,而且效果已经接近于中等画师的水平。今年8月,StableDiffUsion的开源模型生成的面部?口肢体相较于DiscoDiffusion自然了许多。(3)增加内容多样性;AlGC模型可以生成多种类型的内容,包括文本、图像和音视频、3D内容等等。这可以帮助企业和专业人士创建更多样化、更有趣的内容I从而吸引更广泛的人群。2021年底,VQGAN+C1.lP(WCtorQuantisedGeneralAdversarialNetwork+Contrastive1.anguage-ImagePre-training)技术串联,可以生成抽象绘画作品O2022年9月29日,MetaAl公布了一款基于文本生成视频短片的系统“Make-A-Video",不仅能够通过提示词生成几秒连贯的视频,并且有“超现实的”、“现实的“、“风格化”的视频变种供调整,而且也能从一两张图片生成视频,或者根据一小段视频片段派生不同风格、拍摄角度、相似动作的视频变种。(4)内容制作成本低、门槛低;基于AlGC,内容制作的成本显著降低、效率显著提高,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。°,而且AIGC也降低了用户的内容制作门槛,即使是毫无绘画基础的用户也能借助AlGC工具,画出高质量的作品。(5)可实现个性化内容生成;人工智能模型可以根据个人用户的喜好生成个性化内容。这可以帮助企业和专业入士创建目标受众更有可能感兴趣的内容,因此更有可能被阅读或分享。比如,基于StableDiffusion的二次元画风生成工具Novel-All可以满足小众的二次元群体的喜好和内容需求,一定程度上也促进了小众文化的发展。AIGC已经掀起了一场内容生产的革命。在内容需求旺盛的当下,AlGC所带来的内容生产方式变革也开始引起了内容消费模式的变化。Al绘画是AIGC的一大重要分支。它可以提高美术素材生产效率,在游戏、数字藏品领域初步得以应用。文字生成图片(Text-to-lmage,T2I)是目前Al绘画的主流生成方式,用户输入文本命令便可生成相应效果图。对于游戏开发者而言,T2I工具在概念构思阶段可迅速提供多种创作方向,并降低初期投入成本,在开发过程中07hnpsbaijhs7ld=17429508902659553B38<wf(=spider&tof=pc亦可批量生产石头花纹、花草树木等通用型贴图素材。艺术是另一应用领域I全球最大的Al生成艺术画廊AtAl以历史上大量艺术品的时期、流派、风格等为灵感生成数字藏品,单字仅能使用一次的机制保障每份数字藏品对应不同的文本内容,从而保障其唯一性。2022年10月,海外知名图库ShUtterStoCk就公布说他们与QoenAI建立了合作,让用户可以输入文字即时生成满足需求的原创图片。Adobe.GettyImageS也将图像生成模型集成到他们自己的产品和服务中。这些动作不仅是一个传统企业的及时反应,实际上还意味着AlGC商业化变现的一个想象似乎开始落地;打造一个基于生成的全新内容平台。U:AIGC应用现状概览(引用自红杉费本)OBhttps7ww.sequoiacap.cornafticlege11efat¾-ai-a-<(eate-new-vvo(ldAIGC作为当前新型的内容生产方式I已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。2022年,AlGC发展速度惊人,迭代速度呈现指数级爆发,谷歌、Metas百度等平台型巨头持续布局,也有StabiIityAI、Jas-PerAl等独角兽创业公司出世。Al绘画已经能承担图像内容生成的辅助性工作,前期初稿的形成可以由Al提供,后期再由创作者进行调整,从而提高内容产出效率。根据6pen预测I未来五年10%-30%的图片内容由Al参与生成,有些创造超过600亿以上市场空间,若考虑到下一代互联网对内容需求的迅速提升,国外商业咨询机构AaJlmenResearchandConsulting预测,2030年AlGC市场规模将达到IlOo亿美元s。3、AIGC将日益成为未来3D互联网的基础支撑互联网向下一代技术升级和演进的重要方向是从“在线”走向“在场”,迈向3D互联网时代,AIGe将成为打造虚实集成世界的基石。人们将在在虚拟空间构建仿真世界,在现实世界三加”虚拟增强,实现真正的临场感。随着XR、游戏引擎、云游戏等等各种交互、仿真、传输技术的突破,信息传输越来越接近无损,数字仿真能力真假难辨,人类的交互和体验将到达新阶段。AlGC为3D互联网带来的价值,既包括3D模型、场景、角色制作能效的提升,也能像Al作画那样,为创作者激发新的灵感。传统的3D制作需要耗费大量时间和人力成本。以2018年发售的游戏荒野大镖客2为例,为了打造约60平方公里的虚拟场景、先后有六百余名美术历经8年完成。程序化内容生成技术(PCG,ProceduralContentGeneration)是一种在效能和可控度上介于纯手工和AIGC之间的产出方式。2022年的交互内容黑客帝国:觉醒中就采用了这项技术,在最新引攀技术的加持下,虚拟城市共包括700万个实例化资产,每个资产由数百万个多边形组成,包括7000栋建筑、38000辆可驾驶的车和超过260公里的道路。09httpsvww.yh<ornnogenera(Mfraimartet-sizMChieve-23QooO291.htmIU:EPIC使用虚幻5引孳和程序化生成技术高效制作黑客帝国:觉醒中的庞大城市,量片引用自如乎用户壬程2016年发布、主打宇宙探险的独立游戏无人深空(NOMan'sSky)声称创造了1840亿颗不同的星球,每个星球都有形态各异的环境和生物。游戏正是用PCG构造了一系列生成规则和参数,用数学函数和极少的数据量生成了这个看似无限的游戏宇宙。三游戏无人深空中自动化生成的海洋生物示例尽管如此,距离“复刻”真实世界和打造千千万万个幻想世界,这样的速度还是太慢了。为什么在文字、图片领域大放异彩的A1.没有继续快速“征服”3D领域呢?Al直接生成3D内容,比2D图片难度大得多。首先,信息量不同,一张图片和一个3D模型相比,本身蕴含的信息量就有数量级的差距;其次,图片和3D的实质不同I如果说2D是像素点阵在显示器的客观陈列,3D则是实时、快速、海量的矩阵运算,就像对着模型在1秒内进行几十次“拍照”。为了准确计算得到每个像素点渲染”在显示器上,需要考虑的因素至少有;(1)模型几何特征,通常用几千上万个三角面来表示;(2)材质特征,模型本身的颜色,是强反射的金属I还是漫反射的布料;(3)光线,光源是点状的吗,颜色和强度如何。最后,原生3D模型的数据相对较少,远不如已存在了数千年、可以以非数字化形