2023ChatGPT人工智能新纪元.docx
ChatGPT人工智能新纪元内容简介ChatGPT爆火,标志着人工智能从量变到质变的飞跃,一场新的人工智能革命已经到来。本书共6章,介绍了ChatGPT的诞生和发展,以及ChatGPT背后的技术路线;分析了ChatGPT及大模型训练对全球商业格局的冲击与影响,涉及OPenAI、微软、谷歌、百度、腾讯、阿里巴巴等广受关注的互联网科技公司;选取了具有代表性的行业,解读ChatGPT狂潮引发的产业颠覆与模式创新。同时,本书对未来的强人工智能与人类社会的关系进行了深度研讨。从2022年末到了2023年初,ChatGPT火遍了全球互联网。2022年11月30日,OPenAl发布Al对话模型ChatGPT。由于ChatGPT的能力过于惊艳,上线仅5天就吸引了100万名用户。推出两个月后,ChatGPT的月活跃用户就已经达到1亿人次,成为历史上用户数量增长最快的消费级应用。要知道,海外版抖音一TikTok在全球发布后,经过大约9个月的时间才达到月活1亿人次,Instagram达到这一量级则用了两年半的时间。ChatGPT之所以能够实现用户数量的爆发式增长,归根结底是ChatGPT超凡出众的产品能力成熟乃至惊人的理解和创作能力:除写代码、写剧本、词曲创作外,ChatGpT还可以与人类对答如流,并且充分体现出辩证分析能力。ChatGPT甚至能质疑不正确的前提和假设、主动承认错误及能力有限、主动拒绝不合理的问题,这是前所未有的。更重要的是,ChatGPT的成功,证明了大模型技术路线的正确性。这意味着,人工智能(ArtiACialIntelligence,Al)终于从之前的大数据统计分类阶段,走向类人逻辑沟通阶段,并且人工智能在其强大的学习能力之下,进化速度将超出我们的预料。基于大模型技术路线,ChatGPT就像一个通用的任务助理,能够与不同行业结合,衍生出很多应用场景。可以说,ChatGPT为通用Al打开了一扇大门,真正让人工智能落了地。ChatGPT“一夜蹿红”,迅速在全球范围内掀起一股冲击波,引爆了中国、美国的人工智能产业,人工智能公司全面入局,并引发资本市场震荡。中国互联网科技公司纷纷踏上了寻找“中国版ChatGPr之路,如百度的类ChatGPT应用、自然语言处理大模型项目“文心一言”,阿里巴巴处于内测阶段的阿里版聊天机器人等。除在科技行业与商业领域引起震动外,ChatGPT也在冲击着人类社会,"ChatGPT能否取代人类”“ChatGPT伦理问题”等话题随之而热。其实,任何一项新技术,尤其是革命性技术的出现,都会引发争论。客观来看,人工智能时代来临是必然的趋势,只是ChatGPT让我们设想中的人工智能时代离我们更近了。ChatGPT的出现标志着人工智能从量变到质变的飞跃,一场新的人工智能革命到来本书正是基于此,介绍了ChatGPT的诞生和发展,以及ChatGPT背后的技术路线;分析了ChatGPT及大模型训练对全球商业格局的冲击与影响,涉及OPenAI、微软、谷歌、百度、腾讯、阿里巴巴等广受关注的互联网科技公司;选取了具有代表性的行业,解读ChatGPT狂潮引发的产业颠覆与模式创新;对未来的强人工智能与人类社会的关系进行了深度研讨。本书力求用通俗易懂、富于趣味的语言进行表述,内容深入浅出、循序渐进,以帮助读者全方位了解ChatGPT,并在纷繁的信息中梳理人工智能的演变线索与发展思路。作为科技创新时代的标签,人工智能所引领的科技变革更是在雕刻着这个时代,我们需要有所准备。第1章ChatGPT,爆了1.l横空出世的ChatGPT从2022年末到2023年初,由OPenAI公司打造的ChatGPT火遍了全球互联网,一跃成为人工智能(Al)领域的现象级应用。由于ChatGPT的能力过于惊艳,发布仅仅5天,注册用户数量就超过了100万,当年的脸书用了10个月才达到这个“里程碑”。根据瑞银的报告,2023年1月末,ChatGPT推出仅两个月,月活用户已经突破了1亿人次,成为史上用户量增长速度最快的消费级应用程序。那么,这个横空出世的ChatGPT究竟是什么?怎么突然就火了呢?1.1 1六边形AI战士ChatGPT是由OPenAI公司发布的最新一代的AI语言模型,是自然语言处理(NatUralLanguageProcessing,NLP)中一项引人瞩目的成果。这款AI语言模型,与过去那些智能语音助手的回答模式有很大的不同ChatGPT呈现了出人意料的“聪明与当前市面上的一些人工智能客服相比较,ChatGPT跨越“人工娱乐”,真正触及了人工智能,具有了我们期待的模样。很多人形容它是一个真正的“六边形Al战士”不仅能聊天、搜索、翻译,撰写诗词、论文和代码也不在话下,还能开发小游戏、作答美国高考题,甚至能做科研、当医生等。国外媒体评论称,ChatGPT会成为科技行业的下一个颠覆者。GPT的英文全称为GeneratiVePre-trainedTransformer(生成式预训练转换器),是一种基于互联网可用数据训练的文本生成深度学习模型。ChatGPT“脱胎”于OPenAI在2020年发布的GPT-3,任何外行都可以使用GPT-3,在几分钟内提供示例,并获得所需的文本输出。GPT3刚问世时也引起了轰动。它展示出了包括答题、翻译、写作,甚至是数学计算和编写代码等多种能力。由GPT-3所写的文章几乎达到了以假乱真的程度。在OPenAl的测试中,人类评估人员也很难将GPT-3生成的新闻与人类所写的新闻区分开。GPT-3被认为是当时最强大的语言模型,但现在,ChatGPT模型似乎更强大。ChatGPT能进行天马行空的长对话,可以回答问题,还能根据人们的要求撰写各种书面材料,如商业计划书、广告宣传材料、诗歌、笑话、计算机代码和电影剧本等。简单来说,ChatGPT具备了类人的逻辑、思考与沟通的能力,并且它的沟通能力在一些领域表现得相当惊人,能与人进行堪比专家级的对话。ChatGPT还能进行文学创作。比如,给ChatGPT一个话题,它就可以写出小说框架。当用户让ChatGPT以“AI改变世界”为主题写一个小说框架时,ChatGPT清晰地给出了故事背景、主人公、故事情节和结局。如果一次没有写完,ChatGPT还能在“提醒”之下,继续写作,补充完整。ChatGPT已经具备了一定的记忆能力,能够进行连续对话。有用户在体验ChatGPT之后评价称,ChatGPT的语言组织能力、文本水平、逻辑能力,可以说已经令人感到惊艳了。甚至已经有用户打算把日报、周报、总结这些文字工作,都交给ChatGPT来辅助完成。普通的文本创作只是最基本的。ChatGPT还能给程序员编写的代码找Bug。一些程序员在试用后表示,ChatGPT针对他们的技术问题提供了非常详细的解决方案,比一些搜索软件的回答还要靠谱。美国代码托管平台RePlit首席执行官AmjadMaSad在推特发文称,ChatGPT是一个优秀的“调试伙伴”,"它不仅解释了错误,而且能够修复错误,并解释修复方法”。在商业逻辑方面,ChatGPT不仅非常了解自己的优劣势,可以为自己进行竞品分析、撰写营销报告,就连世界经济形势也“了如指掌”,能答出自己的见解。ChatGPT还敢于质疑不正确的前提和假设,主动承认错误以及一些无法回答的问题,主动拒绝不合理的问题,提升了对用户意图的理解,提高了答题的准确性。1.1.2 ChatGPT并不完美虽然ChatGpT模型与GpT-3模型相比,性能提高了一个层次,但ChatGPT依然有不完美的地方。实际上,ChatGPT和GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果,而不是真正的“聪明”。不管是过去的GPT-3还是现在的ChatGPT,都会犯一些可笑的错误,尤其是文化常识问题、数学计算题等。而且,ChatGPT的回答往往是大段的,过于冗长,看似逻辑自治,但有时却是一本正经地“忽悠L这也是此类方法难以避免的弊端,因为它在本质上只是通过概率最大化不断生成数据而已,而不是通过逻辑推理来生成回复。虽然这种创编在有些领域可能非常有用,很多游戏开发者、科幻小说家、美术工作者就经常用Al来启发自己的思路,但这对于需要准确回答具体问题的应用场景来说却是硬伤。如果非专业人士无法分辨ChatGPT的答案的准确性,极有可能会被严重误导。可以想象,一台内容创作成本接近于零,正确率约80%,对非专业人士的迷惑程度接近1()0%的巨型机器,用人类写作者百万倍的产出速度接管所有的百科全书编撰工作,回答所有的知乎问题,这对人们认知的危害将是巨大的。为此,ChatGPT也遭到了一些机构的封禁。比如,StackOverflow(一个与程序相关的IT技术问答网站)暂时封禁ChatGPT的原因很简单,因为它生成的答案正确率太低,发布由ChatGPT创建的答案对网站和查询正确答案的用户来说是有害的。顶级人工智能会议也开始禁止使用ChatGPT和Al工具撰写学术论文。国际机器学习会议ICML认为,ChatGPT这类语言模型虽然代表了一种发展趋势,但随之而来的是一些意想不到的后果以及难以解决的问题。ICML表示,ChatGPT接受公共数据的训练,这些数据通常是在未经同意的情况下收集的,出了问题难以找到负责的对象。ChatGPT除提供的结果不够准确外,还无法引用信息来源;它几乎不知道2021年以后发生的事情。虽然它提供的结果通常足够流畅,在高中甚至大学课堂上可以过关,但无法像人类专家的表述那样,做到字斟句酌。人们似乎对智能的标准很低。如果某样东西看起来很聪明,我们就很容易自欺欺人地认为它是聪明的。ChatGPT和GPT-3在这方面是一个巨大的飞跃,但它们仍然是人类制造出来的工具。由于当前的ChatGPT只是基于2021年及之前的数据进行训练的,加之使用的范围不大,存在一些知识盲区,或者是会出现一些对话的笑话,这也在情理之中。但是随着大规模的用户对话训练,以及大规模的数据更新,ChatGPT将会以超出我们想象的速度进化。1.1.3 2023年的决定性技术六边形也好,不完美也罢,作为人工智能领域的现象级应用,ChatGPT已经登上了历史舞台,开始进入甚至影响人们的生活。从硅谷科技巨头,到一二级资本市场,对其感兴趣的人都在讨论ChatGPT及Al技术的未来发展及所带来的影响。其实,ChatGPT上线之初,主要还是在AI行业和科技行业引起反响。2023年春节后,其热度持续升温;2023年2月,关于ChatGPT的重要消息明显增多。人们发现ChatGPT可以轻松撰写文案、代码,涉猎历史、文化、科技等诸多领域,甚至通过了谷歌年薪为18.3万美元的编码三级工程师岗位面试。互联网上铺天盖地都是关于ChatGPT的信息。瑞银集团发布的报告显示:2023年1月,ChatGPT平均每天有约1300万名独立访客,这一数量是2022年12月的两倍。截至2023年1月末,ChatGPT月活用户已突破1亿人次。ChatGPT创造了新的用户增长速度纪录相比之下,也曾被称为火爆的InStagram,达到1亿的用户数用时两年半。2023年2月2日,微软宣布旗下所有产品全线整合ChatGPT。2月8日,由ChatGPT支持的新版Bing(必应)搜索引擎上线;3月,百度已提交注册ChatflOW等多个商标;英国自然杂志不再支持AI工具列为作者的论文;数字媒体公司BUZZfeed计划使用OPenAI的Al技术来协助创作个性化内容;美国宾夕法尼亚大学称ChatGPT能够通过该校工商管理硕士专业课程的期末考试;OPenAl宣布开发了一款名为“AITextClaSSi缶尸的鉴别工具,目的是帮助用户分辨文字是否由ChatGPTAl等生成。从资本市场来看,ChatGPT的火爆推动了AI相关公司股价上涨。春节后的中国A股开市第一周,ChatGPT.AIGC等概念表现活跃,相关个股连续上涨。Wind数据显示:2月3日,ChatGPT指数上涨5.56%,周涨幅达30.18%。领涨的概念股包括赛为智能、海天瑞声、云从科技、初灵信息和汉王科技等,周涨幅高达60%70%°如汉王科技,尽管此前预告其2022年的净利润预计为-1.4亿元至-9800万元,但借着ChatGPT的概念,依旧不妨碍其出现连续涨停。一些上市公司积极回复投资者在相关领域的布局,如捷成股份表示,公司参股子公司世优科技的虚拟数字人(以下简称“数字人”)已经接入ChatGPT,通过数字人的人设背景等相关数据集,并基于OPenAl训练数字人专有大脑形成个性化模型。百度宣布在3月召开围绕“文心一言”的新闻发布会,阿里巴巴达摩院称正在研发类ChatGPT的产品。据测算,基于1亿名用户,以每月20美元计算,ChatGPT年收入将超过200亿美元。经估算,ChatGPT在全球有超过10亿名的潜在用户,市场规模将超过2000亿美元。ChatGPT的收费模式如能成功,对于投资者而言,将是巨大的利润前景。如今,与ChatGPT概念相关的公司众多。据CBInSightS统计,ChatGPT概念领域目前约有250家初创公司,其中51%的融资进度在A轮或天使轮。2022年,ChatGPT和生成式Al(AlGC)领域“吸金”超过26亿美元,共诞生6家独角兽企业,估值最高的就是290亿美元的OPenAI。2023年2月10日,比尔盖茨在接受采访时表示,像ChatGPT这样的人工智能的兴起,与互联网的诞生或个人计算机的发展一样重要。不同于元宇宙出现时带来的概念炒作狂潮,ChatGPT才出现两个月,已经引发了关于人类社会生产和生活的真正变革的话题潮,关键就在于这是一次人工智能技术真正走向智能化的突破与应用。1.2 ChatGPT是如何炼成的ChatGPT看起来既强大又聪明,会创作,还会写代码。它在多个方面的能力都远远超过了人们的预期。那么,ChatGPT的能力到底从何而来?1.2.2 出色的NLP模型强悍的功能背后,技术并不神秘。本质上,ChatGPT是一个出色的NLP新模型。说到NLP,大多数人先想到的是AIeXa和Siri这样的语音助手,因为NLP的基础功能就是让机器理解人类的输入,但这只是技术的冰山一角。NLP是人工智能(AD和机器学习(ML)的子集,专注于让计算机处理和理解人类语言。虽然语音是语言处理的一部分,但NLP最重要的进步在于它对书面文本的分析能力。ChatGPT是一种基于TranSfc)rmer模型的预训练语言模型。它通过庞大的文本语料库进行训练,学习自然语言的知识和语法规则。在被人们询问时,它通过对询问的分析和理解,生成回答。TranSfOrmer模型提供了一种并行计算的方法,使得ChatGPT能够快速生成回答。TranSformeI模型又是什么呢?这就需要从NLP的技术发展历程来看,在TranSformer模型出现以前,NLP领域的主流模型是循环神经网络(RNN),再加入注意力机制(AttentiOn)。循环神经网络模型的优点是,能更好地处理有先后顺序的数据,如语言;而注意力机制就是让Al拥有理解上下文的能力。但是,“RNN+Attention”模型会让整个模型的处理速度变得非常慢,因为RNN是一个词接一个词进行处理的,并且,在处理较长序列,如长文章、书籍时,存在模型不稳定或者模型过早停止有效训练的问题。2017年,谷歌大脑团队在神经信息处理系统大会上发表了一篇名为JAttentioniSAllYouNeed(自我注意力是你所需要的全部)的论文,该论文首次提出了基于自我注意力机制(Self-attention)的变换器(Transformer)模型,并首次将其用于NLP。相较于此前的RNN模型,2017年提出的TranSfOrmer模型能够同时进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。这个最初的TranSformer模型,一共有6500万个可调参数。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的TranSfOrmer模型。这些语言数据集包括2014年英语一德语机器翻译研讨班(WMT)数据集(有450万组英德对应句组),2014年英语一法语机器翻译研讨班数据集(有3600万组英法对应句组),以及宾夕法尼亚大学树库语言数据集中的部分句组(分别取了库中来自华尔街日报的4万个句子,以及另外的1700万个句子)。而且,谷歌大脑团队在文中提供了模型的架构,任何人都可以用其搭建类似架构的模型,并结合自己手上的数据进行训练。经过训练后,这个最初的TmnSformer模型在翻译准确度、英语句子成分分析等各项评分上都达到了业内第一,成为当时最先进的大语言模型。ChatGPT使用了TranSformer模型的技术和思想,并在其基础上进行扩展和改进,以更好地适用于语言生成任务。正是基于TranSfOrmer模型,ChatGPT才有了今天的成功。1.2.3 庞大的数据训练当然,单有语言模型没有数据,是“巧妇难为无米之炊”。因此,基于TranSformer模型,ChatGPT的开发者们开展了大量的数据训练。在ChatGPT出现以前,OPenAl已经推出了GPT-1、GPT-2、GPT-3。虽然前几代声量不大,但模型都是极大的。GPT-I具有1.17亿个参数,OPenAl使用了经典的大型书籍文本数据集进行模型预训练。该数据集包含超过7000本从未出版的书稿,涵盖冒险、奇幻等类别。在预训练之后,OPenAl针对问答、文本相似性评估、语义蕴含判定及文本分类这四种语言场景、使用不同的特定数据集对模型进一步训练。最终形成的模型在这四种语言场景下都取得了比基础Transformer模型更优的结果,成为新的业内第一。2019年,OPenAl公布了一个具有15亿个参数的模型:GPT-2o该模型架构与GPT-I原理相同,主要区别是GPT-2的规模更大。不出意料,GPT-2模型刷新了大语言模型在多项语言场景下的评分纪录。而GPT-3的整个神经网络更是达到了惊人的1750亿个参数。除规模大了整整两个数量级外,GPT3与GPT-2的模型架构没有本质区别。不过,就是在如此庞大的数据训练下,GPT-3模型已经可以根据简单的提示自动生成完整的文从字顺的长文章,让人几乎不敢相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类任务。从GPT-I到GPT-2,再到GPT-3,尽管ChatGPT的相关数据并未被公开,但可以想象,ChatGPT的训练数据只会更多。1.2.4 集优势之大成特别值得一提的是,ChatGpT与GPT3是有所不同的。2022年3月,ChatGPT的开发公司C)PenAl发表了论文Rai几比gLanguageModelstoFollowInstructionswithHumanFeedback(结合人类反馈信息来训练语言模型使其能理解指令),并推出了ChatGPT所使用的基于GPT-3模型并进行了微调的InStrUCtGpT模型。在InStnICtGPT的模型训练中,加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。也就是说,区别于GPT-3通过海量学习数据进行训练,在ChatGPT中,人类对结果的反馈成了Al学习过程中的一部分。在GPT-3公测期间,用户提供了大量的对话和提示语数据;而OPenAl公司内部的数据标记团队也生成了不少的人工标记数据集。这些标注过的数据,可以帮助模型在直接学习数据的同时学习人类对这些数据的标记。于是,OPenAl就利用了这些数据对GPT3所采用的监督式训练进行了微调。随后,OPenAl收集了微调过的模型生成的答案样本。一般来说,对于每一条提示语,模型都可以给出无数个答案,而人们一般只想看到一个答案,模型需要对这些答案进行排序,并选出最优的。所以,数据标记团队在这一步对所有可能的答案进行人工打分排序,并选出最符合人类习惯的答案。这些人工打分的结果可以进一步建立奖励模型自动给语言模型奖励反馈,达到鼓励语言模型给出好的答案、抑制给出不好的答案的目的,帮助模型自动寻出最优答案。最后,该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型,并且进行迭代,最终得到的模型就是InStrUCtGPT。简单来说,OPenAl于2020年发布的GPT-3,让计算机第一次拥有了惟妙惟肖地模仿人类说话”的能力。但是,当时的GPT3的观点和逻辑常常出现错误和混乱,OPenAl因此引入了人类监督员,专门“教”AI如何更好地回答人类提出的问题。当Al的回答符合人类评价标准时,就打高分,否则就打低分。这使得AI能够按照人类价值观优化数据和参数。集合了优势之大成,ChatGPT果然展示出了前所未有的功能,一举成为Al领域的现象级应用。1.3 “ChatGPT+”无所不能ChatGPT问世不到两个月就吸引了无数人的目光,它基于大型语言训练模型给出的结果几乎横扫人工智能界。ChatGPT的热度,让人们感受到了Al带来的便利,很快就衍生出了“ChatGPT+”效应。1.3.2 叠力口“魔法”的ChatGPT所谓的“ChatGPT+”效应,其实就是ChatGPT模型和其他人工智能程序的“组合拳”。其中一个例子就是WOIframAlPha和ChatGPT的结合。WolframAlPha问答系统由“Wolfiam语言之父”史蒂芬沃尔夫勒姆开发,在沃尔夫勒姆看来,世界是可计算的。因此,他试图做的是:只要你能描述出来想要什么,然后计算机尽量去理解意思,并尽最大努力去执行。为了完成这一目标,沃尔夫勒姆创造了以他自己名字命名的Wolfram语言和计算知识搜索引擎WOIframAlpha02023年1月9日,沃尔夫勒姆发表了一篇文章,比较了ChatGPT和十四岁的WolframAlPha问答系统,想让两者结合起来。要知道,虽然ChatGPT在创作文本上表现出了惊人的能力,但其数学能力实在是“拉胯”,连小学生都会的“鸡兔同笼''问题和简单的加减乘除都可能算错。而WOlframAIPha问答系统恰巧是理工科“神器”,ChatGPTftWolframAIPha问答系统的结合,能实现完美互补。WolframAlPha于2009年5月18日正式发布,其底层运算和数据处理工作是通过在后台运行的MathematiCa实现的。因为MathematiCa支持几何、数值及符号式计算,并且具有强大的数学以及科技图形图像的可视化功能,所以WOIframAIPha能够回答多种多样的数学问题,并将答案以清晰美观的图形化方式显示给用户。这种计算知识引擎为苹果的数字助理Siri奠定了坚实的基础。WolframAIPha本就具有强大的结构化计算能力,而且也能理解自然语言。比如,如果我们问ChatGPT:从芝加哥到东京有多远?ChatGPT也许并不能给我们一个精确的答案,因为ChatGPT的答案来源于训练中就要注意到芝加哥和东京之间的明确距离,当然还可能答错。而即便答对,只掌握这种简单的解决方法还不够,它需要一种实际的算法。但WOlframAIPha却能充分利用其结构化、高精准的知识将某事转化为精确计算。可以说,ChatGPT与WoIframAIPha的结合,成就了“ChatGPT+”。1.3.3 让“ChatGPT+”飞起来“ChatGPT+”效应,向很多在探索AlGC商业化落地的企业提供了参考和借鉴。有的用户把ChatGPT与StableDiffusion(Al文生图工具)结合使用,即先要求ChatGPT生成随机的艺术提示词(prompt),然后把PrOmPt输入StabIeDiffusion,再生成一幅艺术性很痛的画作。还有用户提出“ChatGPT+WebGPT”,WebGPT是OPenAl公布的另一个版本的GPT,可以通过查询搜索引擎和汇总查询到的信息来回答问题,包括对相关来源的注释。我们可以把WebGPT理解为高阶版的网页爬虫,从互联网上摘取信息来回答问题,并提供相应的出处。“ChatGPT+WebGPT”产生的结果信息可以实时更新,对于事实真假的判断更为准确。微软CEO纳德拉透露,计戈IJ将ChatGPT、Da11E等人工智能工具整合进微软旗下的产品中,包括OffiCe全家桶、AZUr6云服务、TeamS聊天程序等。ChatGPT已整合进入搜索引擎Bing,为用户呈现更完整的信息并附加信息来源,同时借助更强大的自然语言处理系统识别关键字,提供更精准和个性化的相关内容推荐。在OffiCe全家桶中,NLP技术将允许用户使用更灵活和智能的方式检索内容,并帮助用户快速生成个性化文本,带来办公体验的智能升级。而依托OPenAl在办公领域的强大生态,ChatGPT则有望得到快速发展,加速实现对话式AI、AIGC的商业化落地。可以预见,"ChatGPT+”还将给现有的产品和服务带来更多新玩法和新体验,人工智能的应用也将步入一个全新的阶段。1.4 Al生成大流行2022年,是人工智能生成内容(AlGC)爆火甘圈”的一年,从Al生成绘画到Al生成代码,再到Al创作的文艺作品,人们惊叹于Al生成的内容,因为这已经不输于人类创作的水平。而2022年末诞生的ChatGPT更是把AIGC推向一个新的高潮。美国科学杂志发布的2022年度科学十大突破中,AlGe作为人工智能领域的重要突破赫然在列。Gartner将AlGC列为2022年五大影响力技术之一。麻省理工科技评论也将AIGe列为2022年十大突破性技术之一,甚至将AIGC称为Al领域过去十年最具前景的进展。1.4.2 AIGC爆火“出圈”什么是AIGC?实际上,AIGC是一个组合词:AI+GC,意思是用人工智能生产内容(AlGeneratedContent)o从内容创作方式来看,我们曾经听到的大多是PGC和UGC。其中,PGC是指专业内容生产者来生产内容。比如,一个研究并制作出高质量科技评测视频的网站,就可以被称为PGC。在互联网时代,PGC在向大众传播信息方面发挥了重要作用。UGC是指用户生成内容,这些内容不是由专业内容生产者制作的,而是由普通用户自行制作的。比如,在社交媒体上发布的照片、评论和视频等就属于UGC内容。在移动互联网时代,UGC成了主流的内容生声方式。现在,AlGC正在以迅雷之势成为继PGC和UGe之后新型的内容创作方式。要知道,不管是PGC还是UGC,都是以人为主体进行内容生成和创作的,而AIGC内容的制作方从人或机构变成了AI。其实AIGC的概念并非在2022年才出现。此前,类似于微软“小冰”等人工智能,作诗、写作、创作歌曲等产品生产就属于AIGC的领域。但直到2022年,随着一幅AI绘画的获奖,AIGC开始集中爆发。2022年8月,在美国科罗拉多州举办的数字艺术家竞赛中,一幅名为太空歌剧院的画作获得数字艺术类别冠军。这一画作由Al绘图工具MidjoUrney完成:画面上,几位演员穿着华美戏服,站在舞台上表演,黑暗中的观众席上方出现一个巨大圆窗,似乎能看到另一个未知世界的存在。这一AI作品,在世界范围内引发热烈讨论,“AI画作拿一等奖惹怒人类艺术家''的话题很快登上热搜,仅单日阅读量就超过了1.1亿人次。2022年10月,StabilityAl获得约1亿美元融资,估值高达10亿美元,跻身独角兽公司行列。StabilityAl发布的开源模型StableDiffUSion,可以根据用户输入的文字描述自动生成图像,即文生图(TexttoImage,T2I)oStableDiffusion>Dall-E2、MidJOUrney等可以生成图片的AlGC模型引爆了Al作画领域。Al作画风行一时,标志着人工智能向艺术领域渗透。在AlGC图像生成火爆的同时,ChatGPT横空出世,与人类“对答如流”,将人机对话推向新的高度。体验过的用户纷纷被ChatGPT强大的功能折服,它不仅可以轻松与人类进行各个领域的对话,还能理解各式各样的需求,无论是写代码还是创作小说,甚至给推特的发展提建议、质疑不正确的假设、拒绝不合理的要求等。可以说,2022年后,AlGC正式进入发展的快车道。现在,全球各大科技企业都在积极拥抱AlGC不断推出相关的技术、平台和应用。1.4.3 AlGC大展身手无论是火遍全网的AI绘画,还是快速吸引用户的ChatGPT,都属于AlGC这一概念,AIGC不仅在图像生成、文本生成领域大展身手,在短视频、动画、音乐等领域同样有非常广阔的前景。首先,图像生成是AIGC目前发展势头最猛、落地产品更多的领域。根据使用场景,可分为图像编辑和端到端图像生成。图像编辑包括图像属性编辑和图像内容编辑。端到端图像生成包括基于图像生成,如基于草图生成完整图像,根据特定属性生成图像等,以及多模态转换,如根据文字生成图像等。典型的产品或算法模型包括EditGAN、Deepfake>Dall-E>Midjourney>StableDiffusion>“文心一格”等。其次就是Al文本生成。AI文本生成是AlGC中发展最早的一部分技术。根据使用场景,可分为非交互式文本生成和交互式文本生成。非交互式文本生成包括内容续写、摘要/标题生成、文本风格迁移、整段文本生成、图像生成文字描述等功能。交互式文本生成包括聊天机器人、X本交互游戏等功能。典型的产品或算法模型有JaSPerAI、COPy.ai、彩云小梦、AIDungeon>ChatGPT等。Al视频生成可分为视频编辑,如画质修复、视频特效、视频换脸等,以及视频自动剪辑和端到端视频生成,如文字生成视频等。谷歌旗下的文字生成视频Al系统Phenaki就是一个典型应用。虽然Phenaki生成的视频画质还比较差,但时长2分钟的内容已经涉及多个场景、不同主题的变换。正如Phenaki官网所展示的一段视频,其根据一段由200个单词构成的提示词,生成了一段关于未来科幻世界的视频。随着Al与短视频的连接与日俱增,短视频平台的内容池里,除传统的UGC和PGC外,AIGC将占更高的比例,且流量号召力不容小觑。Al音频生成中的部分技术已经较为成熟,被应用于多种C端产品中。音频生成可分为语音合成(TeXt-to-speech,TTS)和乐曲生成两类。其中,TTS具有语音客服、有声读物制作、智能配音等功能。乐曲生成包括基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。典型的产品或算法模型有DeePMUsic、WaveNet>DeepVoice>MUSiCAUtOBOt等。此外,Al生成还包括代码生成、游戏生成、3D生成等。今天,AI生成已经步入了春天,可以预见,作为数字内容的新生产方式,AIGC的渗透率还将逐步提升,应用场景日益丰富,包括游戏、动漫、传媒等行业。根据Gartner预测,到2025年,人工智能生成数据占比将达到10%o2022年9月,红杉资本发布的文章G小eA/:ACreativeNewW”d的分析则显示,AlGC有潜力产生数万亿美元的经济价值。1.4.4 内容生产的全新变革如果说Al推荐算法是内容分发的强大引擎,那么,AIGC就是数据与内容生产的强大引擎。传统创作中,创作主体人类往往被认为是权威的代言者,是灵感的所有者。事实上,正是因为人类激进的创造力、非理性的原创性,甚至是毫无逻辑的慵懒,而非顽固的逻辑,才使得到目前为止,机器仍然难以模仿人的这些特质,使得创造性生产仍然是人类的专属。但今天,随着AlGC的出现与发展,创作主体的属人特性被冲击,艺术创作不再是人的专属。即便是模仿式创造,AI对艺术作品形式风格的可模仿能力的出现,都使创作者这一角色的创作不再是人的专利。AIGe还朝着效率和品质更高、成本更低的方向发展。从社交媒体到游戏、从广告到建筑、从编码到平面设计、从产品设计到法律、从营销到售后等各个需要人类知识创造的行业都可能被AIGC所影响和变革。数字经济和人工智能发展所需的海量数据也能通过AlGC技术生成、合成出来,即合成数据。今天,AlGC正在掀起一场内容生产的革命。在内容需求旺盛的当下,AlGe所带来的内容生产方式变革引起了内容消费模式的变化。比如,AI绘画可以提高美术素材的生产效率,在游戏、数字藏品领域初步得以应用。再如,火遍全网的ChatGPT正是典型的文本生成式AlGCoChatGPT不仅能够满足与人类进行对话的基本功能,还可以驾驭各种风格的文体,且代码编辑能力、基础脑力工作处理能力等一系列常见文字输出任务的完成程度也大大超出预期。概念上似乎更广泛的AIGC看起来没有ChatGPT那么火爆,其核心原因还在于两者之间的差异。尽管AIGC的概念更宽泛,但目前的技术更多的只是侧重于语意的图像化理解与生成,这与ChatGPT基于神经网络的类人智能化逻辑有所差异。相比较而言,ChatGPT是人类真正期待的人工智能的样子,即具备类人沟通能力,并且借助于大数据的信息整合成为人类强大的助手。ChatGPT让我们讨论已久、期待已久的人工智能有了可触感,无论它的技术是不是最先进的,但是它所呈现的模样是符合大家期待的。至于未来,将发展成AIGC包含ChatGPT,还是ChatGPT以更快速的迭代与商业化应用取代AIGC的概念,仍不好下定论。无论这些技术的概念在未来会如何定义,都意味着,在未来,人类社会一切有规律性、规则性的工作,将被ChatGPT或者比ChatGPT更进一步的AlGC所取代,并且一些创造性工作会加速进入人机交互时代。第2章通用AL奇点将近2.1 一个世界,两套智能2.1.1 智能的起源46亿年前,地球诞生。6亿年后,在早期的海洋中出现了最早的生命,生物开始了由原核生物向真核生物的复杂而漫长的演化。6亿年前,埃迪卡拉纪,地球上出现了多细胞的埃迪卡拉生物群,原始的腔肠动物在埃迪卡拉纪的海洋中浮游着。控制它们运动的,是其体内一群特殊的细胞一神经元。不同于那些主要与附近的细胞形成各种组织结构的同类,神经元从胞体上抽出细长的神经纤维,与另一个神经元的神经纤维相会。这些神经纤维中,负责接收并传入信息的“树突”(dendrite)占了大多数,而负责输出信息的“轴突”(axon)则只有一条(但可分叉)。当树突接收大于兴奋阈值的信息后,整个神经元就将如同灯泡被点亮一般,爆发出一个短促但极为明显的“动作电位”(actionpotential),动作电位会在近乎瞬间就沿着细胞膜传遍整个神经元包括远离胞体的神经纤维末端。之后,上一个神经元的轴突和下一个神经元的树突之间名为“突触”(SynaPSe)的末端结构会被电信号激活,“神经递质”(neurotransmitter)随即神突触前膜释放,用以在两个神经元间传递信息,并且能依种类不同,对下一个神经元起到兴奋或抑制的不同作用。这些最早的神经元,凭着自身的结构特点,组成了一张分布于腔肠动物全身的网络。就是这样一张看起来颇为简陋的神经元网络,成为日后所有神经系统的基本结构。2000万年前起,一部分灵长类动物开始花更多的时间生活在地面上。700万年前,在非洲某个地方,出现了第一批用双脚站立的“类人猿”。200万年前,非洲东部出现了另一个类人物种,就是我们所说的“能人”。这个物种的特别之处在于其成员可以制作简单的石质工具。在这之后,漫长又短暂的150万年中,狭义“智能”在他们那大概只有现代智人一半大的脑子里诞生发展。他们开始改进手中的石器,甚至尝试着“驯服”狂暴的烈焰,随着自然选择和基因突变的双重作用,他们后代的脑容量越来越大,直到“直立人”出现。根据古生物学的研究,“直立人”与现代人类个头相当,其脑容量也和我们相差无几。他们制作的石质工具比“能人”更加精细复杂,即“智人”。20万年前,现代“智人”的大脑出现了飞跃性的发展,对直接生存意义不大的联络皮层尤其是额叶出现了剧烈的增长,