ChatGPT专家深度解读.docx
《ChatGPT专家深度解读.docx》由会员分享,可在线阅读,更多相关《ChatGPT专家深度解读.docx(6页珍藏版)》请在课桌文档上搜索。
1、1、ChatGPT和以前GPT大模型的区别:ChatGPT是基于GPT3.5的基础模型框架,核心变化在于通过真实的调用数据以及人类反馈的强化学习进行训练。2、国内企业与ChatGPT的差距:百度、华为等头部厂商都有大模型,百度文心模型参数量已经达到2600亿,从技术能力上国内相比专家判断比ChatGPT约晚12年,OPenAl第一梯队,Google第二梯队,百度第三梯队。从数据、算力、模型的维度上,主要是差在模型环节,包括清洗、标注、模型结构设计、训练推理的技术积累。3、训练成本昂贵:GPT3.0离线训练成本高达1200万美元,大模型重新训练成本达400万美元,都是租用微软的计算资源,成本与训
2、练数据量成比例,增加GPU也可提升训练速度,中小厂商或将无法承担高昂的大模型自研成本。4、模型训练所依赖的高性能Xin片被M国卡b。子的解决方案:1)采用国内自研GPU;2)用分布式CPU替代,部分大厂应用采用分布式CPU的方式进行训练。5、未来商业模式:OPenAl或将对外输出模型能力,国内百度等企业也会跟进,国内应用软件企业未来可能采用OPenAl或百度等厂商的Al模型作为基础能力。专家介绍:首先介绍一下ChatGPT,ChatGPT去年出来后,在全球Al界、创投界掀起热烈的讨论潮。很多人想了解ChatGPT具体是做什么的,我们可以理解为通用的问答系统,发布方是OPenAl公司,OPenA
3、l是业内比较知名的人工智能研究机构。ChatGPT模型从18年开始迭代为GPT1,到19年有GPT2,到20年有GPT3等等,通过一系列的模型迭代,在今年推出了ChatGPTo这个模型是基于GPT3的模型框架,GPT3的参数量级非常大,有1700多亿,所以这个模型出来后效果比较好,大家体验下来发现功能强大,在业界受欢迎。很多人好奇,能力跟之前比具体有哪些进步?ChatGPT模型关键的能力来自于三个方面:1)前身是InStrUCtGPT,通过真实的调用数据以及反馈学习,ChatGPT在模型结构、学习方式和InstructGPT基本上是完全一样的,InstriJCtGPT基于GPT3.5的强大能力
4、,整个模型通过OPenAl一个系列的迭代,有很多技术积累;2)ChatGPT主要的3个学习阶段包括,从OPenAl调用数据集中采取Al训练编写答案,第一阶段通过监督学习方法训练GPT3版本,然后用比较型的数据训练一个reward模型,用到一些对比学习和rewardmodel,第三阶段是强化学习里面的PPO算法和奖励模型的语言生成策略;3)跟之前的很多模型比,单纯用监督学习或无监督学习以及强化学习的端到端形式,现在分成多阶段来做,整体模型的训练开销非常大,这个模型有1700亿参数,训练一次要400多万美元的成本,对资源的使用比较大。Q&A:Q:分享一下国内头部玩家,比如百度、阿里、腾讯、字节、讯
5、飞、商汤等目前Al大模型的参数量,以及与ChatGPT的差距在哪里?我们用多久能追上?A:国内这样的大模型非常多,百度、华为都有大模型。百度文心模型参数量已经达到2600亿,不逊于GPT30.百度今年宣称3、4月份推出类似于ChatGPT的模型,可能首期的应用场景会跟搜索结合,会形成ChatGPT、搜索的双引擎结合模式,会发布Clem。出来,整体看,模型的参数量级比GPT3.0大了50%O我们国内的发展水平是不是和ChatGPT达到同等程度?这个地方可以看一下OPenAl发展的技术史,动态看18年后一到两年时间国内的技术追赶比较快,提出比较好的改进模型,但真正的差距拉开是20年中,也就是GPT
6、3.0出来后,当时可能很多人觉得GPT3.0不仅是技术,体现了Al模型的发展新理念,这个时候我们跟OPenAl的差距拉得比较远,因为OPenAl对这一块有技术的独到见解,也领先了国外的Google,大概Google比OPenAl差了半年到一年的时间,国内差了两年的时间。所以梯队上,OPenAI排第一梯队,Google排第二梯队,百度排第三梯队,差距不是那么大。动态看事情的发展,百度还是有机会做得更好。从百度发布的模型看,内测版还没有开放出来,我们体验下来发现效果不错,模型参数量级看上去和GPT3.0是不差的,所以目前看上去我们相对比较有期待。国内:比如字节跳动也在做大模型,一方面是应用场景,接
7、下来可能有一些商业化。这个模型不是一两个月就能做出来,需要时间积累,随着后面AlGC、ChatGPT的深度发展,里面会形成越来越多的商业化内容,对于头部公司来说,做前沿的技术积累,有利于形成先发优势。所以像字节跳动、阿里都在往这方面做。阿里、腾讯不会复制ChatGPT模式,而是做一些与AlGC相关的产业化。阿里现在往智能客服系统、Al+营销做,使得商品介绍、广告介绍不需要人工生成文案,而是通过A生成内容。头条也用A生成内容,因为头条是以内容生产、分发为.主要业务的公司。总结看我们跟国外的区别是,模型大小上我们很多公司可以媲美,从技术角度或者PaPer角度,可能我们跟他们的差距可能有一到两年的距
8、离。Q:OpenAIGPT3.020年推出来,现在推出了ChatGPT之后市场大火。ChatGPT相对于GPT3.0有什么实质性的改变,造成市场认可度高?热度会不会突然下去?A:现在ChatGPT做了会话机器人,不是IT圈子里面的人也可能去试用,使得人群受众变广,其实基本的模型、训练方式,两者之间没有多大区别,而是在GPT3.0基础上做了特定领域的数据,拿过来做训练得到特定领域的模型。所以总结下来不是之前的GPT3.0做得不好。现在比较热,热度会不会过两个月下去?坦率说,从我的认知来讲,短暂时间内热度不会下去。从业界很多企业对这个事情的反馈来看,比如GoOgle、百度相继在发力。GOogIe已
9、经列为红色预警,包括将来对搜索引擎的颠覆,有很高的优先级;百度也是因为搜索引擎,对这块非常上心,3月份会推出新的模型,到时候看市场的效果。所以从大公司的反应来看,这个事情可能不是噱头,而是新的技术革命的发展。甚至有夸张的说法,业内一些专家认为这是PC互联网之后的又一个里程碑式的发展。包括我们自己体验下来,ChatGPT的功能确实是很智能,而且随着OPenAI的研发,接下里朝着AGl方向的发展的更大规模的模型,我们有理由期待这个事情不是一波流的,而是从现在开始持续形成大的影响,并且扩散出去。Q:从数据、算法到算力,国内有没有可能做出ChatGPT这种有商业化价值的模型?听到一种说法,国内号称模型
10、参数高,但效果特别差?我们中国独特的市场有没有办法培育出比较好的产品出来?A:从GPT模型的PiPeIine来看,有数据、算力、模型。数据上,国内是不缺的,百度、今日头条有大量用户的真实场景的数据。算力角度,一些大厂比如百度的文心模型达到2000多亿参数量,虽然训练成本非常高,但大公司承担得起。我们真正缺乏的是技术积累,包括数据怎么做清洗、标注以及模型的结构设计,怎么做训练、推理,这个地方很多都是需要经验和积累。包括里面的很多算法是OPenAl和deepmind提出来的,作为原作者的理解能力是我们远不及的。20年GPT3.0出现的时候,我们跟国外的差距就拉大了,当时很少人觉察到GPT3.0不仅
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ChatGPT 专家 深度 解读

链接地址:https://www.desk33.com/p-256950.html