海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx
《海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx》由会员分享,可在线阅读,更多相关《海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx(26页珍藏版)》请在课桌文档上搜索。
1、股票代码:688787股票简称:海天瑞声北京海天瑞声科技股份有限公司(BeijingHaitianRuishengScienceTechnologyLtd.)(北京市海淀区成府路28号4-801)海天瑞声DzvtaoceanAl2023年度向特定对象发行A股股票募集资金使用可行性分析报告除非文义另有所指,下列简称具有如下含义:专业术语人工智能/AI指英文为ArtificialIntelligence,缩写为AL是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。生成式人工智能/生成式AI指生成式人工智能(GeneratiVeAl)是使用机器学习和深度学习算法,从
2、现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据,如图像、音频、视频和文本,并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用。大模型指大模型就是FoundationMOdel(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。数据生产垂直大模型指海天瑞声数据生产垂直大模型,是公司利用大模型理论和算法,自主打造的面向人工智能数据基础服务的技术底座,实现面向多个下游数据任务的设计与处理等规则及内容的多项生成能力模型。多模态指多模态机器学习(MUlti-modalMachineLearning)是一种机器学习方法,用于处理多种类型的数据,
3、如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模,以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型。深度学习指英文为DeepLeaming,缩写为DL,是从机器学习中的人工神经网络发展而来的多层人工神经网络和它的训练方法是一种基于人工神经网络的机器学习,其中多层处理被用来从数据中逐步提取更高层次的特征。人类反馈强化学习指英文为ReinforcementLearningfromHumanFeedback,缩写为RLHF,是一种机器学习方法,旨在使智能系统从环境中学习,通过引入“奖励”和“惩罚”信号,让系统自行探索环境并学习最佳行
4、为策略,以最大化某种特定目标。人工智能基础数据、训练数据、人工智能基础数据服务指人工智能基础数据、训练数据均指通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据;人工智能基础数据服务指为Al算法训练及优化提供的数据集设计、数据采集/获取、清洗、标注/优化、评测等服务。计算机视觉指英文为ComputerVision,缩写为CV,是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等。自然语言处理指英文为NaturalLanguageProcessing,缩写为NLP,是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用
5、自然语言进行有效通信的各种理论和方法。AIGC指AIGeneratedContent,是指利用人工智能技术来生成内容。ChatGPT指美国OPenAl研发的聊天机器人程序,ChatGpT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。GB指千兆字节,是数字信息存储容量的一个单位。它被用来衡量文件、文档和数据存储设备的大小。一个千兆字节是1024兆字节。TB指太字节,是数字信息存储容量的一个单位。一个太字节是1024个千兆字节。ZB指Zettaby
6、te,是数字信息存储容量的一个单位。一个Zetta字节是100万太字节。它代表了一个巨大的数据存储容量,通常在讨论大规模数据中心、全球数据流量或主要组织或行业的存储需求时使用。Transformer技术指Transformer技术是一种基于自注意力机制的神经网络架构,广泛应用于自然语言处理和计算机视觉等领域。TranSfOrmer技术在机器翻译、文本生成、语言理解等任务中取得了显著的成果,并成为目前自然语言处理领域的主流模型。OpenAI指OPenAl是一家美国人工智能研究实验室和公司,在人工智能的各个领域进行前沿研究。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、
7、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。Prompt提示文本,提供模型完成下游任务所需的上下文等信息,以帮助模型更好地理解任务需求,从而更好地完成下游任务。预训练/Pre-training指预训练是通过在大规模数据集上进行初始训练,学习通用特征和表示的机器学习方法。预训练模型可用于后续任务,并在多个领域应用广泛。模型微调/Fine-tune指微调,是一种常用于预训练模型的模型优化技术,基于己经训练好的预训练模型进行微调,使模型能够更好地适应目标任务。奖励模型/RewardModel指奖励模型(ReWardMOdel)是在强化学习中使用的一种关键概念。它定义了在特定任
8、务中,智能体所追求的目标和奖励的方式。奖励模型通过指定在智能体采取行动后,所获得的奖励信号来引导智能体的学习和决策过程。奖励模型可以基于任务的目标设定,对智能体的行为进行正向奖励或负向惩罚,从而影响智能体的策略优化和决策选择。智算中心指全称人工智能计算中心,指为人工智能(AI)开发和应用提供所需算力服务、数据服务和算法服务的机构。StableDiffusion指由StabiliIyAl公司(英国一家人工智能企业)于2022年推出的图文生成模型,用于从提示信息的自然语言描述中生成图像。本次募集资金使用计划北京海天瑞声科技股份有限公司(以下简称“公司”)2023年度拟向特定对象发行A股股票(以下简
9、称“本次发行”),募集资金总额不超过人民币78,989.00万元(含本数),扣除相关发行费用后的募集资金净额拟用于以下项目:序号项目名称项目投资总额(万元)拟投入募集资金额(万元)1AI大模型训练数据集建设项目38,337.3638,337.362数据生产垂直大模型研发项目40,651.6440,651.64合计78,989.0078,989.00注:项目名称最终以主管部门核准或备案名称为准在本次发行募集资金到位前,公司将根据募集资金投资项目的实际情况,以自筹资金先行投入,并在募集资金到位后按照相关法律、法规规定的程序予以置换。募集资金到位后,若扣除发行费用后的实际募集资金净额少于拟投入募集资
10、金总额,在本次发行募集资金投资项目范围内,公司将根据实际募集资金数额,按照项目的轻重缓急等情况,调整并决定募集资金的具体投资项目、优先顺序及各项目的具体投资金额,募集资金不足部分由公司自筹解决。若本次发行募集资金总额因监管政策变化或发行注册文件的要求予以调整的,则届时将相应调整。二、募集资金投资项目基本情况及可行性分析(一)Al大模型训练数据集建设项目1、项目背景(1)人工智能产业加速发展,基础数据服务业规模不断提升随着互联网、云计算、物联网以及穿戴设备的发展,数据要素价值不断释放,数字化转型成为大势所趋。人工智能作为数字经济发展的底层核心技术之一,成为数字经济发展的重要战略抓手。2022年底
11、ChatGPT的出现,掀起又一波人工智能发展热潮,以无监督学习模式为代表的预训练+人类反馈强化学习所构成的大模型技术路线的落地意味着人工智能开启发展新范式,基础模型能力通过预训练及基于人类反馈的强化学习得到不断解锁,以解决海量开放式任务。根据艾瑞咨询数据,2022年中国人工智能产业规模为1,948亿元,预计2027年市场规模将达到6,122亿元,年复合增长率为25.6%,主要与智算中心建设以及大模型训练等需求拉动的Al芯片市场、无接触服务需求拉动的智能机器人及对话式Al市场等快速增长相关。图12020-2027年中国人工智能产业规划(单位:亿元)在人工智能产业链中,算法、算力和数据共同构成技术
12、发展的三大核心要素。过去十年,人工智能产业以算法为中心,随着算法趋于开源,数据的重要性愈发凸显。在人工智能模型从技术理论到应用落地的过程中,需要依赖大量的训练数据,相较于以模型为中心的训练方法,以海量数据为中心的训练方法能够提升模型推断结论的可靠性。万亿GB量级的数据随着互联网、云计算、物联网、大数据等发展源源不断地产生,但数据质量参差不齐,对海量的复杂数据进行深入挖掘、输出,进而激活和释放数据的深层价值也成为数据市场的发展重点。根据德勤数据,2022年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元,年复合增长率为23.6%-28.9%o图22017-202
13、7年中国人工智能基础数据服务市场规模(单位:亿元)18016014012010080604020045.030.318.08.2m1382017201820192020202120222027E数据来源:德勤(2)大模型技术发展带来AI范式变革,催生新型数据服务需求,进一步提升数据市场空间人工智能大模型由于其强大的通用性能以及泛化能力正在加快人工智能发展路径,在大幅增强人工智能体验感的同时降低再开发门槛,使得人工智能产业具备在各实体产业快速落地发展的潜能。随着大模型技术的发展,算法训练对数据的依赖程度逐渐加深,催生了新的数据需求和新的数据服务模式。一方面,数据的质量以及数据清洗的工程化能力会显
14、著拉开大模型预训练阶段的效果差距;另一方面,预期更多模型将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。未来数据处理将不再局限在传统的有监督学习下的定向采集与精细化标注,而将叠加数据规模化获取、清洗以及类强化学习等方向。此外,随着深度学习技术的不断突破,人工智能发展已经进入2.0时代,AI技术与传统产业的融合将成为数字经济时代的新发展趋势。大模型算法训练需求正逐渐从通用基础能力建设向垂直领域拓展,数据需求向专业化方向发展。目前,AI技术在金融、医疗、工业等传统行业中的渗透率和应用不断提升,展现出可观的商业价值和较强的发展潜力。为加
15、速实现Al产业化落地,行业将衍生出更多垂直场景的数据需求,大模型将通过不断学习各个专业领域的行业高质量数据,实现更广阔的垂向拓展。与此同时,国内科技互联网巨头纷纷布局多模态大模型,基于公开数据及自身特有数据训练多模态大模型,多模态数据集需求快速提升,多模态成为大模型时代下新发展范式。(3)各地推动数据基础制度建设,数据要素市场迎来新发展机遇近年来,我国数字经济蓬勃发展,数据要素因具有基础性战略资源和关键性生产要素的双重属性,相关市场规模持续增长。尤其在中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见出台后,我国系统性布局了数据基础制度体系的“四梁八柱”,加速了数据流通交易和数据要
16、素市场发展,进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召,北京、上海、广州、深圳、杭州等地数据政策陆续出台,逐步构建了多层次、多元化数据要素市场生态体系。以北京为例,北京市促进通用人工智能创新发展的若干措施和关于推进北京市数据专区建设的指导意见指出,北京市要加快建设“数据基础制度先行先试示范区”(以下简称“先行先试示范区”),探索打造数据训练基地,归集高质量基础训练数据集,推动数据要素高水平开放,提升本市人工智能数据标注库规模和质量,并建设针对重大领域、重点区域或特定场景建设专题数据区域,吸纳市场主体和数据、技术、资本等多元要素参与。北京市陆续出台的多项文件旨在
17、打破数据壁垒,推动数据融合利用,加快推动公共数据开放,促进数据要素流通,激发数字市场创新活力,释放和发展数字化生产力,打造多层级数据要素市场,成为具有竞争力和影响力的数字产业集群。按照“政府引导、市场运作、创新引领、安全可控”的原则,先行先试示范区“有望成为国际领先的数据要素高效流通核心枢纽。根据国家工信安全发展研究中心数据,2022年我国数据要素市场规模为904亿元,预计到2025年将达到1,749亿元左右,2020年2025年年复合增长率为26.26%,数据要素将成为赋能中国数字经济发展的重要驱动力量。图3中国数据要素市场规模及预测(亿元)1.7491.218001600140012001
18、0008006(X)4002000数据要素市场规模增长率2000数据来源:国家工业信息安全发展研究中心,中国信息通信研究院,华泰研究(4)我国拥有海量数据资源,但数据质量仍面临严峻挑战,成为行业亟待解决的问题我国各行业数据资源较为丰富,根据艾瑞咨询数据,2015年-2030年中国数据量规模由3ZB将增长至175ZB,预计2030年中国数据量约占全球的28.8%,年复合增长率约为31%o200180160140120I(X)806040200图42015-2030年中国数据量规模及全球占比35.0%30.0%25.0%20.0%15.0%10.0%5.0%0.0%数据来源:艾瑞咨询虽然中国数据资
19、源丰富,但由于数据挖掘不足,以及大量数据无法在市场上自由流通等原因,优质中文数据集仍然稀缺。以ChatGPT为例,其模型训练数据中,中文数据来源不足千分之一。目前,国内头部科技企业主要基于公开数据集以及自身特有的数据进行大模型训练,但由于中文优质数据质量以及数据资源的制约,国内大模型的能力与以ChatGpT为代表的国际大模型相比仍存在一定差距。国内缺乏高质量数据集的主要原因包括当前国内数据挖掘和数据治理的力度不足、资金投入较大;数据流通与数据安全保障措施不够健全;国内市场缺乏开源意识,大量数据无法在市场上自由流通;国内相关公司成立较晚,数据积累较少;学术领域中文数据集受重视程度低以及国产数据集
20、市场影响力及普及度较低等。从原始数据到可被应用的数据集产品,需要经历数据集结构设计、数据获取、数据处理(包括数据清洗、数据标注/优化等)等过程,以形成可供使用的优质数据集,国内数据服务市场的发展有助于缓解中文数据集数量不足和质量欠佳等问题。2、项目基本情况大模型训练数据具备如下三个特点,具体而言:一是数据规模大,根据DeePMind论文TrainingCompute-OptimalLargeLanguageModels,模型参数规模预训练数据的TOken数最佳比例在1:20,要充分训练一个千亿规模的模型,至少需要TB级的训练数据;二是数据质量高,在模型训练之前,需要依赖专业团队对数据进行清洗等
21、预处理,防止数据中的噪声对模型的训练产生不良影响,在一些特定的任务中,还需根据不同目的对模型训练数据进行过滤;三是数据类型丰富,多领域的数据是大模型具备通用Al能力的关键,需从不同渠道收集各种训练数据,包括各类垂直领域数据、多语言数据、翻译类平行语料、多轮对话数据、代码库和题库等。基于以上特点,本项目拟建设AI大模型训练数据集,即生产用于通用型、及各种垂直领域大模型训练的海量、高品质数据集。本项目拟购置办公楼作为建设大模型训练数据研发生产基地,并购置数据采集、数据处理、数据存储和办公等软硬件设备,利用海量、高质量、多样化的公共数据资源、社会数据资源和稀缺性数据源,通过数据集设计、数据采集/获取
22、、清洗/分类/标准化、标注/优化、评测等全流程的任务执行进行高质量大模型训练数据集建设。本项目将充分利用“先行先试示范区”在基础制度、数据供给等方面的先行先试政策,采用多元化的方式获取大规模原始数据;利用工程化的数据处理技术进行预训练阶段的数据清洗;采用人类反馈强化学习模式,基于微调和奖励模型训练的方法,以人类撰写少量的典型问题和标准答案与深度学习阶段基础性标注相结合的模式,生产出市场适用性较强的大模型训练数据集。本项目建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大
23、模型通用能力和垂直领域数据的训练学习。本项目的数据集产品具体可分为三大类:(1)通用及特定垂直领域的大语言模型训练数据集,包括但不限于:中文大模型预训练语料数据集(含通用场景、特定场景、对话场景、指令集等);多语言大模型预训练语料数据集(含通用场景、对话场景、指令集等)。(2)多模态大模型训练数据集:可应用于多语言图文大模型训练、多模态数字人训练、多语种语音大模型训练、全场景自动驾驶大模型训练等场景的跨模态数据集。(3)大模型评测数据集:可应用于大模型的能力、任务、指标等方面的评测。3、项目建设必要性(1)本项目建设是响应国家建立数据基础制度,落实北京建设“先行先试示范区”的必然选择党的十八大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海天瑞声 2023 年度 特定 对象 发行 股股 募集 资金 使用 可行性 分析 报告
链接地址:https://www.desk33.com/p-476051.html