证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx
-
资源ID:507945
资源大小:29KB
全文页数:7页
- 资源格式: DOCX
下载积分:5金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx
证券代码:688787证券简称:海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表编号:2023-011投资者关系活动类别J特定对象调研分析师会议 媒体采访业绩说明会 新闻发布会路演活动 现场参观电话会议 其他(请文字说明其他活动内容)参与单位名称及人员姓名博时基金:于福江蔡滨华泰柏瑞:曾懿之、林浩祥、叶丰会议时间2023年6月30日会议地点海天瑞声会议室上市公司接待人员姓名证券事务代表:张哲投资者关系负责人:袁璐投资者关系活动主要内容介绍1、怎么看生成式人工智能服务管理办法(征求意见稿)对人工智能数据服务行业的影响?生成式人工智能服务管理办法(征求意见稿)的拟定,对于促进我国生成式人工智能技术健康发展和规范应用将发挥引领性作用。办法(征求意见稿)当中的第七条、第八条、第十七条对生成式人工智能产品所涉及的训练数据来源的知识产权、征得个人信息主体同意、数据的真实性、准确性、客观性、多样性等合法性要求提出了明确要求,明确生成式人工智能产品提供者应当制定清晰、具体、可操作的标注规则,须对数据的来源、规模、类型、质量等进行描述,并必须要提供人工标注规则,人工标注数据的规模和类型等方面信息。基于上述要求可以看出,办法(征求意见稿)对预训练数据、标注数据的合规问题等提出了更加严苛和复杂的要求,预期会使得预训练数据获取及标注成本的增加,出于投入产出比考虑,未来大模型厂商或将更倾向于将预训练数据采集、强化学习阶段数据标注工作交由第三方专业数据服务商完成,通过专业服务商的规模化应用降低数据使用成本。据此,高质量、规范化数据标注供给及know-how输出需求预期会逐渐增加。2、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别?大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及数据、公共数据等新型海量高质量数据来源。此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。3、未来公司会做大模型相关的数据集产品吗?会做。标准化数据集产品是公司区别于其他竞争对手的特色商业模式,标准化数据集产品由于其一次性投入、未来可重复销售的特点,对公司的营收、毛利起着重要作用。公司本次定增计划的项目一的核心内容就是大模型数据集建设。该数据集建设项目将充分利用“北京市数据基础制度先行先试示范区”优势,在基础制度、数据供给等方面的先行先试政策,采用多元化的方式获取大规模原始数据;利用工程化的数据处理技术进行预训练阶段的数据清洗;采用人类反馈强化学习模式,基于微调和奖励模型训练的方法,以人类撰写少量的典型问题和标准答案与深度学习阶段基础性标注相结合的模式,生产出市场适用性较强的大模型训练数据集。数据集建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大模型通用能力和垂直领域数据的训练学习。4、很多大模型已具有自动标注能力,请问这些公司推出的自动标注功能会不会让公司的业务不存在了?未来会对公司业务影响有多大?自动化数据标注一直以来都是数据服务行业的发展趋势,同时也是数据服务企业的核心竞争能力之一,自动化标注的核心不是完全替代人类,而是提高人机协作效率,海天瑞声近年来在研发领域持续加大投入,不断提升公司数据生产的智能化水平。5、大模型发展迅速,贵司是否考虑接入、使用大模型以提高数据处理效率?大模型的发展不仅进一步抬升了AI市场空间,同时也为人工智能训练数据服务的发展提供了更好的便利条件。例如,大语言模型可在部分场景/领域的设计环节起到辅助作用;视觉类大模型也已具备通用物体的预识别及标注能力,从理论上,可更好辅助完成视觉类图片的预标注。未来,公司会持续积极探索,将适配于公司业务领域的大模型技术与公司的数据服务全流程进行更好的结合,以更好提升公司综合数据业务能力。6、请问大模型向多模态发展后,是否会对公司业务产生正向影响?大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。7、国家在数据要素方面政策频出,公司23年在这方面有什么样的计划?数据要素已经成为国家发展数字经济的重要抓手,22年底国家出台了数据要素二十条,明确建立高效合规的数据要素流通和交易机制,海天作为人工智能数据的重要生产和参与者,也正在积极对接和参与数据要素流通环节,同时借助数据交易所等平台,进一步扩大公司数据服务的辐射范围。此外,国家为更好发挥数据要素作用,鼓励在充分利用社会数据的基础上,进一步释放公共数据价值,从机制和政策设计上全面支持公共数据的开放,未来,海天也将抓住这个机遇,结合时下人工智能发展阶段,进一步探索将公共数据和社会数据全面结合,更好通过数据服务于大模型等新兴人工智能需求。8、决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何?智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。9、智能驾驶的市场竞争格局如何?智能驾驶市场主要参与者有品牌数据服务商,客户自建团队以及一些中小服务商。从目前行业格局来看,品牌服务商占据较大比例的市场份额。根据海天观察,在品牌数据服务商里,APPen和百度智能云数据众包在该领域实现较早布局、处于领先;海天从去年开始发力该领域,并将会通过持续提升平台和算法的能力、拓展客户资源,加速培育能力,力争未来在该领域实现高速增长。10、如果智能驾驶领域客户自建团队做数据业务,对海天是否会造成影响?客户自建团队在整个AI训练数据市场并非新现象,而是伴随着整个Al行业的发展一直存在的。但客户自建团队主要解决其自身的部分数据需求,如敏感数据等,对于那些需要投入较高研发力量以及数据安全要求较高的复杂数据,客户出于成本以及规模化效益考虑,仍会大量购买数据服务提供商的数据及服务。相较于客户自建团队,海天历来都是对接众多大型科技公司、头部人工智能企业、科研院所等,项目经验丰富,积累了大量的know-how,对数据处理的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能有效降低成本,为客户提供更高性价比的训练数据产品/服务。因此,公司判断,智能驾驶数据业务市场空间足够大,即便部分客户未来会长期维持自建团队,但出于成本以及规模化效益考虑,仍会持续大量购买第三方数据服务,不会影响海天在智能驾驶领域的整体收入体量和增长趋势。IK海天在智能驾驶数据业务方面的竞争优势是什么?首先是平台能力。智能驾驶正处于快速发展期,伴随智能驾驶技术的快速演进,市场正不断涌现出新兴的数据需求,能覆盖更多场景、支持各类型传感器及多传感器融合、具有前瞻性标注工具的智能驾驶数据业务平台将能获得更多的市场机会。公司年底即将上线的第四代智能驾驶标注平台,将可支持智能驾驶全应用场景、各类型传感器及多传感器融合的数据处理;此外,公司基于对智能驾驶感知算法趋势研判,进行了标注工具升级,平台将可支持行业各类前沿标注需求,包括连续帧融合标注中3D点云polylinesfreespace的标注及2D映射和编辑,BEV(鸟瞰图)标注、点云叠加标注等热点功能,具有竞争力的平台将成为公司业务拓充的核心动力。第二个是算法能力。算法将一定程度降低标注过程对人工的依赖,在提高平台生产效率的同时降低生产成本,在市场竞争中取得价格优势。公司的第四代智能驾驶标注平台将继续发力算法建设,通过提升2D视觉及3D点云连续帧标注中的插值、预测、自动贴合、地面检测等算法效果,提高数据标注效率,降低标注成本。除了上述技术能力外,数据安全能力也将成为智能驾驶数据服务竞争力的重要构成因素之一。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的道路数据、地理信息等,为更好防范数据安全风险,自然资源部关于促进智能网联汽车发展维护测绘地理信息安全的通知以及国家相关法律法规已陆续落地,监管已开始明确要求数据流转链条上各类企业必须做好充分的数据安全保障。目前,市场上同时具备平台、算法、数据安全能力的数据服务商非常有限,公司将紧抓行业发展机遇,快速铺开市场,抢占行业发展先机。附件清单(如有)日期2023年7月17日