人工智能数据集工作介绍-20240429.docx

资源ID：1398477 资源大小：418.72KB 全文页数：24页
资源格式： DOCX 下载积分：5金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要5金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

人工智能数据集工作介绍-20240429.docx

大模型时代，数据成为新一轮人工智能竞争的壁垒与制高点QMa中国信通院人工智能每次阶段性的进步，数据都扮演着重要角色，尤其在大模型时代，海量.高质量、多样化的训练数据集，成为拉开能力差距的关键要素。数量：万级别类型：单一质V：一般数量：类型：千万级单一(9777少7/，1OIJ0/54质量：较高ImageNet(100OW)数量：类型：质量：亿级多样极高ROOTS(1.6T)59种语言(46种自然感言，13种编程语言)I浅层学习时期(-2012)深度学习时期(2012-2018)预训练模型时期(2019-)2022年起f人工智能正在由模型中心”转向数据为中心QMCT中国信通院2022年产学研提出“以数据为中心的人工智能(Data-centricAI),高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。11人工智能领域的权威学者吴恩达，发起了以数据为中心的AI'',即在模型相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果。通过添加数据标记.清洗和转换数据、数据缩减、增加数据多样性.持续监测和维护数据等手段，形成优质的标准化数据集和完备的数据全生命周期管理体系。吴恩达：80%的高质量数据与20%的模型训练构成了更好的AI模型。2021年举办了首届“以数据为中心的人工智能竞赛"，比赛仅允许通过改进数据来提升模型的性能。80%20%PREPACTIONSourceandpreparehighqualityingredientsCookamealSourceandpreparehighqualitydataTrainamodel80%的高质量数据与20%的模型训练构成了更好的Al模型。李飞飞团队：实现可信AI,数据的设计、完善、质量评估是关键iniclligcncc网IMTAdvances,challengesandopportunitiesincreatingdatafortrustworthyAlWeixin1.iang1,GirmawAbebeTadesse2,DanielHo,Fei-Fei1.i,MateiZaharia,CeZhang4andJamesZou三三数据集贯穿于大模型全生命周期，输出高质量数据集CftICT中国信通院公开获取管理节点获取节点获数据质量管理-FPft-.1数据训练工程数据标注PrOmPt工程数据过滤数据合理分布和配、分批训练第1批：百科1+书籍1+行业l+第2批：网页2+书籍2+期刊2+行业2+.第n批:百科n+书籍n+期刊n+行业n+.标注平台PromPt期辅助撰写1任务管理高阶撰写低质过滤I有毒过滤I规则清洗模型清洗深度过滤内容分类规则过滤分类器毒性评估内容分类预训练数据集预训练SFT数据集随抽检多人可视PromPt数据集专家标注行业数据集数据清洗微调激发Rank标注微调!¾!lS7t楫型清洗深度过滤内容分类预训练大模型微调大模型通用大模型R1.HF行业大模型数据质量提升数据质量评估数据毒性评估数据数量评估数据分布评估数据内容评估优化优化优化优化我国Al数据发展仍落后美国，处于全面追赶的地位CAlCT中国信通院与美国相比，我国AI数据发展在数据集数量、数据集质量、数据发展顶层设计、Al数据产业链和生态服务四个方面仍落后于美国。中文数据集数量不足全球流量靠前的100o万个网站中，网站语言为中文的仅占1.4%,远低于英语接近60%的水平。全球最大的人工智能开源社区HUggingfaCe已发布开源数据集超过5万个，其中中文数据集仅有150多个，CC中的中文只占4%,且大部分是励卜网页。Al数据集质量低现有公开数据集与大模型预训练需求不匹配，多数无法直接使用缺乏对高质量数据集的定义和规范要求数据质量评估方法和体系缺失数据治理技术发展尚不完善AI数据发展顶层设计不完善打造开放数据资源、布局公共数据集一直是美方政策布局的重点。美国家人工智能研究和发展战略计划中，提出将“开发用于人工智能训练及测试的公共数据集和环境O我国目前尚缺乏国家层面推动公共数据集建设的顶层设计，目前仅有北京、上海两地在政策文件中明确提出了要建设高质量数据集。Al数据产业链和生态服务不成熟数据毒性检测、数据偏见检测、数据优化等技术发展仍不成熟自动化数据治理、数据标注、数据合成、数据质量评估、数据纠偏等工具平台缺失统一的数据治理标准、数据服务生态协同和调度机制缺失。Al数据之困，美国商务部就开放数据资产寻求公众建议CA>CT中国信通院核心征询问题2024年4月17日,美国商务部官网发布人工智能和开放政府数据资产信息征集请求,向行业专家、研究人员.民间社会组织等公众成员征询有关开放数据资产发展的宝贵见解，旨在了解如何改进商务部开放数据资产的创建、策划和分发方式，以促进生成性人工智能等人工智能技术的发展和进步。FEDERA1.REGISTERTheDailyournaloftheUnitedStatesCovefnmeot®NobceAlandOpenGovernmentDataAssetsRequestforInformation三ACTION:NotkvlmpiratIuCiafo11ntion.SUMMARY:*11*VS.1.mrtwMofCOtmBeNecotiimitudt«>ahn>di<Crflrexy.dJnmombon.andtheFeSPomiUeIUeanddwemuMtoalPUbtiC<huMSrtt.indndiaxSarnSebyJtrrknooeTothend.WrmPiAlSrdto产Mxrtb»RrqurrtforIMOnnxig(RFDtowvkekMbimifhufromindM112exprrte.mm11t>m.CiTMXlJyar9MitA>otts.andotherInrmbfeci<bcIMbIir口Otttbtd5vNnrwtUlrr4h*Qpm<btaMXtSand<bt«dwauiMhofiGndM<R.DATES:0t,一Cccntneoesmustbr9mhvdoCrbeforeJuly<2024.0tMMN<OsfrwvatoaOMM：Comm*Bmfbforf*vd9t,2W4CoflwnenetClose-M024DocwwMytt;DocwwMCItBUOfISftFR27411Ngr立，4i3Gao1、数据传播标准：格式、元数据和文档、元数据标准方面原始数据与派生数据的不同等；2.数据可访问性和检索：直观易用的数据门户、清晰的标签和易读格式、用户对其数据的需求等；3、合作伙伴参与：行业和学术利益相关者与政府合作方式、潜在合作领域等；4、数据完整性和质量：增强公共数据完整性和准确性最佳实践方式、真实性偏见、隐私、公平性和道德等相关挑战的应对方式、数据来源和处理方法的透明度等；5、数据伦理：清晰的法律和道德指导方针、识别和减轻人工智能算法偏见的政策等。大模型高质量数据面临新需求和新挑战，亟需工作新思路CAICT中国信通院1.一F发展需求AJI高质量高质量数据能够高模型精：度与可解释性，减少训练时；长大规模独立熠加训练数据量、模型参数规模或者延长模型训练时间，提出I糜效果j全维度丰富的数据能够提高模型：化能力I:Data-centricAl模型相对固定，通过提升数据的质量和数量，来提升训练效果中文语料本身供给不足开放数据生态不完善质量缺少文献、代码等高质数据公开数据与模型训练不匹配供需数据资源流通规则不健全数据资源对接生态链缺位生态缺少共性关键技术和工具缺乏协同调度和保障机制重点工作顶层支撑成立人工智能数据工作专班，高效推进大模型数据工作标准评测搭建人工智能数据集标准;体系，构建方升大模型1基准测试数据集和体系质量研究构建人工智能数据集质量1评估体系，搭建质量评估I平台I生态合作I依托中国人工智能产业发展联盟数据委员会，开展人工智能数据服务产业链!I图谱编制，举办人工智能!-v-r<r-W-RJF-JJCrr-rvrr*-w*-三l工作一：顶层支撑一支撑国家部委开展顶层设计和政策研究SIa中国信通院为深入贯彻习近平总书记的指示精神，落实国家关于人工智能发展的部署要求，加快建设人工智能高质量数据集，开展系列针对国家发改委、国家数据局等主管机构支撑工作，以及与地方数据局.促进人工智能高水平自立自强，数据集团、数交所协同工作。着力破解AI中文数据集数量不足.质量不高.数据产业链和生态服务不成熟.Al数据治理基础菌弱等的瓶颈制约问题着力形成“数据算力-模型协同发展的合力，推动形成飞轮效应，为通用大模型和行业大模型训练和创新迭代提供有效数据供给着力推动人工智能数据高质量发展的制度创新.模式创新.场景创新、业态创新，形成央地协同、政产学研用协同的良性发展格局主要任务1.牵头支撑人工智能数据集政策研究.顶层规划。定期开展成果报送，奉头组织专班开展工作；2、组织专家研讨论证，参与推动分级分类.质量评估等标准制定；3、组织产业和企业调研，支撑开展全国数据标注产业发展情况调研和政策研究；工作二：标准体系一构建人工智能数据集标准体系V1.OCAlCT中国信通院面向模型数据全生命周期Al数据集标准体系V1.o规范数据集全流程，形成优质高质量的数据产品和完备的Al数据集管理体系，更好服务于模型的开发与应用。人工智能高质量数据集标准体系具体包括A基础共性、B关键技术、C工具平台、D质量控制、E工程开发、F产品服务、G行业应用，、H安全伦理等八大部分A术定语义A础共性A通评C用估G行业应用EA开发管理能力FA%0i只构建FB知识计算FDRAG检索增强EB交付实瓶能力FC知识管理D质般控制CEH平台B关键技术DA分级分DB质量评（故IDCJX1¾CF数据管理CB网|用#cC运营服务ICD开源共享BA数据合殖fBB自动桶王支BE数据采!出与处芟KBF数据版本控制BC多模02合BG分布式存储与高效访问BD隐私保护BH数据脱敬CAICT中国信通院人工智能数据集质量管理能力评估方法口面向人工智能技术研发企业、数据生产标注服务商、数据标注基地，考察其在数据集全生命周期的质量管理体系水平，包括对Al数据生产和应用流程的管理能力、对AI数据进行质量评估的能力、企业组织规范完备程度。流程管理质量评估组织规范管理制度培训制度操作制度评篇告材料准备指标体系管理共享模型应用数据处理数据采集方案设计IBAII参编单位Bai脸百度3T恐徵S哪小顺美国击出EVn云测工作二：标准体系一数据生产和质量管理面向人工智能的数据生产和标注服务能力通用成熟度模型口面向数据生产标注服务商、数据标注基地，考察产品交付和实施方面的能力，包括对项目实施方案设计能力、对项目管理的能力、对数据产品进行交付的能力、提供客户技术服务的能力。技术服务客户服务交付管理交付方式风险管理质量管理成本管理进暮理方案分析方案设计需求分析工作二：标准体系一大模型数据开发管理CftICT中国信通院大模型数据集开发管理能力评价方法总体要求标准编制，大模型数据开发管理的全流程提供可借鉴可参考的标准规范。已报名参编单位共81家，涵盖了大模型企业、三大运营商、数据服务商、高校、科研院所、律所等种类型。大模型数据集开发管理能力评价方法总体要求部分已报名参编单位质量管理质量要求质量评估质量提升流通交易“HUAWEl刈a目.(X*5也通酷勰PE暨0*Mn三IVOBIMltuaM方方笫科技si7三方因S急工作二：标准体系一人工智能合成数据CftICT中国信通院合成数据作为数据科学领域中快速发展的趋势和人工智能技术研发的新兴工具，存在合成数据的生产应用流程尚未规范、缺少合成数据质量管理方案等问题。人工智能合成数据生成和管理可信评估方法标准围绕数据生成、数据生产流程管理、数据质量评估.数据运营管理四大方面进行编制。TB/AIIA中国人工看产业发展联人工智解合成效建生成和管理旋力评估方法数据生成生产流程质量评估运营管理四大模块，18个能力项，100余项具体指标，5个评估等级。rtf*4!*>-hy-.*"*MM*aM*工作二：评测一方升大模型基准测试体系CftICT中国信通院1.指标体系行业能力测试（IOT）金融医疗软件工程教育法律科研政务电信能源应用能力测试（AOT）智能客服知识管理知识检索数据分析数据分析通用能力测试（GOT）智能体应用具身智能应用网页处理任务规划理解能力生成能力推理能力知识能力学科能力多语言能力长文本能力思维链能力角色扮演能力工具使用能力内容可靠内容鲁棒视觉问答视觉推理图像描述图像生成3D处理J图像理解视频理解语音处理2.测试方法标签筛选、动态更新、灵活抽样3.测试数据集107个数据集，300万条测试数据安全能力测试（SOT）信息安全介4隋私企业机密模型安全4.测试工具自动化框架，智能化评估方升是秦国的商鞅实行变法时所发布的标准量器，是我国最早的标准量器13工作二：评测一联合产学研共建评测数据集资源池CAICT中国信通院中国信通院于''2024ICT深度观察研究成果报告会上发布方升大模型评测体系，北京智源研究院、认知智能全国重点实验室、天津大学共同见证体系发布。国网智能电网研究院、首都之窗、电信研究院、甲骨易等9家单位成为首批方升合作伙发布仪式现场行业能力)o*Hn.2w>1mi安全助manww.momMlcm4KTtt*94MSOO3敷ER4BDWIfH*HEMinitswiMmMuUIUBWUtmitIMinttiW¾三n11t2内容安凌ItidtsMintiewEMmDatifCGACV4应用能力man.sw.MflEB手ffiW三110i*.IrKe2aWQ三11tt2WmnInKt2MM11tt2W八”KJwWUttDttlW代m不敏IKtlMuUinfiiwAlAGENTlM*5IhSmtmR*VttmoBMSRrw佗建安全&MS7IIUg口IIISWCMOfaeE0三A>>情慰史叁 m* IMimttiw1.CYu通用力so.m.TOW.mraatnujI生36M»7MlM所感助艮力mctZlt目航ISW知识力,MiiUlHlirwru三MBI5IWWWBiHrit力rS4曲目故M长文本叨ft2IhlSrWM:JIl色扮3H5*12AuUlUtt.Roled工IIMtt力noMiOtHBiW内容可.BK*eIlMaRnlTMCHAiUCT(AI)内容桂flr*2lUJi11tt>MBKY«Mi*n*ow一3安全IrtCt5HUUBUB1W工作二：评测一建立大模型评测实施框架和工具平台cc中国信通院梳理大模型基准测试工作流，并参照工作流开发大模型基准测试框架测试框架在测试数据集的质量管理、高质量测试数据集的智能抽取以及大模型自动化结果评估等具有优势大模型基准测试WorkflOW测试需求分析»测试数据构建»测试环境准备»基准测试执行»测试结果评估»测试报告生成，测试标准确定“测试范围选择“测试重点分析,测试方案设计动态化测试数据库“统一测试数据格式“测试数据标签管理A测试数据自动清洗，测试数据智能采样A测试数据智能生成A测试框架自动测试A支持APl接口测试人支持本地部署测试VAP建档（推荐）模型下载链接+部署说明文档上测试任务切分，测试任务队列A分布式测试A自动化评估A大模型评估A专家人工评估A统计分析A权重设置与推荐A综合评分及排位A缺陷分析A报告生成工作三：质量研究一构建人工智能高质量数据集质量评估体系CAICT中国信通院口结合传统大数据质量要求和人工智能模型训练应用需求，按照“可用+好用+落地的设计原则展开人工智能高质量高质量数据集评估标准制定工作，并输出面向人工智能的数据集质量通用评估方法总体要求一级指标数据质其他完整性符合性集成度逻辑模态噪声准确性事些匕型不能正描述方家的口性戢巳经过期,大数据质量要求可用好用准确性时间空间人工智能数据集质量要求IS08000（国际标准-数据标准质量体系）DQAM（国家标准-蹦质量评估型）些故裾记集是复的记Ir重复饯完整性规范性准确性及时性一致性均衡性相关性I无偏性I原创性数据集任务覆盖信息覆盖领域覆盖模态覆盖用于满足模型功能性要求元数据语义有效采集时间代表性数据源来源记录数据链路智能贡献性数据结构安全隐私用于加快侬瓯并且使得输出结果领域专业数据真实用于满足模型逻辑推理能力要求更新频率响应速度用于保证模型应用效果和准确性复杂度时间空间上下文采集过程元数据管理版本控制抗攻击性用于确保模型的稳定性用于改善模型泛化能力用于提高模型预测准确性确保模型生成结果不会系统性地偏向某一特定群体用于增强模型新颖性和减少过拟合风险用于提高模型信任度，以及促进问题诊断优化工作三：质量研究一搭建人工智能高质量数据集评估平台CAICT中国信通院按照规则检测+人工抽样+模型效果的三道关卡融合方案展开人工智能高质量数据集评估平台的搭建工作，优化并实现评估指标的有效落地，破解当前评价体系实施难题，确保评估标准精准衔接实际工作。数据集完整性结构完整性I，j喂型快速试验可控数据集调整规则检测规范性I及时性一致性检测方法缺失值检测格式验证跨表一致性类别均衡检验最近邻分类器唯一性验证人工抽样信息覆盖I领域专业数据真实,无偏性领域相关I逻辑相关检测方法简单随机抽样I系统抽样分层抽样I整群抽样G便抽样I判断抽样模型效果几乎适用于所有指标需要按照场景需求选择测试模型需要选择合适的模型性能评测指标测评指标如何影响模型效果数据集指标数值改变是否影响模型性能参数改变主观指标人工抽样适用于难以客观量化的指标,作为检测数据集质量的第二道关卡f客观指标三;规则检测适用于客观可量化指标，作为：检测数据集质量的第一道关卡应用指标模型效果用于检测数据集是否可以帮助提升模型性能，是评估物居集质量最后也是最重要的一道关卡工作四：生态合作一成立AlIA数据委员会cc中国信通院成立背景：AnA产业数据组于2021年5月成立，围绕人工智能数据集开展多项合作研究工作，建设数据集资源分享平台。为促进通用人工智能发展，解决大模型数据短缺及质量问题，2023年9月正式升级为AHA数据委员会。职责定位主要任务组织架构成员单位旨在促进数据要素的流通和应用，提升数据质量和数据管理能力。为产学研用搭建开放交流合作平台，通过技术研究、供需对接等方式，全面月胞产业发展。技术+服务+产业”对接平台资源和需求梳理技术应用研究推广可信治理标准建设产业公共服务应用场景探索工作机制组长单位中国信通院中国螺嚷堀人工智能实验室、华为、科大讯飞专家咨询组汇聚产业链一线专家截至2024年3月，数据委员会已有成员单位148家,涵盖产业智库、学术研究机构、辘交易所、Al数据拥有方、数据加工方和雌需求方等主体。覆盖人工智能数据全产业链工作四：生态合作一启动人工智能数据服务产业链图谱编制AAB工温舱温芯；晶黑人工智能数据服务产业是人工智能高质量数据集的核心生产力。人工智能数据服务产业图谱旨在清晰展现人工智能数据服务领域关键技术.工具平台、运营服务、人才培养以及行业应用等产业关键要素，涵盖数据采集、清洗、标注、评估、共享、流通等数据全生命周期环节。模型生命周期：场景定义需求分析A数据引入f模型训练*II算法验证算法部署4工程优化f联调测试一发布上线，持续监测A迭代反馈人工智能高质量数据集数据采集数据清洗数据合成数据标注质量评估开放共享交易流通人工智能数据服务产业链数据要素市场化AIIA数据委员会2024年第一季度工作进展总结CAICT中国信通院1月密切与各方沟通，开展系列线上、线下活动；召开"方升"大模型基准测试体系解读会；2月推动数据集系列标准研制持续建设基准测试数据集；3月筹备海南组会，推进报告编制；联合上海人工智能实验室开展系列线上直播活动：讲解大规模城市场景合成数据集、面向数学召开大模型数据开发管理能力标准启动会，推动标准研制进展；4月成立工作专班，启动图谱编制推理的高质量预训练语料;推动方升大模型基准测试参与联盟第十二次海南全会,筹备组会；召开数据委员会2024年度第一次组长工作会；召开中国式人工智能发展新范式、新文明座谈会；数据集建设，为国内夕听源大模型进行首轮测试；支撑国家数据局、发改委数据相关工作；完善大模型数据资源地图1.人工智能数据工作专班正式成立；和治理路径编制工作；持续推出高质量的面向行业和应用的基准测试数据集；正式启动人工智能数据服务产业链图谱编制工作；支撑国家数据局、工信部相关工作。CAICTBtt*lltt9SUt下一步工作计划依托中国人工智能产业发展联盟数据委员会，联合人工智能数据相关产学研用各类主体，助力国家部委做好顶层设计，深耕人工智能高质量数据集标准体系研究，打造人工智能数据全产业链技术服务能力，完善人工智能数据生态服务，推动人工智能高质量数据集快速发展。-Q顶层支撑,持续开展人工智能数据标注产业发展调研与研究，支撑国家数据局、工信部等国家部委做好国家人工智能数据顶层设计。标准评测,制定完善人工智能数据标准体系，形成人工智能数据服务关键技术.工具平台.质量控制等系列标准。“建立多语言、多场景、多任务的评测数据集和基准测试体系。质量研究,深入研究人工智能高质量数据集评估方法，搭建面向人工智能数据集的质量评估体系与平台，促进数据资产开发共享与交易流通。生态合作,协同生态伙伴组织召开系列人工智能数据服务全产业链技术服务高质量发展沙龙和论坛，促进各类产业研用主体高效合作。

注意事项

本文（人工智能数据集工作介绍-20240429.docx）为本站会员（夺命阿水）主动上传，课桌文档仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知课桌文档（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。