2023机器翻译技术及产业应用蓝皮书.docx
《2023机器翻译技术及产业应用蓝皮书.docx》由会员分享,可在线阅读,更多相关《2023机器翻译技术及产业应用蓝皮书.docx(37页珍藏版)》请在课桌文档上搜索。
1、卷首语Ol科技赋能翻译事业发展是时代大势1.1 翻译是国际传播能力建设的重要环节1.2 翻译技术助力新时代国家翻译能力建设02机器翻译技术不断发展创新2.1 机器翻译技术的发展历程2.2 机器翻译技术的发展态势2.3 机器翻译技术面临的挑战和发展方向03产业级机器翻译系统及产品形式3.1技术特征3.2系统架构3.3产品形式04机器翻译产业现状及应用案例4.1 产业应用现状及趋势4.2 产业应用案例4.2.1赋能企业全球化发展4.2.2助力各行各业数字化建设4.2.3助力中华文化“走出去”4.2.4赋能跨语言国际交流4.2.5加持硬件产品开启智慧生活05机器翻译发展趋势和建议5.1 趋势展望5.
2、2 发展建议结束语参考文献科技赋能翻译事业发展是时代大势1.1翻译是国际传播能力建设的重要环节党的十八大以来,党中央高度重视国际传播能力建设和对外话语体系建设,作出一系列重大决策部署。2021年5月31日,习近平总书记在中央政治局第三十次集体学习时强调,要下大气力加强国际传播能力建设,全面提升国际传播效能,形成同我国综合国力和国际地位相匹配的国际话语权,为我国改革发展稳定营造有利外部舆论环境,为推动构建人类命运共同体作出积极贡献。面对中华民族伟大复兴的战略全局和世界百年未有之大变局,习近平总书记在党的二十大报告中再次对增强中华文明传播力影响力,加强国际传播能力建设,推动中华文化更好走向世界提出
3、明确要求。这些重要论述,为我国新时代翻译事业发展提供了根本遵循。习近平总书记多次在国际国内重要场合讲述翻译故事,充分肯定翻译工作对中国走向世界、世界读懂中国的积极贡献。在2019年9月致中国外文局成立70周年贺信和2022年8月给外文出版社外国专家回信中,习近平总书记强调翻译对人类文明进步产生的积极作用和促进人类文明交流的重要意义,提出用融通中外的语言、优秀的翻译作品讲好中国故事,更好向世界介绍新时代的中国,为中国走向世界、世界读懂中国作出新的更大的贡献的明确要求。中国外文局局长、中国翻译协会会长杜占元口指出,国家翻译能力作为一个国家在翻译领域整体能力的集中体现,涵盖了翻译人才队伍建设、对外话
4、语体系构建、重点语种建设布局、翻译技术研发和应用、重大翻译项目组织协调、翻译行业管理与服务等各领域,涵盖了政府、市场和行业等各方面,是国家语言能力的重要体现,是通过翻译行为建构对外话语、开展文化传播、塑造国家形象的综合能力,是文化软实力和国际传播能力的重要组成部分,也是发挥大国作用、提升国际话语权的重要保障。加强国家翻译能力建设,对增强中国国际传播能力、推动中国与世界在更广领域更深层次的开放交融、互联互通,为实现第二个百年奋斗目标、建设社会主义现代化强国有重要意义。当前,我国翻译事业正在经历由“翻译世界”向“翻译中国”、由“翻译大国”向“翻译强国”的历史性转变,翻译工作在推动中国与世界开放交融
5、互联互通方面发挥着战略支撑作用,在加快构建中国话语和中国叙事体系、提升国际传播效能方面发挥着基础性作用,在促进中华文明和世界多元文明的交流融通、互学互鉴方面发挥着桥梁纽带作用。推动翻译高质量发展,对满足人民对外交往需要、建设社会主义文化强国具有重要意义。1.2翻译技术助力新时代国家翻译能力建设当前,以人工智能为引领的新一轮科技革命和产业变革正在加速推进,也深刻改变着国际传播的舆论生态、媒体格局、传播方式。把握人工智能等新技术新机遇,加强国际传播能力和国家翻译能力建设,是事关国家发展的重大战略任务。习近平总书记强调,加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技
6、跨越发展、产业优化升级、生产力整体跃升的重要战略资源。要探索将人工智能运用在新闻采集、生产、分发、接收、反馈中,全面提高舆论引导能力。这为我们大力推动人工智能等新技术在国际传播领域的应用、加快融合发展指明了新的方向,提供了新的遵循。面对新形势,唯有进一步提升技术创新能力,优化技术创新制度环境,深化技术创新协同协作,方能把握先机。习近平总书记指出:“科技创新是核心,抓住了科技创新就抓住了牵动发展全局的牛鼻子。”站在新的历史节点,面对百年未有之大变局和我国“十四五”时期以及更长时期的发展需求,创新无疑是源头活水,更是“第一动力”。近年来,科学技术特别是翻译技术的发展,对翻译行业起着巨大的推动作用,
7、同时也开辟了新的“赛道”。在许多大规模翻译项目中,只有充分依靠新技术的帮助,才能更好提升翻译质量和效率。借助技术手段,多语种内容的批量翻译输出成为现实,远程翻译、线上同传等翻译新业态在快速发展。人才培养单位愈发重视人才的跨学科、跨行业发展以及对机器辅助翻译技能的训练,开始探索利用现代技术为翻译专业教育赋能,翻译语料库、国别区域数据库等核心数字基础设施被更多地应用于翻译教学。当前,以ChatGPT、文心一言(ERNIEBot)为代表的新一代预训练模型技术在语言理解与生成,特别是低资源、长篇章以及多模态的场景应用中表现出强大能力和发展潜力,与人的互动性和反馈学习能力不断增强。随着新技术的迅猛发展,
8、技术赋能翻译的模式势必还将向数字化、智能化的更高水平迈进。翻译行业各方应积极探索和推进人工智能大数据、虚拟现实等技术在习近平新时代中国特色社会主义思想对外宣介、对外翻译出版中的应用,将新时代中国正在发生的故事多维度真实全面地介绍给世界,不断增进国际社会对中国特色社会主义道路理论、制度文化的理解和认同。机器翻译技术不断发展创新机器翻译是人工智能的一个重要领域。在电子计算机诞生的第二年,即1947年,美国洛克菲勒基金会自然科学部主任韦弗(W.Weaver)和英国工程师布斯(A.DBooih)就提出了利用计算机自动翻译人类语言的设想。机器翻译既有着丰富的科研内涵,又有着广泛的应用场景,是帮助人们跨越
9、语言鸿沟的核心技术。在七十多年的发展历程中,伴随着技术革新、社会发展等诸多因素,机器翻译技术一直在寻求变革和突破。2.1机器翻译技术的发展历程1954年,美国乔治敦大学在国际商业机器公司(IBM)协同下,用IBM-701计算机首次完成了俄英机器翻译试验21,展示了机器翻译设想的可行性,拉开了机器翻译走进现实的序幕。我国在机器翻译领域的研究几乎也同时起步。1956年,全国科学发展工作规划中就设立了名为“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”的研究课题,并在1957年由中国科学院语言研究所和计算技术研究所合作开展了俄汉机器翻译的研究13。机器翻译发展历程中涌现出三种具有代表性的方法
10、:基于规则的机器翻译、统计机器翻译,以及现阶段主流的神经网络机器翻译。基于规则的机器窗译:从机器翻译设想提出到二十世纪八十年代,基于规则的机器翻译方法处于主导。其基本思想是由语言专家总结不同语言间的翻译规律并撰写翻译规则,计算机工程师将这些规则转换为机器语言,实现自动翻译。基于规则的机器翻译打开了机器翻译从设想走向实践的大H,在机器翻译发展初期立下了汗马功劳。不过此方法存在撰写规则成本高、系统开发周期长翻译质量低、难以快速进行多语言扩展等问题,制约了其规模化应用。统计机器翻译:上世纪八十年代末、九十年代初,受到统计方法在语音识别任务上取得的进展的鼓舞,国际商业机器公司研究人员提出了统计机器翻译
11、方法。统计机器翻译利用噪声信道模型对翻译过程进行建模,基于大规模语料自动训练模型参数,突破了基于规则的方法依靠人工构建翻译规则的限制,大幅降低了系统开发成本、提升了翻译质量。这一时期,互联网的迅速普及使获得大规模训练数据成为可能,统计机器翻译逐渐进入发展的快车道。2006年,谷歌(GOOgIe)推出了基于统计方法的互联网机器翻译系统。在此后近10年的时间里,统计机器翻译是机器翻译舞台的主角。但由于统计机器翻译较难处理译文全局调序等问题,致使译文流畅度受限,逐渐遇到发展瓶颈。神经网络机器翻译:近年来,深度学习的迅速发展推动了机器翻译的技术变革,神经网络机器翻译成为现阶段主流的机器翻译方法。神经网
12、络机器翻译通过建立深度神经网络模拟人类的翻译过程,将源语言映射(编码)到高维向量空间,并通过神经网络转换(解码)为目标语言。相比统计机器翻译,神经网络机器翻译在语言表示、语义理解、译文生成等方面均有显著进步,翻译质量明显提升。2015年百度发布了全球首个互联网神经网络机器翻译系统,标志着神经网络机器翻译系统开始登上大规模产业应用的舞台。2016年谷歌也将其统计机器翻译系统升级为神经网络机器翻译系统,随后国内外行业巨头公司纷纷研发并推出神经网络机器翻译系统。我国一直高度重视机器翻译的研究和应用,在机器翻译发展初期就开展相关技术研究,在新的发展机遇期,国务院发布的新一代人工智能发展规划以及工信部发
13、布的促进新一代人工智能产业发展三年行动计划(2018-2020年)均将机器翻译列为重要发展方向。随着我国综合国力的增强,中文在世界话语体系占据越来越重要的地位。研究以中文为核心的大规模、高质量机器翻译系统,服务于新时期国际传播能力和国家翻译能力建设,是新时代赋予我们的重要任务。2.2机器翻译技术的发展态势经过70多年的发展,机器翻译在翻译质量、系统性能、实用性规模化应用等方面均取得了较大飞跃。机器翻译呈现百花齐放、满园春色的蓬勃发展新态势,其产业应用也呈现一派欣欣向荣的景象。目前机器翻译技术有以下五大发展趋势:1 .深度学习技术不断发展,神经网络机器翻译成为主流近年来,机器翻译的快速进步主要得
14、益于深度学习技术的发展。神经网络机器翻译在2014年左右萌芽,并迅速茁壮成长。借助深度神经网络模型在语义表示及理解方面的能力,以及大数据、大算力的支持,神经网络机器翻译的译文质量大幅跃升,迅速实现了对统计机器翻译的超越和替换,将机器翻译带入新的发展阶段。2 .研发门槛降低,机器翻译进入规模化应用阶段受技术进步、市场需求增多等多重因素影响,国内外相关行业公司热情高涨,均投入大量资金和精力研发大规模翻译系统。国外有谷歌、微软(MiCrOSOfI)、Mela(原FaCebOOk)等,国内有百度、阿里巴巴、腾讯、有道、讯飞等。值得一提的是,国内公司研发的机器翻译系统在技术上具有很强的竞争力,多次在国际
15、机器翻译系统评测中拔得头筹。先进技术通过开源开放平台共享,使得产业各方都可以使用已有的技术成果,研发新的技术。在深度学习平台方面,国外有Meta的Pytorch谷歌的TenSOrflow,国内有百度的飞桨(PaddlePackne)等,都集成了最新的机器翻译技术。无论是研究人员还是开发者,都无需从头做起,只要有数据,就可以迅速利用开源平台搭建一个机器翻译系统,大幅降低了机器翻译研发门槛。得益于此,机器翻译创业公司也如雨后春笋般涌现。3 .机器翻译与行业紧密结合,得到广泛应用和认可随着国际化进程的加速,传统行业对高效率、高质量的机器翻译技术的需求愈加旺盛。不同领域对行业术语和文体风格等需求各不相
16、同,对译文的要求也不尽相同。神经网络机器翻译可以在大规模数据预训练基础上,结合行业知识和领域数据,进彳亍优化精调,进一步提升垂直领域的翻译质量。尤其在新闻资讯、学术文献、金融财经、生物医药、信息技术等领域,经过优化训练的机器翻译系统译文的准确度可以达到90%以上。高质量机器翻译也受到了语言服务公司和专业译员的青睐。根据2023中国翻译及语言服务行业发展报告4,90席的语言服务企业愿意在未来投入更多资金用以提升企业在机器翻译相关领域的技术实力,91.3%的语言服务需求方受访者认为使用翻译技术能够提高翻译质量。九成受访者认同翻译技术的使用能够降低翻译成本(94.7%)及提高效率(95%)。4 .多
17、语言翻译市场需求巨大,相关研究和应用发展迅速当今世界多种文明和文化相互融合,人类社会丰富多样的语言交相辉映,“开放共享、合作共赢”越来越成为各国共识,成为推动社会进步的重要理念。实现高效的多语言翻译,搭建不同语言顺畅交流的桥梁,是时代和社会发展的迫切需求。随着“一带一路”倡议的深化发展,截至2023年1月,已有151个国家和32个国际组织与中国签署共建“一带一路”合作文件1.其中涉及的语言超过110种。多语言翻译面临语言资源分布不均衡、非通用语种语言资源匮乏、语言差异大、部署成本高等挑战,如何克服这些困难备受瞩目,成为国内外前沿课题研究的焦点。近年来,学术界、产业界围绕数据增强、多语言统一建模
18、、多语言预训练等内容开展了诸多研究,促进了多语言翻译技术的发展。得益于此,国内外主流的机器翻译系统均支持多语言翻译。截至2023年初,百度、讯飞、小牛、谷歌、微软等国内外机器翻译系统均支持上百种语言互译。5 .翻译模式由文本翻译扩展到跨模态翻译,应用场景愈加丰富随着智能设备的普及,翻译需求和场景日趋多样。人工智能技术在图像、语音等领域的进步为跨模态翻译提供了技术支持。如结合图像技术的拍照翻译和增强现实翻译,被广泛用于票据翻译、外语学习等场景;结合语音技术的语音翻译广泛用于日常会话、会议演讲等场景,提升了沟通效率。2018年,麻省理工科技评论(MnTeChnologyRevieW)将“语音翻译”
19、列为全球十大技术突破,百度和谷歌(GOogIe)被列为“关键参与者(KeyPlayer)n在2020年国际计算语言学学会(AC1.)年会上,百度谷歌、脸书、清华大学、宾夕法尼亚大学(UniVerSityOfPennSylVania)联合举办了首届机器同传研讨会2.极大地促进了相关技术发展。近年来,机器同传在翻译质量、同传时延等方面取得显著进步,机器同传被越来越广泛地应用于国际会议。2https:/autosimtrans.github.io/2020/#2.3机器翻译技术面临的挑战和发展方向与人们对于翻译的理想化追求相比,机器翻译技术仍然任重道远,需要在以下五方面加强研究,持续突破。1 .机器
20、翻译译文质仍需持续提升随着机器翻译技术的发展以及大规模应用,人们对于翻译质量有更高的要求和期待。目前机器翻译系统主要的翻译方式是以句子作为翻译单元,较少考虑上下文以及篇章信息。此外,在翻译文学性较强的内容时,通常需要结合背景知识历史文化知识等,甚至要进行“二次创作”,而目前的机器翻译技术还无法做到。加强对机器翻译结合上下文信息、融合丰富知识等方面能力的训练将有助于进一步提升机器翻译译文质量。2 .机器福译鲁棒性和容错能力需进一步加强机器翻译对于输入内容比较敏感,有时在表意不变的情况下稍微改动原文,就可能导致整个译文发生很大变化。此外,训练数据中的噪声、领域分布对于机器翻译模型都会产生较大影响。
21、面对复杂丰富的应用场景,提升机器翻译的鲁棒性和容错能力,将有助于其在实际应用中发挥更大作用。3 .低资源语言机器翻译能力仍有待突破神经网络机器翻译技术的本质是数据驱动型技术,依赖于大量高质量的训练数据。然而,在多语言翻译、垂直领域翻译中常常面临数据稀缺的问题。尽管技术方已提出多种解决方案并应用于实际系统,但受到资源和现有技术限制,低资源语言机器翻译仍难以满足高质量译文需求。探索面向低资源语言、少样本量的神经网络机器翻译学习机制,是机器翻译的发展方向之一。4 .多模态融合的机器翻译技术需进一步探索近年来,机器翻译技术与语音、视觉处理技术的结合取得了较大进步,诸如机器同传、图片翻译等技术已被广泛应
22、用。此外,多模态统一建模也取得较大进展。多模态的深度融合将有助于进一步提升译文质量、拓展应用场景。例如,在同声传译中,演讲者的幻灯片材料、语音语调、肢体语言等多模态信息都有助于提升机器同传质量。2023年,中国外文局翻译院智能翻译实验室发布T语言服务行业的机器翻译使用情况调研问卷,根据问卷收集到的反馈数据,目前语音服务行业对多模态融合的机器翻译技术有较大需求。如图1所示,超过70%的受访者表示有图片转文字功能的需求,超过65$的受访者有语音转写功能的需求。您希望能增加哪些附加功能搭配机器翻译使用?5 .机器福译相关标准建设需继续加强在质量评价体系、人机协作模式、语料库建设等方面,需结合技术发展
23、形势和市场需求,加快相关标准的研制工作。如对机器翻译质量的评价,目前仍主要基于B1.EU(BilingUalEvaluationUnderStUdy)等自动评价指标以及面向通用场景的流利度、准确度等人工评价指标。在具体应用时,应结合具体需求制定合适的评价流程和评价标准。此外,也应针对系统性能、硬件要求等制定相应规范。在人机协作模式方面,同样歪需制定相关行业标准,明确人与机器的关系、在翻译过程中发挥的不同作用以及承担的不同责任,以此更好促进新技术应用发展,推动形成健康的行业生态。根据语言服务行业的机器翻译使用情况调研问卷收集到的反馈数据,如图2、图3所示,仅有不到30%的受访企业表示会区分轻度和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 机器翻译 技术 产业 应用 蓝皮书

链接地址:https://www.desk33.com/p-1386065.html