机器翻译论文解读

3个回答默认排序

默认排序

按时间排序

哇啦哇啦bibibi

已采纳

机器翻译是使用计算机实现一种自然语言文本到另一种自然语言文本的翻译。下面是我整理的机器翻译技术论文，希望你能从中得到感悟!

机器翻译在翻译实践中的应用

摘要: 本文研究机器翻译在翻译实践中的应用,其由两部分组成:第一部分概述机器翻译,第二部分通过一个具体的翻译任务演示谷歌翻译工具的用法。

关键词: 机器翻译谷歌翻译译后编辑

一、机器翻译概述

机器翻译是指将翻译过程的部分或全部使用机器实现自动化(Austermühl,2006)。一般认为机器翻译的思想起源于1949年写作的韦弗备忘录,而后机器翻译的发展经历了重大的起伏。时至今日,机器翻译的研究和产品如雨后春笋般不断涌现出来,机器翻译已然成为一个具有重大社会意义、政治意义、商业价值、科学价值和哲学意义的重要课题。

机器翻译系统可以依据不同的标准分为不同的种类。根据机器翻译系统的使用环境可以分为三类:低端机器翻译系统、用户定制的高端机器翻译系统和基于因特网的机器翻译系统。低端机器翻译系统的目标客户是个人,用户定制的高端机器翻译系统的目标客户是公司,基于因特网的机器翻译系统则是一种通过因特网使用的。根据机器翻译系统使用的技术可以分为下图所示的五类:基于规则的机器翻译系统、基于语料库的机器翻译系统、多引擎机器翻译系统、在线机器翻译系统和口语机器翻译系统(Feng,2004)。

一般而言,由于自然语言中诸如歧义、复杂句法、成语和照应关系之类问题,机器翻译的输出结果并不能令用户满意。于是一些人认为机器翻译系统对于译员而言毫无用处。我认为这是一种误解。翻译的过程一般可以分为两个阶段:第一阶段是翻译出译稿,第二阶段是修改译稿以求译文可以达到要求。在多数情况下使用机器翻译的目的仅仅是将第一阶段自动化,即翻译出译稿。然后由译员修改译稿,最终产出达到要求的译文。由此可见,机器翻译在将文本翻译成译稿的过程中大有用处。

在使用机器翻译将文本翻译成译稿的过程中,我们还可以使用多种方法提高机器翻译输出结果的质量。提高机器翻译系统翻译质量的策略如下表所示(Austermühl,2006)。

这些提高机器翻译质量的策略不是互相排斥的,而是可以同时使用。更新词典是指为机器翻译系统添加词条。译前编辑应用于翻译之前的文本。受控语言是指控制输入机器翻译系统的语言的复杂程度。交互模式是指翻译中机器翻译系统一边输出译稿,译员一边实时地做出修改。译后编辑应用于译后文本。上表所列的提高机器翻译质量的策略中使用最多的是译后编辑。

二、译例

现在中国广受用户欢迎的机器翻译系统有谷歌翻译、金山快译和Systran。在此我们将使用如下一段文字演示谷歌翻译工具的使用方法和使用译后编辑的策略修改谷歌翻译输出的译稿:

Ubuntu is a community developed operating system that is perfect for laptops,desktops and you use it at home,at school or at work Ubuntu contains all the applications you’ll ever need,from word processing and email applications,to web server software and programming tools.

谷歌翻译非常容易使用。我们首先在浏览器中打开谷歌翻译的网址https://translate.省略/,将上面的一段文字输入或复制粘贴到源语文本框中,调整翻译方向,即将英语设为源语,将汉语设为目的语,点击“翻译”按钮,谷歌翻译输出的译稿便出现了:

Ubuntu的是一个社会发展的作业系统是完美的笔记本电脑、台式电脑和服务器。您是否使用它在家里,在学校或工作Ubuntu的包含所有申请您最需要的,从文字处理和电子邮件应用程序,Web服务器软件和编程工具。

接下来我们可以开始通过比较源语文本和译稿编辑谷歌翻译的输出,这是使用译后编辑策略的译员需要做的工作中的主要部分。

第一句的翻译有两个主要的问题,即“community developed”和“perfect for”的翻译。此处谷歌翻译的翻译引擎将“community developed”翻译为“社会发展的”;正确的翻译应该是“(开源)社区开发的”。据此我们可以将第一句的前半部分编辑为“乌班图(Ubuntu)是社区开发的操作系统”。而后半句中的“perfect for”在此具体语境中的意义应该是“非常适合”,而不是“完美的”。据此我们可以将后半句编辑为“适合运行于笔记本、台式机和服务器”。

第二句的翻译也有两处主要的问题,即“whether”和“applications”的翻译。在此具体语境中“whether”的意思不是“是否”,而是“无论”;“applications”的意思不是“申请”,而是“应用程序”。因此我们可以将第二句的前半句编辑为“无论在家庭、学校还是工作环境使用,乌班图(Ubuntu)都提供了您所需的各种应用程序”。接着我们可以看到第二句的后半句并不需要大幅地修改,只需稍为润色,成为“从文字处理软件、电子邮件程序到服务器软件、编程工具”。

经过编辑的译文如下:

乌班图(Ubuntu)是开源社区开发的操作系统,适合运行于笔记本、台式机和服务器。无论在家庭、学校还是工作环境使用,乌班图(Ubuntu)都提供了您所需的各种应用程序,从文字处理软件、电子邮件程序到服务器软件、编程工具。

比较谷歌翻译的输出与修改后的译文,我们可以看到要想达到专业的翻译水准,机器翻译的输出可能需要较大幅度的修改。但是我们也应该看到机器翻译的长处是翻译某一特定领域的文本和翻译受控语言。

参考文献:

[1]Austermühl, Tools for Language Teaching and Research Press,2006.

[2] Ubuntu ,

[3]冯志伟[Feng Zhiwei].机器翻译研究[M].北京:中国对外翻译出版公司,2004.

郑州大学西亚斯国际学院2010年度科研经费资助项目

点击下页还有更多>>>机器翻译技术论文

208 评论 1小时前发布

瑞贝卡tt

论文：LipNet:END-TO-END SENTENCE-LEVEL LIPREADING 本人在对相关领域的内容进行调研时，由于缺乏指导，在中文网站上也很少见到有对Lipreading相关的文章进行详尽分析，因此也耗费了不少时间精力。这里对领域内的一篇Sentence Level的开山之作（文中自称）进行分析，介绍文章中的重点。在这篇文章之前，大多数Lipreading的工作集中在字母、单词、数字或者短语的识别上，具有一定的局限性。而这篇文章虽然使用的数据中的句式有限定，词汇量也比较小，但是不妨碍它是在语句的尺度上进行的识别，且取得了相当不错的成果。首先介绍数据集。GRID数据集是一个Sentence-level的数据集，比较包含三万多条数据。每一个数据是一条视频，视频内容是一个人说出一条固定的句子，并对应一条文本标签，文本标签对每个单词的起始时间和终止时间都进行标注。句子的句式是进行了限制的，并不是具有逻辑性的自然语句，即：也就是说，每一条语句都是由6个固定类型的单词组成，上标表示了数据集中这种单词类型的种类数量，比如表示这个位置为一个颜色单词（如blue），而数据集中一共有4种颜色单词。另外需要了解的是，数据集的视频一共有34个文件夹，对应了对34个不同的人所录制的视频。每一个文件夹包含上千个视频数据，都是对同一个人录制的。而在后期实验时，作者会采用两种不同的方式进行训练和测试：（1）用其中30个人的视频进行训练，而用另外4个人的视频进行测试，即Unseen Speakers;（2）从34个人的视频中，各随机抽取255个视频作为测试数据，其它的作为训练数据；首先会按照先前在数据集部分的末尾所介绍分组方式将数据拆分为两种训练集和测试集。然后使用已有的面部识别检测器，将视频的每一帧都处理为大小的仅包含嘴部的帧。最后再将每一帧进行标准化。（1）分别使用常规的图像序列和水平翻转的图像序列进行训练；（2）由于数据集提供了每一个单词的起始和终止时间，因此可以使用每一个单词所对应的图像帧序列来训练模型；（3）随机删除或复制某些帧，概率设置为；介绍完了数据的组织方式以后，大家也都知道了这是一个Seq2seq的问题，与语音识别的套路极其相似，因此Lipreading的套路很大程度上就是将CV的套路和机器翻译的套路进行整合。这篇文章的模型结构也没什么特别的，文中的废话比较多，总结起来其实就是用3D卷积对图像帧进行特征提取,然后使用两层双向GRU作为Encoder-Decoder，输出一个预测值，最后再用全连接层输出预测的概率。总体上模型的结构并不复杂，也有一些可以改进的地方。此外，损失函数函数值得注意。本文使用的是CTC损失函数，这个损失函数是一个比较经典的用于语音识别相关问题的损失函数，避免了帧与字符进行对齐标注。具体地可以参考这篇文章。指标WER和CER分别为word error rate 和 character error rate，即单词错误率和字符错误率，固然是越低越好。指标分为了两栏：Unseen Speakers和 Overlapped Speakers，对应于在数据集部分介绍的两种数据划分方式下的测试结果。可以看到，LipNet在GRID数据集上的各项指标都达到了当时的最好。后续的很多工作在GRID数据集上的WER已经来到，但是在例如LRS数据集上的表现，远无法达到GRID数据集上的效果，因为GRID数据集中的句式单一，且人脸正对着镜头，只能作为一项基础研究，Lipreading在自然场景下的sentence-level的识别，仍然有很长的路要走。水平有限，欢迎大家批评指正。有问题可以共同探讨。

162 评论 2小时前发布

碎碎瓶安

2017年 10 月 11 日，阿里巴巴达摩院正式成立，马云的一句 “ 活得要比阿里巴巴长”，让外界对它的未来发展，有了更 “意味深长” 的期待。

在近三年多的时间里，达摩院在人工智能学术科研与应用上齐头并进，无论在国际学术顶会以及各类竞赛上，还是在推动学术成果的商业化落地上，都交出了亮眼的成绩单，这也反过来吸引着人工智能领域的顶尖研究者们都汇聚于此。

对于这些顶尖研究者们目前正在开展的研究工作，想必大家都充满了探知欲！

7月9日（晚）19:30-21:00 ，AI科技评论就将联合阿里达摩院，外加阿里集团在学术科研上同样“坚挺”的存在——阿里安全，给大家呈上一场 “ACL 2020 系列论文解读·阿里巴巴专场” 直播！

届时，来自阿里达摩院机器智能技术团队和阿里安全安全智能团队的 6 位高级算法专家、算法工程师以及研究型实习生们，将分别聚焦于多任务学习、少样本文本分类、任务型对话、神经机器翻译、知识蒸馏、跨域分词标注等NLP 细分领域，为大家带来一场论文解读盛宴！

本次分享的嘉宾具体都有谁呢？下面一一揭晓：****分享主题： SpanMlt：一种基于跨度的用于属性词和观点词配对抽取的多任务学习框架 ****分享嘉宾：黄龙涛

分享内容：

属性词和观点词抽取，是细粒度的基于属性的情感分析（ABSA）的两个关键问题。属性－观点词对（ aspect-opinion pairs）可以为消费者和观点挖掘系统提供相关产品或服务的全局配置文件。但是，传统方法无法在没有给定属性词和观点词的情况下，直接输出属性－观点词对。尽管研究者最近提出了一些共提取方法来联合提取属性词和观点词，但是并不能配对抽取两者。为此，本文提出了一种端到端方法来解决属性词和观点词的配对抽取（PAOTE）任务。此外，本文从联合词和关系抽取的角度而非此前大多数工作中执行的序列标注方法的角度，来处理该问题。我们提出了一个基于共享跨度的多任务学习框架，其中在跨度边界的监督下提取词。同时，使用跨度表示法来联合识别配对关系。大量实验表明，我们的模型始终优于 SOTA 方法。

分享内容：

现有的工作往往使用元学习（meta learning）的方法，通过在一系列meta-task中切换来获得少样本学习的能力，但是在task间的切换会带来遗忘的问题，因此考虑使用记忆机制来辅助meta learning的训练。在本工作中，我们将监督学习得到的分类参数作为meta learning的全局记忆，并提出了动态记忆路由算法，基于dynamic routing的方式将全局记忆信息融入到meta task的训练和预测阶段。此外，动态记忆路由算法还可以使用query信息来增强归纳类别表示的能力，对口语场景下的语言多样性表达有更好的泛化性能。在中英文场景少样本分类任务数据集上，均取得了STOA的结果。

分享主题：多领域对话动作和回复联合生成****分享嘉宾：田俊峰

分享内容：在任务型对话中，产生流畅且信息丰富的回复至关重要。现有pipeline方法通常先预测多个对话动作，然后使用它们的全局表示来辅助回复生成。这种方法有两个缺陷：第一，在预测对话动作时，多领域的固有结构被忽略了；其次，在生成回复时没有考虑到对话动作和回复之间的语义联系。为了解决这些问题，我们提出了一种同时生成对话动作和回复的神经联合生成模型。与以往的方法不同，我们的对话动作生成模块可以保留多领域对话动作的层次结构，同时我们的回复生成模块可以动态地关注到相关的对话动作。在训练时，我们采用不确定性损失函数来自适应地调整两个任务的权重。在大规模MultiWOZ数据集上进行了评估，实验结果表明，我们的模型在自动评估和人工评估上都比SOTA模型有很好的提升。****分享主题：神经机器翻译的多尺度协同深度模型******分享嘉宾：魏相鹏**

近年来，神经机器翻译(NMT)方法凭借其出色的翻译性能在大量应用场景中取代了基于统计的机器翻译方法。目前，制约NMT模型性能的因素主要包括模型的特征表达能力和数据规模。因此，我们提出一种基于多尺度协作(MSC)机制的深度神经机器翻译模型，以提高模型对底层（具象化）和高层（抽象化）特征的建模能力。

实验证明，(1) 多尺度协作机制有助于构建极深的NMT模型的同时带来性能上的提升，(2) 基于MSC机制的深度NMT模型能够更好地翻译语义结构复杂的自然语言句子。

****分享主题：多语种序列标注的结构级知识蒸馏******分享嘉宾：王新宇**

多语言序列标注是一项使用单一统一模型预测多语言标签序列的任务。与依赖于多个单语模型相比，使用多语言模型具有模型规模小、在线服务容易和对低资源语言通用的优点。然而，由于模型容量的限制，目前的多语种模型仍然远远低于单独的单语模型。本文提出将多个单语言模型（teachers）的结构知识提取到统一的多语言模型（student）中，以缩小单语言模型与统一的多语言模型之间的差距。我们提出了两种基于结构层次信息的知识挖掘方法：

****分享主题：跨域中文分词的远程标注与对抗耦合训练******分享嘉宾：丁宁**

完全监督神经方法在中文分词（CWS）的任务上取得了重大进展。但是，如果由于域间的分布差异和集外词（OOV）问题导致域迁移，则监督模型的性能始终一直大幅下降。为了实时缓解此问题，本文将跨域中文分词的远程标注和对抗性训练直观地结合在一起。

7月9日，6位来自阿里的分享嘉宾，与大家不见不散！

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行，因新冠肺炎疫情改为线上会议。为促进学术交流，方便国内师生提早了解自然语言处理（NLP）前沿研究，AI 科技评论将推出「ACL 实验室系列论文解读」内容，同时欢迎更多实验室参与分享，敬请期待！

89 评论 3小时前发布

机器翻译论文解读

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序