往事随风@遗忘
机器翻译是使用计算机实现一种自然语言文本到另一种自然语言文本的翻译。下面是我整理的机器翻译技术论文,希望你能从中得到感悟!
机器翻译在翻译实践中的应用
摘 要: 本文研究机器翻译在翻译实践中的应用,其由两部分组成:第一部分概述机器翻译,第二部分通过一个具体的翻译任务演示谷歌翻译工具的用法。
关键词: 机器翻译 谷歌翻译 译后编辑
一、机器翻译概述
机器翻译是指将翻译过程的部分或全部使用机器实现自动化(Austermühl,2006)。一般认为机器翻译的思想起源于1949年写作的韦弗备忘录,而后机器翻译的发展经历了重大的起伏。时至今日,机器翻译的研究和产品如雨后春笋般不断涌现出来,机器翻译已然成为一个具有重大社会意义、政治意义、商业价值、科学价值和哲学意义的重要课题。
机器翻译系统可以依据不同的标准分为不同的种类。根据机器翻译系统的使用环境可以分为三类:低端机器翻译系统、用户定制的高端机器翻译系统和基于因特网的机器翻译系统。低端机器翻译系统的目标客户是个人,用户定制的高端机器翻译系统的目标客户是公司,基于因特网的机器翻译系统则是一种通过因特网使用的。根据机器翻译系统使用的技术可以分为下图所示的五类:基于规则的机器翻译系统、基于语料库的机器翻译系统、多引擎机器翻译系统、在线机器翻译系统和口语机器翻译系统(Feng,2004)。
一般而言,由于自然语言中诸如歧义、复杂句法、成语和照应关系之类问题,机器翻译的输出结果并不能令用户满意。于是一些人认为机器翻译系统对于译员而言毫无用处。我认为这是一种误解。翻译的过程一般可以分为两个阶段:第一阶段是翻译出译稿,第二阶段是修改译稿以求译文可以达到要求。在多数情况下使用机器翻译的目的仅仅是将第一阶段自动化,即翻译出译稿。然后由译员修改译稿,最终产出达到要求的译文。由此可见,机器翻译在将文本翻译成译稿的过程中大有用处。
在使用机器翻译将文本翻译成译稿的过程中,我们还可以使用多种方法提高机器翻译输出结果的质量。提高机器翻译系统翻译质量的策略如下表所示(Austermühl,2006)。
这些提高机器翻译质量的策略不是互相排斥的,而是可以同时使用。更新词典是指为机器翻译系统添加词条。译前编辑应用于翻译之前的文本。受控语言是指控制输入机器翻译系统的语言的复杂程度。交互模式是指翻译中机器翻译系统一边输出译稿,译员一边实时地做出修改。译后编辑应用于译后文本。上表所列的提高机器翻译质量的策略中使用最多的是译后编辑。
二、译例
现在中国广受用户欢迎的机器翻译系统有谷歌翻译、金山快译和Systran。在此我们将使用如下一段文字演示谷歌翻译工具的使用方法和使用译后编辑的策略修改谷歌翻译输出的译稿:
Ubuntu is a community developed operating system that is perfect for laptops,desktops and servers.Whether you use it at home,at school or at work Ubuntu contains all the applications you’ll ever need,from word processing and email applications,to web server software and programming tools.
谷歌翻译非常容易使用。我们首先在浏览器中打开谷歌翻译的网址https://translate.省略/,将上面的一段文字输入或复制粘贴到源语文本框中,调整翻译方向,即将英语设为源语,将汉语设为目的语,点击“翻译”按钮,谷歌翻译输出的译稿便出现了:
Ubuntu的是一个社会发展的作业系统是完美的笔记本电脑、台式电脑和服务器。您是否使用它在家里,在学校或工作Ubuntu的包含所有申请您最需要的,从文字处理和电子邮件应用程序,Web服务器软件和编程工具。
接下来我们可以开始通过比较源语文本和译稿编辑谷歌翻译的输出,这是使用译后编辑策略的译员需要做的工作中的主要部分。
第一句的翻译有两个主要的问题,即“community developed”和“perfect for”的翻译。此处谷歌翻译的翻译引擎将“community developed”翻译为“社会发展的”;正确的翻译应该是“(开源)社区开发的”。据此我们可以将第一句的前半部分编辑为“乌班图(Ubuntu)是社区开发的操作系统”。而后半句中的“perfect for”在此具体语境中的意义应该是“非常适合”,而不是“完美的”。据此我们可以将后半句编辑为“适合运行于笔记本、台式机和服务器”。
第二句的翻译也有两处主要的问题,即“whether”和“applications”的翻译。在此具体语境中“whether”的意思不是“是否”,而是“无论”;“applications”的意思不是“申请”,而是“应用程序”。因此我们可以将第二句的前半句编辑为“无论在家庭、学校还是工作环境使用,乌班图(Ubuntu)都提供了您所需的各种应用程序”。接着我们可以看到第二句的后半句并不需要大幅地修改,只需稍为润色,成为“从文字处理软件、电子邮件程序到服务器软件、编程工具”。
经过编辑的译文如下:
乌班图(Ubuntu)是开源社区开发的操作系统,适合运行于笔记本、台式机和服务器。无论在家庭、学校还是工作环境使用,乌班图(Ubuntu)都提供了您所需的各种应用程序,从文字处理软件、电子邮件程序到服务器软件、编程工具。
比较谷歌翻译的输出与修改后的译文,我们可以看到要想达到专业的翻译水准,机器翻译的输出可能需要较大幅度的修改。但是我们也应该看到机器翻译的长处是翻译某一特定领域的文本和翻译受控语言。
参考文献:
[1]Austermühl,F.Electronic Tools for Translators.Beijing:Foreign Language Teaching and Research Press,2006.
[2]Ubuntu.The Ubuntu Promise.Retrieved Aug.23,2010,
[3]冯志伟[Feng Zhiwei].机器翻译研究[M].北京:中国对外翻译出版公司,2004.
郑州大学西亚斯国际学院2010年度科研经费资助项目
点击下页还有更多>>>机器翻译技术论文
机智小百合
比较年轻然后就拥有了博士学位,是我们学校的的教授现在。1989年胡军华毕业于 中南工业大学,获学士学位;1992年毕业于中南工业大学,获硕士学位,2004年毕业于日本千叶工业大学,获工学博士学位。
Lily20131010
跨学科奇才语言学家冯志伟教授是极为罕见的跨学科奇才。过去的著名语言学家有的只懂社会科学,不懂自然科学;许多人只懂古代汉语、现代汉语或普通语言学,一般只着重研究汉语的语音、词汇、语法或文字等某一个方面的问题,研究的问题和领域比较单一;他们中的一些佼佼者,至多也只懂得两三门外语,视野不够开阔,语言的纵横向对比研究都不够,有一定的局限性。而冯志伟先生却懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、文字学、音韵学和普通语言学,深研过汉、英、法、德、俄、日等语言的语音、词汇和语法的自动处理,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,成为文理兼通的语言学专家。冯志伟教授不但在国外著名大学的电子工程与计算机科学系讲授理科的“机器翻译的方法和技术研究”、“自然语言处理的算法研究”、“计算语言学专题研究”等艰深的博士课程,而且还在国内外大学的中文系讲授“汉魏六朝散文”、“唐诗”、“宋词”、“古代汉语”、“现代汉语”、“汉字的历史与结构”等饶有风趣的课程,他还能给学生们辅导英、德、法、俄、日等外国语课程,提高学生们的外语口语表达能力和书面写作能力。他的散文和诗歌也写得很好,他为哀悼好友马希文教授(著名数学家)英年早逝而写的诗歌《长歌当哭》,凄楚感人,读后令人潸然泪下。他还是一位翻译专家,出版过翻译著作。这样的人才确实是很罕见的。 冯志伟自幼聪慧沉静,18岁就以优异成绩考入北京大学地球化学专业。他在北大图书馆偶然看到了美国语言学家乔姆斯基(N. Chomsky)的论文《语言描写的三个模型》(Three models for the description of language),被乔姆斯基在语言研究中的新思想深深地吸引,继而从理科转到中文系语言学专业从事语言学的学习。在中文系读书期间,冯志伟一面学好传统语言学的各门课程和外语,一面利用课余时间,继续研究数理语言学的问题,他充分地利用北京大学图书馆丰富藏书和最新的杂志,跟踪着国际上数理语言学发展的足迹,他成为了班上名列前茅的学生。1964年考上北京大学语言学理论的研究生后,经导师岑麒祥教授同意,他的研究生毕业论文的题目定为《数学方法在语言学中的应用》,在我国语言学研究中,首次系统地、全面地来研究数理语言学这个新兴学科。这样,我国的数理语言学研究便首先在北京大学正式地开展起来。北京大学中文系的著名语言学家王力先生和朱德熙先生都支持冯志伟的数理语言学研究,王力先生曾对冯志伟说:“语言学不是很简单的学问,我们应该像赵元任先生那样,首先做一个数学家、物理学家、文学家、音乐家,然后再做一个合格的语言学家。”朱德熙先生曾对冯志伟说:“数学和语言学的研究都需要有逻辑抽象的能力,在这一方面,数学和语言学有共同性。”北京大学的这些第一流的学者,总是站在科学的最前沿来看待学术的发展,他们的鼓励给了冯志伟以巨大的力量。1978年,之前毕业于北京大学中文系研究生的文科学生冯志伟,以优异的理科成绩考上了中国科学技术大学研究生院信息科学系的研究生,又开始了理科的学习。1979年,入学不到一年,他就在《计算机科学》杂志创刊号上发表了《形式语言理论》的长篇论文,用严格的数学表达方式向计算机科学界说明数理语言学中的形式化方法如何推动了当代计算机科学的发展,并且指出:在数理语言学研究中发展起来的形式语言理论,事实上已经成为了当代计算机科学不可缺少的一块重要的理论基石,计算机科学绝不可忽视形式语言理论。许多人认为这篇文章一定是资深的计算机科学家写的,后来,当计算机界的一些专家了解到,这篇论文的作者竟然是文革前北京大学中文系的一个文科研究生的时候,感到非常惊讶。1990年~1993年,冯志伟应邀在德国特里尔大学用德语讲授一系列的汉语语言学课程,并且用德语出版了语言学的专著,显示了他的外语才能。在我国中文系出身的语言学家当中,像冯志伟这样通晓多门外语的人还不多。他不仅是一位善于深思的语言学的理论家,而且还是一位勇于实践的能操多种外国语的多面手。 梅花香自苦寒来在多学科间游走是需要深厚的知识积淀的,知识积淀则来自于勤奋。冯志伟在上世纪六十年代初期就已经学会了4门外语,而且能够使用这4种外语阅读数理语言学的外文文献。他取得这样的学习成绩,不仅是天赋,更多的是因为勤力。为了学习英语,他就买一本中型的英汉词典来,一页一页地记忆和背诵,背完一页就撕去一页。几年来,冯志伟先后撕完了英汉、俄汉、法汉、德汉、日汉等多部词典,他就用这样的笨方法,学会了多门外语。又比如,“文革”期间,冯志伟在朋友们的帮助下,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。在当时的政治环境和技术环境下,能实现如此繁重的工作,难度可想而知。冯志伟不仅自己的学习时候勤奋有加,对待教学也是一丝不苟。在特里尔大学文学院任教期间,冯志伟用德语给德国学生讲授《汉魏六朝散文选》、《唐诗宋词选》、《中国现代散文选》、《汉字的发展与结构》、《汉语拼音正词法》、《汉语词汇史》、《机器翻译的理论和方法》等课程。为了讲好课,他苦练德语口语,认真用德语备课,在上每一节课之前,他都要先用德语把讲课的内容自己对自己叙述一遍或多遍,直到能够熟练地背诵为止,他把“备课”当作了“背课”。由于冯志伟的备课特别认真,课堂教学效果很好,他的讲课受到德国学生们的一致好评。冯志伟在韩国科学技术院任教期间,利用全部的业余时间来翻译《语音和语言处理 – 自然语言处理,计算语言学和语音识别导论》(原文为英语)一书,晚上加班到深夜,连续工作了11个月,当翻译完14章(全书的三分之二)的时候,他不幸患了黄斑前膜的眼病,视力出现障碍,难于继续翻译工作。剩下的7章由中国科学院软件研究所的一位年轻的副研究员协助他完成。这位副研究员把剩下的7章逐一翻译成中文,通过计算机网络一章一章地传给在韩国的冯志伟,冯志伟使用语音合成装置,让计算机把书面的文本读出来,通过读出来的语音进行译文的校正。2004年,全书的翻译大功告成,由电子工业出版社以《自然语言处理综论》的书名出版。这本书的出版受到广大读者的欢迎,而冯志伟为此却损害了自己的视力,他不得不借助于语音合成装置来阅读了。 硕果累累著作丰天赋和勤勉成就了跨学科奇才,冯志伟在数理语言学领域不断前行,解决一个又一个难度很高的问题,硕果累累。在法国留学期间,经过在计算机上编写程序进行潜心的钻研和反复的试验,冯志伟提出了“多叉多标记树模型”(Multiple-labeled and Multiple-branched Tree Model,简称MMT模型)。这个模型提出后,立即引起了国际计算语言学界的高度重视。冯志伟根据他提出的MMT模型,于1981年完成了汉-法/英/日/俄/德多语言机器翻译试验,建立了FAJRA系统(FAJRA是“法语-英语-日语-俄语-德语”的法文首字母缩写),在IBM-4341大型计算机上,把二十多篇汉语的文章自动地翻译成英文、法文、日文、俄文、德文,当时在实验室工作的外国朋友亲自目睹他们视为天书的一篇篇汉语文章被计算机翻译成他们懂得的五种外国语之后,无不拍手叫绝。这是世界上第一个汉语到多种外语的机器翻译系统,开创了多语言机器翻译系统之先河。从法国回国之后,冯志伟在中国科技信息研究所计算中心担任机器翻译研究组的组长,在王力先生的鼓励之下,他利用当时北京遥感技术研究所的IBM-4361计算机,于1985年进行了德-汉机器翻译试验和法-汉机器翻译试验,建立了GCAT德-汉机器翻译系统和FCAT法-汉机器翻译系统,进一步检验了MMT模型分析汉语和生成汉语的能力,试验结果良好。在北京大学“语言学中的数学问题”选修课讲稿的基础之上,冯志伟写出了我国第一部数理语言学的专著,书名就叫做《数理语言学》,于1985年8月由上海知识出版社出版。接着,他又出版了《自动翻译》的专著,深入地探讨自然语言机器翻译的理论和实践问题。这两本专著的出版,受到了我国计算语言学界的欢迎。当时不少出国学习计算语言学的留学生,出国时都带着这两本书,作为入门的向导,在本书的引导下,他们很快就接触到了国外计算语言学研究中的前沿问题。冯志伟上世纪80年代在德国夫琅禾费研究院新信息技术与通讯系统研究所(FhG)担任客座研究员期间,克服了重重困难,使用UNIX操作系统和INGRES软件,建立了数据处理领域的中文术语数据库GLOT-C,并且把这个数据库与FhG的其他语言的术语数据库相连接,可以快速地进行多语言术语的查询和检索,并且能够处理汉字(当时计算机上还没有成熟的中文操作系统)。这是世界上第一个使用汉字的中文术语数据库,具有开创作用。2006年,联合国教科文组织奥地利委员会(Austrian Commission for UNESCO)、维也纳市(City of Vienna)和国际术语信息中心(INFOTERM)给冯志伟教授颁发了维斯特奖(Wüster Special Prize),以表彰他在术语学理论和术语学方法研究方面做出的突出贡献。维斯特(Eugen Wüster,1898-1977)是奥地利著名科学家,是术语学和术语标准化工作的奠基人。维斯特奖是专门为那些对于术语学和术语标准化工作有出色成就的科学家而设置的。今年七十一岁的冯志伟著述颇丰,其内容涉及不少领域,引起国内外不少同行专家的广泛关注和高度评价。他现在已在多家著名出版社出版了二十余部专著,翻译国外重要论著数十篇(部),并用汉、英、法、德文等撰写了有代表性的重要学术论文百余篇,在国内外许多著名刊物上发表。最主要的代表作如:专著《数理语言学》、《自动翻译》、《现代语言学流派》、《现代汉字和计算机》、《中文信息处理与汉语研究》、《数学与语言》(新版更名为《语言与数学》)、《自然语言机器翻译新论》、《应用语言学综论》、《应用语言学新论》、《计算语言学基础》、《计算语言学探索》、《机器翻译研究》、《现代术语学引论》、《自然语言的计算机处理》、《汉语教学与汉语拼音正词法》、《自然语言处理的形式模型》、《汉字的历史与现状》(德文版),译著《自然语言处理综论》,等等。他还主持和参与了若干个国家标准的制定,为我国标准化做出了贡献。他又是《中国大百科全书》语言文字卷编辑组成员、《数学辞海》总编委会委员、《计算机百科全书》和《中国少年百科全书》等大型工具书的撰稿人,为这些权威性工具书写了不少重要条目。他还为一些当代语言学名著的外文版写导读,如《应用语言学中的语料库》、《语言学中的数学方法》、《译者的电子工具》、《人工智能在第二语言教学中的应用》、《牛津计算语言学手册》、《自然语言生成系统的建造》等,帮助国内读者阅读外文原著。冯志伟对于他的这些成就却看得很平淡,他很少对别人谈起他的成就。除了平时喜欢喝白开水和游泳之外,他几乎没有什么特殊的嗜好,他每日粗茶淡饭,过着非常清贫的生活。他从来不以为自己是什么“专家”,没有任何的架子,总是谦和地对待他的学生和周围的同志。在北京大学中文系59级同学纪念册上,他写下了这样的人生感言:“先天不足,后天失调;岁月蹉跎,艰辛备尝;老当益壮,穷且越坚;平生无悔,褒贬由之。”他始终认为自己是一个很平常的普通人,对于别人的褒贬,他是看得很平淡的。他对于生活的信条是:“在科学探索的过程中,我所知道的东西终究是有限的,而我不知道的东西始终是无限的,只要平生无悔就很好了! ”
爱上大碴粥
在大学中遇见最屌的教授,就是小县城出来的高中考试,村里第一高考第考的华中科技大学,各种奖项拿到手软,纠结读研保博去北大还是中科院,最后因为听他的老师说中科院工资高就去了,但是到后来又不被忽悠来我们这里了。
影响因子去除自引的意义是为了更加准确地衡量期刊的影响力。根据查询相关公开信息显示,去除自引的意义在于,能够更客观地反映该期刊的学术贡献和影响力,避免了因自我引用
《文化创意类企业办公空间室内设计研究》是由徐桦发表的论文。该论文指出,文化创意类企业的有效运营必需满足特定的空间要求,需要室内设计来激发工作者的创新能力。该论文
刘志伟,男,汉族,1962年12月生,甘肃通渭人。现为郑州大学文学院教授,硕士生、博士生导师,中国《文选》学会理事。曾在《文学遗产》、《光明日报》与《中国典籍与
武汉工程大学创建于1972年6月,原名湖北化工石油学院,隶属湖北省。1980年3月,经教育部批准,更名为武汉化工学院,改由原化工部主管。1998年7月,随着高校
冯建同志多次被四川省、重庆市和永川县(市)评为先进个人,1985年荣获四川省新长征突击手称号,1986年获重庆市新长征突击手和优秀团干部称号,1994年和199