“机器翻译”的意思、由来-中文百科全书

词条

机器翻译

释义

§ 概况

机器翻译

机器翻译（Machine Translation，经常简写为 MT）属于计算语言学（Computational Linguistics）的范畴，其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说，机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞。借由使用语料库的技术，可达成更加复杂的自动翻译，包含可更佳的处理不同的文法结构、词汇辨识、惯用语的对应等。

机器翻译软件通常可允许针对特定领域或是专业（例如天气预报）来加以客制化，目的在于将词汇的取代缩小于该特定领域的专有名词上，以借此改进翻译的结果。这样的技术针对一些使用较正规或是较制式化陈述方式的领域来说特别有效。例如像是政府机关或是法律相关文件，这类型的文句通常皆比起一般的文句来的正式与制式化，其机器翻译的结果往往比起像是日常生活的对话这种非正式文件要来的好。

目前的一些翻译机器，例如AltaVista的宝贝鱼（Babelfish），有时是可以将译入语的信息，转变成某种程度上尚可理解的译出语（翻译），但是想要得到较有意义的翻译结果，往往必须在输入语句时适当地编辑，以利电脑程式分析。

但是，机器翻译的结果好坏，往往取决于译入跟译出语之间，在词汇、文法结构、语系甚至文化上的差异，例如英文与荷兰文同为印欧语系日耳曼语支，这两种语言间的机器翻译结果，通常便会比中文与英文间机器对译的结果要好很多。

因此，要改善机器翻译的结果，人为的介入仍显相当重要，例如，某些机器翻译的系统若能够由人为的界定或选择哪个词语比较适合，则可大幅改进机器翻译的正确性与品质。一般而言，大众使用机器翻译的目的，可能只是为了要得知原文句子或段落的要旨，而不是精确的翻译。总的说来，机器翻译还没有达到可以取代专业（人工）翻译的程度，并且也尚无法成为正式的翻译。

不过现在已有越来越多的公司，尝试以机器翻译的技术，来提供其公司网站多语系支援的服务。微软公司也尝试将其知识库（Knowledge Database，也常见简写成 KB）以机器翻译来自动翻译成多国语言，如同前面所提到的，这种特定领域的技术文件，由于词汇较为固定，以及文句较简单，通常机器翻译的效果相当不错。[1]

§ 发展过程

机器翻译模式

机器翻译的概念，最早也许可追溯到17世纪，哲学家笛卡儿提出所谓的世界语言（universal language）概念，其可为大众的主要语言、或是唯一保留的语言、或是第二主要语言。笛卡儿、以及莱布尼兹（Leibniz）、贝克（Cave Beck）、基尔施（Athanasius Kircher）、贝希尔（Johann Joachim Becher）等人都曾试图编写类似于统一语言的辞典。

直到近代，借由机械的辅助，机器翻译的可行性大为提升。20 世纪初期便有多位科学家与发明家陆续提出机器翻译的理论与实作计划或想法。沃伦•韦弗被誉为机器翻译的鼻祖。他抛却了俄语文本的含义，转而将其视为一堆“密码”。在美国和欧洲，他的团队和继任者在工作时都遵循着一个常理：任何语言都是由一堆词汇和一套语法规则组成。只要把两种词汇放到机器里，按照人类组合这两种词汇的方式，为之建立一套完整的规则，机器就能破译“密码”。1954年美国乔治城大学的一项实验，将约60句的俄文翻译成英文，被视为机器翻译实际可行的开端。自此开始的十年间，政府与民间企业相继投注相当的资金，用于机器翻译的研究之上。然而，ALAPC（自动语言处理顾问委员会，Automatic Language Processing Advisory Committee）在 1966 年提出的一项报告中表明十年来的机器翻译研究进度缓慢，未达预期。该项报告使得之后的研究资金大为减缩，直到近 1980 年代，由于电脑运算科技的进步，以及相对的演算成本的降低，才使得政府与民间企业针对机器翻译再次有了兴趣，特别是在统计法机器翻译的领域上。[1]

§ 历史

§ 1989年

也就是在50年前，Warren Weaver写下了他的著名的有关启动机器翻译研究的备忘录。这方面的研究首先在美国出现，而到20世纪50年代末则在全世界发展起来了。这还不是提到机器翻译的最早时间。事实上，早在1947年3月，Weaver就曾经写信给Norbert Wiener谈论此事。而Andrew Booth和Richard Richens在1948年也已经做了一些尝试性的实验。机器翻译原理

在那些早期岁月，以及后来的许多年中，计算机跟现在所熟悉的东西可不一样。那时的计算机个头大的惊人，要放在带有加强地板和通风系统的大房间里以便散热，并且价格昂贵。此外还需要一大帮维修人员和尽职尽责的操作人员和程序员围着它团团转。大多数工作进行数学计算，或者为军方服务，或者为大学物理系和应用数学系的军方项目服务。当时的机器翻译很自然地是得到军方支持，同时也就是为了翻译军事情报而研制的。比如在美国是俄——英机器翻译，而在苏联则是英——俄机器翻译。

尽管在50年代和60年代机器翻译吸引了相当可观的资金，尤其是军备竞赛在1957年苏联第一颗人造地球卫星上天以及1961年Gagarin驾驶太空飞船航天飞行成功后进入白热化阶段更是如此，但这段时间的结果却令人失望。到1966年ALPAC报告（ALPAC是Automatic Language Processing Advisory Committee语言自动处理咨询委员会的缩写，这个机构是美国科学院1964年4月成立的）发表后，机器翻译在美国进入低谷时期。机器翻译研究者碰到的语言问题比他们预想的要多得多。这使得人们回忆起差不多5年前，一位机器翻译的热心人Bar Hillel曾经发表的一个有关机器翻译的批评性的评论。在那篇文章中，他拒绝所谓的FAHQT（全自动高质量的翻译）这样的理想目标——事实上，他提出了一个所谓的“不可能性”的证明——同时他提倡开发基于计算机的翻译系统，为人类译员提供帮助，即所谓的“人机共生”环境。ALPAC报告的作者同意上述诊断，并建议有关FAHQT的机器翻译研究应该停止，研究人员的注意力应该转向为翻译人员提供水平比原来所定的高目标要低一些的辅助系统。

ALPAC发表之后的若干年，机器翻译研究仍在继续，但规模大不如从前了。到70年代中期，机器翻译研究取得了这样一些成果：1970年开始美国空军开始使用Systran系统来作俄——英机器翻译；1976年加拿大开始用Meteo（气象）机器翻译系统翻译气象预报；欧共体购买了Systran系统的英——法版来帮助减轻它的翻译负担，此后其他欧洲语言的机器翻译系统开发也就接踵而来了。在80年代，机器翻译从后ALPAC的沉郁气氛中开始复苏，世界范围内的机器翻译研究活动又重新抬头——特别是在日本——新的研究思想（比如基于知识的和基于中间语言的系统等），新的资金支持（欧盟、计算机公司等），以及市场上首次出现的商用机器翻译系统等，都显示出机器翻译进入了一个崭新的发展新阶段。

但是，80年代的机器翻译复兴仍然是把注意力几乎都集中在了人助自动翻译上，人助工作包括译前编辑（或受限语言），翻译期间的交互式解决问题，译后编辑等。而开发基于计算机的辅助翻译或“工具”仍然被相当程度地忽视了——尽管Alan Melby（1982）和Martin Kay（1980）为此鼓吹呼吁。

20世纪80年代几乎所有的研究活动都致力于在传统的基于规则和“中间语言”模式的基础上进行语言分析和生成方法的探索——这些方法都伴有人工智能类型的知识库，表现了更具创新性的潮流。译员的需要让位于商业兴趣：术语管理软件出现（例如Mercury/Termex）ALPNET在80年代上市了一系列翻译家工具，其中还包括“翻译记忆库”（Translation Memory）的早期版本。这是事先翻译好的双语对齐文本库。

20世纪90年代

真正的翻译家助手出现在20世纪90年代早期，即所谓的“翻译工作站”（Translation Worksation），比如Trados公司的Translator Workbench，IBM公司的TranslationManager/2，STAR Transit，Eurolang Optimizer等。混合了复杂的文本处理和出版软件，术语管理以及翻译记忆库等。

在20世纪90年代早期，机器翻译研究被新兴的基于语料库的方法向前推进着，比如统计方法的引入（IBM公司的Candide计划），以及基于实例的机器翻译等。统计技术为先前独用的基于规则的方法带来了解放。消歧问题，代词指代以及更多的惯用法生成问题等，都由于基于语料库技术的应用而有了解决的希望。统计方法跟基于规则的方法一样也不能提供更多答案，但是跟10年前相比，现在提高输出译文质量的希望似乎更大一些了。正如许多观察家已经指出的，最有前途的方法可能是整合了基于规则和基于语料库的方法。现在许多商用机器翻译系统正在集成翻译记忆库，而许多翻译记忆库则正在被机器翻译方法所加强。

20世纪90年代的最主要特征是机器翻译和翻译工具的使用迅速增加。商业和信息的全球化使得对翻译的需求日益增加。这不仅意味着跨国公司的机器翻译应用会持续增长，而且可以帮助产生高质量译文的系统的翻译服务也得到了广泛应用。直到最近，译文生成已经基本被看作是一个独立的活动。对大用户来说，翻译系统的引入已经促成了翻译和文件处理（技术写作和出版）的整合（参见Hutchins 1998）。翻译现在已经被看作是信息交流过程中的一个阶段。这一市场的未来产品将不是分离的独立的机器翻译系统，翻译家工作站以及翻译工具等，而是多语文本处理软件，混合了文档创建、翻译和修订，文件归档，信息分析，检索和文摘等等功能。在一个集成环境中，公司的特别要求很容易得到适合的技术支持。[2]

§ 翻译流程

从人为的翻译来看机器翻译，翻译的过程可被细分如下：

1、解译来源文字的文意

2、重新编译此解析后所得的文意至目标语言。

在这看似简单的步骤之后其实是复杂的认知操作。要能解译来源文字的完整意义，一个译者必须能够分析与诠释整段文章的所有特征，必须能够深度的了解其文法、语义、语法、成语等等，相当于了解来源语言的文化背景。译者同时也必须兼备目标语言相同深度的知识。

于是，这对机器翻译便是一项挑战，即：要如何设计一个程式使其能够如同真人一样的“了解（认知）”一段文字，并且能够“创造”一段好似真人实际写作出来的目标语言的文字。这问题有一些不同的方式可以加以解决。[1]

§ 方法

机器翻译书籍

机器翻译可以使用一种基于语言规则的语法，文字将会依语言学的方式来进行翻译，即一个最合适的目标语言的字词将会被用来取代来源语言的字词。

能够优先解决对自然语言的正确认知与辨识，被视为机器翻译是否能够成功的最主要关键。

一般而言，用规则法（rule-based method）分析一段文字，通常会先建立目标语言中介的、象征性的表义字词。再根据这中介的表义字词来决定使用人工国际语言（interlingual）化的机器翻译，或是使用转化原则法的机器翻译（transfer-based machine translation）。这些方法都必须拥有具备足够形态学的、语句学的、以及语义学的资讯以及大量的字词规则所建构的词汇。

常见机器翻译的难处在于无法给于适当且足够庞大的资讯，来满足不同领域或是不同法则的机器翻译法。举例来说，对于一个需要统计学法则的翻译法，给予它大量的多语言素材是必要的，但对于文法式法则的翻译法便显得没有太大意义。

规则法：规则法机器翻译的范例包含了转化法（transfer-based）、中间语法（interlingual）、以及辞典法（dictionary-based）机器翻译。

辞典法：机器翻译可利用辞典的词汇作翻译。因为这种翻译是“字对字”的，所以通常各字之间在意思上都没有任何关联。这种机器翻译法最适用于具有冗长的词语列表（意即非完整的句子）。例如产品型录的翻译。

知识翻译

范例法

统计法：是目前非限定领域机器翻译中，性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译，并正在融合句法信息，以进一步提高翻译的精确性。统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型，并在此统计模型基础上，定义要估计的模型参数，并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型，采用最大似然准则进行无监督训练，而近年来常用的基于短语的统计机器翻译则采用区分性训练方法，一般来说需要参考语料进行有监督训练。贝氏模型 (Bayesian Model)也是一种机器翻译方法。[1]

§ 质量问题

事实上，不论哪种方法，影响机译发展的最大因素在于译文的质量。就已有的成就来看，机译的质量离终极目标仍相差甚远。

中国数学家、语言学家周海中曾在论文《机器翻译五十年》中指出：要提高机译的质量，首先要解决的是语言本身问题而不是程序设计问题；单靠若干程序来做机译系统，肯定是无法提高机译质量的。同时，他还指出：在人类尚未明了“人脑是如何进行语言的模糊识别和逻辑判断”的情况下，机译要想达到“信、达、雅”的程度是不可能的。这也是制约机译质量提高的一大瓶颈。

值得一提的是，美国发明家、未来学家雷•科兹威尔最近在接受《赫芬顿邮报》采访时预言，到2029年机译的质量将达到人工翻译的水平。对于这一论断，学术界还存在很多争议。

不论怎样，目前是人们对机译最为看好的时期，这种关注是建立在一个客观认识和理性思考的基础上的。我们也有理由相信：在计算机专家、语言学家、心理学家、逻辑学家和数学家的共同努力下，机译的瓶颈问题将会得以解决。

随便看

百科全书收录594082条中文百科知识，基本涵盖了大多数领域的百科知识，是一部内容开放、自由的电子版百科全书。