机器翻译史
一般认为,机器翻译的历史始于1950年代。虽然相关理论和研究更早之前就已经进行,但在1954年初的乔治城大学的实验是机器翻译史中的一个里程碑,该实验成功以电脑将四十多条俄文句子自动翻译成英文,标志着现代机器翻译的开端。美国也因此投入了大量资金研究机器翻译。上述实验的研究人员声称在三或五年内,机器翻译中遇到的语言逻辑的困难将会迎刃而解[1]。苏联的研究人员随后也进行了类似的实验。
然而,实际进展比预期慢得多。1966年,自动语言处理顾问委员会(Automatic Language Processing Advisory Committee, ALPAC)报告发现十几年来的研究未能达到预期的成果,并认为机器翻译在短期内不会取得突破性进展。此报告一出,相关的研究经费大幅萎缩。直至1980年代后期,由于电脑运算效能的提升及电脑成本的降低,研究的重心开始放在机器翻译统计模型上。
至今仍没有一个程式系统能够达到—“全自动优质翻译任何文体”(fully automatic high quality translation of unrestricted text)的境界。[2][3][4]。然而,现在有很多程式在严格限制下能提供准确的翻译。其中有些是网络服务,如Google翻译和SYSTRAN系统。后者为AltaVista的BabelFish提供技术支援(BabelFish自2008年5月9日为雅虎所有,2012年5月被微软Bing翻译取代)
起源
机器翻译可追溯至9世纪的阿拉伯密码学家肯迪(Al-Kindi)的工作,他开发了系统语言翻译技术,包括现代机器翻译中所使用的密码分析、频率分析以及几率统计。[5]十七世纪时,哲学家如莱布尼兹与笛卡尔提出代码字,把字和语言联系。但这些建议仍然是理论,没有发展成实际的机器。1629年,笛卡尔提出了一种通用语言,不同语言的同意义思想共享一个符号。[6]
最早的“翻译机”是乔治·阿氏罗利(Georges Artsrouni)于1930年代中期所申请的专利,是一个使用纸带的自动双语词典。俄罗斯人彼得·特洛扬斯基(Peter Troyanskii)则提出另一项更详细的方案。该方案包含了双语词典,以及根据世界语的文法系统来处理语言间的文法作用的方法。系统被分为三个阶段:第一阶段由以源语言为母语的编辑者,将词汇组织成逻辑形式并进行句法功能;第二阶段是让机器将这些形式“翻译”成目标语言;第三阶段需要以目标语言为母语的编辑者将此输出正规化。他的计划仍默默无闻,直至1950年代末期,特洛扬斯基的提案才为人所知,而那时电脑已是众所周知并被使用。
早期发展
时任洛克菲勒基金会的研究员的沃伦·韦弗于1949年7月,在他发表的名为“翻译”的备忘录中首次提出了基于电脑来进行机器翻译的构想。[7]这些构想是基于信息论、二战期间密码破译的成功、关于自然语言根本的普遍原则的理论。
几年后,许多美国的大学开始认真研究这些想法。1954年1月7日,在纽约的IBM总公司首次于乔治城-IBM实验中公开展示了机器翻译系统。此次展示亦广泛获得报纸报导,引起公众的兴趣。然而该系统只能被称为“儿戏”,一共只有250字和49句经小心筛选的俄文句子翻译为英文,主要是化学方面的内容。尽管如此,它仍促进了一个观点:“机器翻译即将成为现实”;不但刺激了美国,还刺激了世界上许多国家对该项研究投入资金。[1]
早期的机器翻译系统是透过使用大型双语词典和手动编码的规则来定位输出结果的词序,但这类系统最终在当时的语言学发展中被认为限制过多,因此如生成语言学和转换生成语法都被用来试图改善机器翻译的品质。
在此期间,操作系统被安装。美国空军使用的系统是由IBM 和华盛顿大学生产,而位于美国的原子能委员会和于意大利的欧洲原子能组织使用的系统则是由乔治城大学所开发。尽管输出的品质粗劣,但它仍然满足了许多客户在速度方面的主要需求。
在1950年代末,美国政府要求以色列的哲学家、语言学家及数学家耶霍舒亚·巴尔-希勒尔(Yehoshua Bar-Hillel)调查可否利用机器执行全自动高品质的翻译。耶霍舒亚提出了一个关于语义歧义或双重意义的难题。试分析以下句子:
Little John was looking for his toy box. Finally he found it. The box was in the pen.
“Pen”这个词可以有两个含义,第一个含义指人们用来书写的工具,第二个含义指某种容器。对人而言,其含义显而易见,但他声称如果没有“万用百科全书”,机器将永远无法处理这个问题。当时,这种类型的语义歧义只能以约限语言为机器翻译编写源语言文本来解决,这种约限语言所用的词汇只会有一个确切的含义。
1960年代、自动语言处理顾问委员会报告及1970年代
美国与苏联于1960年代的研究,主要都集中在英文与俄文的语言配对翻译。翻译的主要对象是科学和技术上的文件,如科学期刊的文章。粗糙的翻译足以了解文章的基本内容。如果讨论的主题被视为是机密,它会被送往人类译者以取得完整的版本,不是的话则被舍弃。
机器翻译研究在1966年随着ALPAC报告的出版遭受了巨大的打击。该报告由美国政府委托,由自动语言处理顾问委员会发布,美国政府于1964年召集七名科学家组成该委员会。美国政府担心投入了大量资金之后却进展不大。该报告的结论是“机器翻译相较于人工翻译更昂贵、更不准确、速度更慢,且尽管花费巨大,机器翻译仍不太可能在不久的将来达到人工翻译的水准。”
然而,该报告也建议开发一些工具来帮助翻译人员(例如自动词典),并应该继续支持某些计算语言学的研究。
该报告的发表对美国的机器翻译研究产生了深远的影响,对苏联和英国的影响则较轻微。美国的机器翻译研究几近中止至少超过十年。然而相关研究在加拿大、法国和德国仍持续进行。在美国的主要例外有Systran(彼得•托马创立)和Logos(伯纳德•斯科特创立),他们分别在1968年和1970年成立了自己的公司,并为美国国防部服务。1970年,美国空军安装了Systran系统,欧洲共同体委员会随后也在1976年安装该系统。METEO系统是由蒙特利尔大学开发,并于1977年安装在加拿大,负责将天气预报从英语翻译成法语,在2001年9月30日被竞争对手的系统取代之前,METEO系统每天翻译近8万字,每年翻译近3000万字。[8]
1960年代的研究集中在有限的语言配对和输入上,而1970年代受全球化以及加拿大、欧洲和日本对翻译的需求影响,刺激了对低成本机器翻译系统的需求,目的是为了用于翻译一系列技术和商业文件。[来源请求]
1980年代和1990年代早期
到了1980年代,用于机器翻译的安装系统在多样性和数量上都有所增加,许多依赖大型计算机技术的系统投入使用,例如Systran、Logos、Ariane-G5和Metal。[来源请求]
由于微型电脑的可用性提高,形成了低端机器翻译系统市场。欧洲、日本和美国的许多公司都利用了这一点,而系统也被引入了中国、东欧、韩国和苏联市场。[来源请求]
1980年代,日本的机器翻译活动非常活跃。随着第五代计算机的计划,日本打算在计算机硬件和软件方面超越竞争对手,许多大型日本电子公司参与了与英语互译的项目(富士通、东芝、NTT、兄弟、Catena、三菱、夏普、三洋、日立、NEC、松下、弘电社、Nova、冲电气)。[来源请求]
1980年代的研究通常依赖于各种中介语言表征来进行翻译,包括构词学分析、句法分析和语义分析。[来源请求]
1980年代末,新的机器翻译方法大量涌现。IBM开发了一个“基于统计方法”的系统。Makoto Nagao与其团队使用了基于大量翻译范例的方法,这种技术现在称为“基于实例”的机器翻译[9][10]。这两种方法的一个显著特点是忽略了语法和语义规则,而是依赖于对大型文本语料库的操作。
在1990年代,受语音辨识和语音合成技术成功的鼓舞,随着德国Verbmobil专案发展,开启了语音翻译研究。
前向区域语言转换器(FALCon)系统是美国陆军研究实验室设计的一种机器翻译技术,1997年投入战场,为波斯尼亚的士兵翻译文件[11]。
由于低成本和功能更强大的计算机的出现,机器翻译的使用有了显著的增长。1990年代初,机器翻译开始从大型电脑向个人计算机和工作站过渡。两家公司Globalink和MicroTac曾一度引领个人电脑市场,之后两家公司的合并(1994年12月)被认为符合两者的利益。Intergraph和Systran也在这个时候开始提供PC版本,网站也可以在互联网上找到,例如AltaVista的巴别鱼(使用Systran技术)和谷歌语言工具(最初也只使用Systran技术)。
2000年代
机器翻译领域在2000年代发生了重大变化,大量的研究投入了统计机器翻译和基于实例的机器翻译。在语音翻译领域,研究重点则是将翻译系统从领域限定的系统转向领域不限定的系统。在欧洲的不同研究专案(如TC-STAR)[12]和美国(STR-DUST和US-DARPA-GALE)[13],已经制定了自动翻译议会演讲和广播新闻的解决方案。在这些场景中,内容翻译不再局限于任何特定领域,而是要涵盖各种主题。法德合作的Quaero专案研究了“为多语言互联网上使用机器翻译的可能性”。该项目不仅要翻译网页,还要翻译互联网上的影片和音频档案。
这段时期只有几间公司将统计机器翻译投入商业用途,例如Omniscien Technologies(前身为亚洲在线)[来源请求],SDL / Language Weaver(销售翻译产品和服务)[来源请求],Google(在Google的语言工具中,将其专属的统计机器翻译系统用于某些语言组合)[14],微软(使用其专有的统计机器翻译系统翻译知识库文章)[来源请求]和Ta with you (提供基于统计机器翻译领域与一些语言知识的适应机器翻译解决方案)[来源请求]。随着研究人员将句法和形态(即语言)的知识结合到统计系统,并结合了现有基于规则系统的统计资料,研究人员开始对混合技术产生了兴趣[来源请求]。
2010年代
神经机器翻译 (NMT) 方法在这段时期取代了统计机器翻译。神经机器翻译一词是由Bahdanau等人[15]和Sutskever 等人[16]所创造,他们在2014年发表了第一篇关于该主题的研究。神经网络只需一小部分统计模型所需的记忆体,且整段句子能以整合的方式建模。百度于2015年推出了第一个大规模的神经机器翻译系统,Google随后于2016年推出了Google神经机器翻译系统 (GNMT),紧随其后的是DeepL翻译等其他翻译服务,微软翻译等老式的翻译服务也改用了NMT技术。
神经网络使用的是被称为序列到序列 (seq2seq) 的单一端到端神经网络架构,这种架构使用了两个递回神经网络 (RNN):“编码器”和“解码器”。编码器在源句子上使用编码向量,解码器则根据先前的编码向量产生目标句子。[17]注意力层、转换技术和反向传播技术的进展使神经机器翻译变得灵活,并被应用到大多数的机器翻译、摘要(summarization)和聊天机器人技术。[18]
参考文献
- ^ 1.0 1.1 Hutchins, J. (2005)
- ^ Melby, Alan. The Possibility of Language (Amsterdam:Benjamins, 1995, 27-41). [2011-02-16]. (原始内容存档于2011-05-25).
- ^ Wooten, Adam. "A Simple Model Outlining Translation Technology" T&I Business (February 14, 2006). [2011-02-16]. (原始内容存档于2012-07-16).
- ^ Appendix III of 'The present status of automatic translation of languages', Advances in Computers, vol.1 (1960), p.158-163. Reprinted in Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p.174-179. (PDF). [2011-02-16]. (原始内容 (PDF)存档于2018-09-28).
- ^ DuPont, Quinn. The Cryptological Origins of Machine Translation: From al-Kindi to Weaver. Amodern. January 2018, (8) [2023-03-11]. (原始内容存档于2019-08-14).
- ^ 浜口, 稔. 英仏普遍言語計画. 工作舎. 30 April 1993: 70–71. ISBN 978-4-87502-214-5.
普遍的文字の构筑という初期の试みに言及するときは1629年11月にデカルトがメルセンヌに宛てた手纸から始まる、というのが通り相场となっている。しかし、この问题への関心を最初に诱発した多くの要因を吟味してみると、ある种の共通の书字という构想は明らかに、ずっと以前から比较的なじみ深いものになっていたようである。…フランシス・ベイコンは、1605年出版の学问の进歩についてのなかで、そのような真正の文字の体系は便利であると述べていた
translated from Knowlson, James. UNIVERSAL LANGUAGE SCHEMES IN ENGLAND AND FRANCE 1600-1800 . 1975. ISBN 978-0-8020-5296-4. - ^ Weaver memorandum (March 1949) 互联网档案馆的存档,存档日期2006-10-05.
- ^ PROCUREMENT PROCESS. Canadian International Trade Tribunal. 30 July 2002 [10 February 2007]. (原始内容存档于6 July 2011).
- ^ Nagao, Makoto. A Framework of a Mechanical Translation Between Japanese and English by Analogy Principle (PDF). Procedures of the International NATO Symposium on Artificial and Human Intelligence. New York: Elsevier North-Holland, Inc.: 173–180. 1984 [2019-09-17]. ISBN 0-444-86545-4. (原始内容 (PDF)存档于2020-11-25).
- ^ the Association for Computational Linguistics – 2003 ACL Lifetime Achievement Award. Association for Computational Linguistics. [10 March 2010]. (原始内容存档于2010-06-12).
- ^ White, John S. Envisioning Machine Translation in the Information Future: 4th Conference of the Association for Machine Translation in the Americas, AMTA 2000, Cuernavaca, Mexico, October 10-14, 2000 Proceedings. Springer. 2003-07-31. ISBN 9783540399650 (英语).
- ^ TC-Star. [25 October 2010]. (原始内容存档于2021-01-16).
- ^ U.S.-DARPA-GALE. [25 October 2010]. (原始内容存档于2010-11-11).
- ^ Google Switches to Its Own Translation System. [12 February 2018]. (原始内容存档于2018-02-12).
- ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Stroudsburg, PA, USA: Association for Computational Linguistics). 2014: 1724–1734. S2CID 5590763. arXiv:1406.1078 . doi:10.3115/v1/d14-1179.
- ^ Tachioka, Yuuki; Watanabe, Shinji; Le Roux, Jonathan; Hershey, John R. Sequence discriminative training for low-rank deep neural networks. 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP) (IEEE). December 2014: 572–576. ISBN 978-1-4799-7088-9. S2CID 767028. doi:10.1109/globalsip.2014.7032182.
- ^ De-Yu, Chao. Machine Translation. Medium. 2021-06-04 [2022-12-09]. (原始内容存档于2022-12-09) (英语).
- ^ What is Neural Machine Translation & How does it work?. TranslateFX. [2022-12-09]. (原始内容存档于2022-12-09) (英语).