神经机器翻译

神经机器翻译(英语:Neural machine translation,缩写:NMT)是一种直接使用人工神经网络以端到端方式进行翻译建模的机器翻译方法。[1]

2014年出现了第一篇关于在机器翻译中使用神经网络的科学论文,随后几年神经机器翻译又取得了一些进展[2]

性质

神经机器翻译所需的记忆体比传统统计机器翻译(SMT)模型少了许多,此外,神经翻译模型的各个部分都是联合训练的(端到端),以充分利用翻译效能。[3][4][5]

历史

深度学习应用首次出现在1990年代的语音辨识领域。2014年,第一篇关于以神经网路进行机器翻译的科学论文问世。同年,Bahdanau等人[R 1]和Sutskever等人[R 2]提出了端到端的神经网路翻译模型,正式使用了“神经机器翻译”一词。2015年,百度推出了第一个大规模的NMT系统,隔年Google亦推出其NMT系统,其他公司随后也陆续跟进[6]。该领域在接下来几年取得许多进展,如大词表NMT、影像字幕应用、子词-NMT、多语种NMT、多源NMT、字元解码NMT、零资源NMT、全字元-NMT和零样本NMT(Zero-Shot NMT)等。2015年,NMT系统第一次出现在公开机器翻译比赛(OpenMT'15),WMT'15也开始有NMT系统参赛,次年,该比赛已经有90%的获奖者属于NMT系统[2]

欧洲专利局从2017年以来持续使用神经机器翻译技术,让世界各地的专利系统的资讯得以即时理解[7] 。该系统是与Google合作开发的,有31种语言配对,该系统截至2018年已翻译超过900万个文件。[7]

原理

神经机器翻译(NMT)与个别改造次成份(subcomponents)的统计式片语翻译模型不同。[8]神经机器翻译的原理并未大幅突破传统的统计机器翻译,它们之间的主要区别在于,神经机器翻译对词汇和内部状态使用了向量表征(“嵌入”、“连续空间表征”)。NMT的模型结构比基于片语的模型更为简单,不是用分开的语言模型、翻译模型和重新排序模型,而是仅使用一次只预测一个词的单一序列(Sequence)模型,这个序列预测是根据整段的源语言句子和已产生的目标语言序列来产生。NMT模型使用了深度学习表征学习

词序列的建模起初通常是以递回神经网路(RNN)来完成。一个双向RNN(称为编码器)使用神经网路对第二个 RNN(称为解码器)的源句子进行编码,解码器则被用来预测目标语言中的词汇。[9]RNN在将长输入编码为单一向量时会碰到困难,这点可以透过注意力机制来弥补[10] 。注意力机制允许解码器在产生输出的每个词汇时特别关注输入的不同部分。此外还有多种覆盖模型(Coverage Model)用于解决这种注意力机制所处理的问题,比如忽略过去的对齐资讯所造成的过度翻译(over-translation)和翻译不足(under-translation)[11]

卷积神经网路(CNN)原则上对处理长的连续序列有一定的好处,但仍存在一些劣势以致于最初未被采用,这些劣势在2017年时成功以“注意力机制”解决[12]

Transformer[13]是一个基于注意力的模型,目前仍然是几个语言对的主导架构。[14]Transformer模型的自注意力层( self-attention layer)透过检查配对序列中所有词汇之间的依存关系,直接对这些关系进行建模,借此学习序列中词汇之间的依存关系。这是一种比RNN采用的门控机制更简单的方法。Transformer简单易用,使研究人员即使是在语言资源匮乏(low-resource )的条件下,也能够用Transformer模型开发高品质的翻译模型。[15]

备注

  1. ^ Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.
  2. ^ Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.

参考文献

  1. ^ CIPS青工委学术专栏第9期 神经机器翻译. [2022-10-26]. (原始内容存档于2022-05-26). 
  2. ^ 2.0 2.1 Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos. Findings of the 2016 Conference on Machine Translation (PDF). ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics). 2016: 131–198 [2018-01-27]. (原始内容 (PDF)存档于2018-01-27). 
  3. ^ Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models. Proceedings of the Association for Computational Linguistics. 2013: 1700–1709 [2023-03-11]. (原始内容存档于2019-11-23). 
  4. ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks. 2014. arXiv:1409.3215  [cs.CL]. 
  5. ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. 3 September 2014. arXiv:1409.1259  [cs.CL]. 
  6. ^ Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023
  7. ^ 7.0 7.1 Neural Machine Translation. European Patent Office. 16 July 2018 [14 June 2021]. (原始内容存档于2023-06-06). 
  8. ^ Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts. Procedia Computer Science. 2015, 64 (64): 2–9. Bibcode:2015arXiv150908644W. S2CID 15218663. arXiv:1509.08644 . doi:10.1016/j.procs.2015.08.456. 
  9. ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. 2014. arXiv:1409.0473  [cs.CL]. 
  10. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2014-09-01. arXiv:1409.0473  [cs.CL]. 
  11. ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang. Modeling Coverage for Neural Machine Translation. 2016. arXiv:1601.04811  [cs.CL]. 
  12. ^ Coldewey, Devin. DeepL schools other online translators with clever machine learning. TechCrunch. 2017-08-29 [2018-01-27]. (原始内容存档于2018-02-20). 
  13. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-12-05. arXiv:1706.03762  [cs.CL]. ,
  14. ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof. Findings of the 2019 Conference on Machine Translation (WMT19). Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics). August 2019: 1–61. doi:10.18653/v1/W19-5301 . 
  15. ^ Wdowiak, Eryk. Sicilian Translator: A Recipe for Low-Resource NMT. 2021-09-27. arXiv:2110.01938  [cs.CL].