作为人工智能算法领域的领先者,Google 已经在其搜寻服务、电子邮件、即时通讯等多个产品中成功应用这一技术,近日又将其带入机器翻译领域。9月27日,Google 宣布推出 GNMT 系统(Google Neural Machine Translation,神经型机器翻译),采用先进的神经网络(Neural Network)训练模型,实现到目前为止最高质量的机器翻译。Google 已于26日发布了 GNMT 系统的技术细节论文。
长久以来,电脑程序自动生成的机器翻译,一般都采用基于短语的 PBMT(Phrase-Based Machine Translation)模型,其翻译结果好坏往往取决于译入及译出语言之间的词汇、文法、语系甚至文化差异有多大,例如德文对英文的机器翻译结果,通常比中文对英文的翻译结果好得多。
近日在中文媒体广为流传的一张照片,再次凸显了中英文自动翻译的尴尬:广州“一带一路”自贸区论坛会场,“签到处”的英文翻译居然是“Sign Everywhere”(到处签)——正是改进之前的 Google 翻译所输出的结果。而采用 GNMT 系统之后,Google 翻译已自动将其修改为“Check-in”。
十年前,我们发布了 Google 翻译,这项服务背后的核心算法是基于短语的 PBMT 模型。自那时起,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译一直是个高难度的目标。
参与这一计划的 Google Brain 团队介绍称,他们在数年前便开始使用递归神经网络模型(Recurrent Neural Networks,RNNs),来直接“学习”某种语言的一句话到另一种语言的同一句话的映射(Mapping)。其中,PBMT 被用来将输入语句分解成词汇和短语,并对它们进行独立翻译,而 GNMT 则负责将输入语句整体视作翻译工作的基本单元。相比於单纯的 PBMT 模型,加入 GNMT 之后的新方法只需要中等规模的学习数据库,就可以达到此前系统的翻译准确度。
随后,研究团队陆续提出了一些改进方法,包括处理罕见词、让 GNMT 在更大型的数据库上工作等方面的技术,让机器翻译的速度和准确度得到大大提升。Google 于去年开源(Open Source)的人工智能算法库“TensorFlow”也为 GNMT 系统提供了足够的运算能力。
Google 通过人类评估者对维基百科和新闻网站上给定语句的翻译质量进行比较评分,发现 GNMT 系统比 PBMT 的翻译效果有极大提升:GNMT 在多个主要语言之间的翻译中,将翻译误差降低了至少55%到85%。
目前,Google 翻译的移动版和网页版已经使用 GNMT 系统进行中文到英文的机器翻译。在未来几个月,Google 会陆续将 GNMT 扩展到更多语言的翻译上。不过,研究团队已经发布了一些随机采样于新闻网站和书籍的对比示例,来显示 GMNT 系统的强大。Google 展示的一则新闻示例如下:
-
中文原文:李克强此行将启动中加总理年度对话机制,与加拿大总理杜鲁多举行两国总理首次年度对话。
-
PBMT 翻译:Li Keqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime Minister Trudeau two prime ministers held its first annual session.
-
GNMT 翻译:Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and hold the first annual dialogue between the two premiers.
Google Brain 团队表示,机器翻译并未得到完全解决,GNMT 系统仍然存在人类翻译不会犯的错误。但他们认为,GNMT 对电脑自动翻译领域而言,依然是一个重大的里程碑。