日报

电脑自动翻译让你很尴尬?Google人工智能算法带来颠覆性改变

刊登于 2016-09-29

Google 翻译手机程序。
Google 宣布推出神经型机器翻译系统,大幅提高翻译质量。

作为人工智能算法领域的领先者,Google 已经在其搜寻服务、电子邮件、即时通讯等多个产品中成功应用这一技术,近日又将其带入机器翻译领域。9月27日,Google 宣布推出 GNMT 系统(Google Neural Machine Translation,神经型机器翻译),采用先进的神经网络(Neural Network)训练模型,实现到目前为止最高质量的机器翻译。Google 已于26日发布了 GNMT 系统的技术细节论文

长久以来,电脑程序自动生成的机器翻译,一般都采用基于短语的 PBMT(Phrase-Based Machine Translation)模型,其翻译结果好坏往往取决于译入及译出语言之间的词汇、文法、语系甚至文化差异有多大,例如德文对英文的机器翻译结果,通常比中文对英文的翻译结果好得多。

近日在中文媒体广为流传的一张照片,再次凸显了中英文自动翻译的尴尬:广州“一带一路”自贸区论坛会场,“签到处”的英文翻译居然是“Sign Everywhere”(到处签)——正是改进之前的 Google 翻译所输出的结果。而采用 GNMT 系统之后,Google 翻译已自动将其修改为“Check-in”。

十年前,我们发布了 Google 翻译,这项服务背后的核心算法是基于短语的 PBMT 模型。自那时起,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译一直是个高难度的目标。

参与开发 GNMT 的 Google Brain 团队

参与这一计划的 Google Brain 团队介绍称,他们在数年前便开始使用递归神经网络模型(Recurrent Neural Networks,RNNs),来直接“学习”某种语言的一句话到另一种语言的同一句话的映射(Mapping)。其中,PBMT 被用来将输入语句分解成词汇和短语,并对它们进行独立翻译,而 GNMT 则负责将输入语句整体视作翻译工作的基本单元。相比於单纯的 PBMT 模型,加入 GNMT 之后的新方法只需要中等规模的学习数据库,就可以达到此前系统的翻译准确度。

随后,研究团队陆续提出了一些改进方法,包括处理罕见词、让 GNMT 在更大型的数据库上工作等方面的技术,让机器翻译的速度和准确度得到大大提升。Google 于去年开源(Open Source)的人工智能算法库“TensorFlow”也为 GNMT 系统提供了足够的运算能力。

Google 通过人类评估者对维基百科和新闻网站上给定语句的翻译质量进行比较评分,发现 GNMT 系统比 PBMT 的翻译效果有极大提升:GNMT 在多个主要语言之间的翻译中,将翻译误差降低了至少55%到85%。

目前,Google 翻译的移动版和网页版已经使用 GNMT 系统进行中文到英文的机器翻译。在未来几个月,Google 会陆续将 GNMT 扩展到更多语言的翻译上。不过,研究团队已经发布了一些随机采样于新闻网站和书籍的对比示例,来显示 GMNT 系统的强大。Google 展示的一则新闻示例如下:

  • 中文原文:李克强此行将启动中加总理年度对话机制,与加拿大总理杜鲁多举行两国总理首次年度对话。

  • PBMT 翻译:Li Keqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime Minister Trudeau two prime ministers held its first annual session.

  • GNMT 翻译:Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and hold the first annual dialogue between the two premiers.

Google Brain 团队表示,机器翻译并未得到完全解决,GNMT 系统仍然存在人类翻译不会犯的错误。但他们认为,GNMT 对电脑自动翻译领域而言,依然是一个重大的里程碑。

1800
Google 表示,其机器翻译系统每天都接受到大约1800万条中文到英文的翻译请求。

声音

机器学习对我而言,是为了让人类能够不用像机器那样去做事。

Google 母公司 Alphabet 执行董事长 Eric Schmidt

翻译 Google 这篇报告的中文编辑,大概是哭着写完的吧。

中国网友

递归神经网络

在机器学习和认知科学领域,神经网络是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。递归神经网络(RNN)是两种人工神经网络的总称。一种是时间递归神经网络(recurrent neural network),另一种是结构递归神经网络(recursive neural network)。时间递归神经网络的神经元间连接构成有向图,而结构递归神经网络利用相似的神经网络结构递归构造更为复杂的深度网络。RNN一般指代时间递归神经网络。(资料来自维基百科)

来源:GoogleScienceVentureBeat

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读