日報

電腦自動翻譯讓你很尷尬?Google人工智能算法帶來顛覆性改變

刊登於 2016-09-29

Google 翻譯手機程式。
Google 宣布推出神經型機器翻譯系統,大幅提高翻譯質量。

作為人工智能算法領域的領先者,Google 已經在其搜尋服務、電子郵件、即時通訊等多個產品中成功應用這一技術,近日又將其帶入機器翻譯領域。9月27日,Google 宣布推出 GNMT 系統(Google Neural Machine Translation,神經型機器翻譯),採用先進的神經網絡(Neural Network)訓練模型,實現到目前為止最高質量的機器翻譯。Google 已於26日發布了 GNMT 系統的技術細節論文

長久以來,電腦程式自動生成的機器翻譯,一般都採用基於短語的 PBMT(Phrase-Based Machine Translation)模型,其翻譯結果好壞往往取決於譯入及譯出語言之間的詞彙、文法、語系甚至文化差異有多大,例如德文對英文的機器翻譯結果,通常比中文對英文的翻譯結果好得多。

近日在中文媒體廣為流傳的一張照片,再次凸顯了中英文自動翻譯的尷尬:廣州「一帶一路」自貿區論壇會場,「簽到處」的英文翻譯居然是“Sign Everywhere”(到處簽)——正是改進之前的 Google 翻譯所輸出的結果。而採用 GNMT 系統之後,Google 翻譯已自動將其修改為“Check-in”。

十年前,我們發布了 Google 翻譯,這項服務背後的核心算法是基於短語的 PBMT 模型。自那時起,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯一直是個高難度的目標。

參與開發 GNMT 的 Google Brain 團隊

參與這一計劃的 Google Brain 團隊介紹稱,他們在數年前便開始使用遞歸神經網絡模型(Recurrent Neural Networks,RNNs),來直接「學習」某種語言的一句話到另一種語言的同一句話的映射(Mapping)。其中,PBMT 被用來將輸入語句分解成詞彙和短語,並對它們進行獨立翻譯,而 GNMT 則負責將輸入語句整體視作翻譯工作的基本單元。相比於單純的 PBMT 模型,加入 GNMT 之後的新方法只需要中等規模的學習數據庫,就可以達到此前系統的翻譯準確度。

隨後,研究團隊陸續提出了一些改進方法,包括處理罕見詞、讓 GNMT 在更大型的數據庫上工作等方面的技術,讓機器翻譯的速度和準確度得到大大提升。Google 於去年開源(Open Source)的人工智能算法庫“TensorFlow”也為 GNMT 系統提供了足夠的運算能力。

Google 通過人類評估者對維基百科和新聞網站上給定語句的翻譯質量進行比較評分,發現 GNMT 系統比 PBMT 的翻譯效果有極大提升:GNMT 在多個主要語言之間的翻譯中,將翻譯誤差降低了至少55%到85%。

目前,Google 翻譯的移動版和網頁版已經使用 GNMT 系統進行中文到英文的機器翻譯。在未來幾個月,Google 會陸續將 GNMT 擴展到更多語言的翻譯上。不過,研究團隊已經發布了一些隨機採樣於新聞網站和書籍的對比示例,來顯示 GMNT 系統的強大。Google 展示的一則新聞示例如下:

  • 中文原文:李克強此行將啟動中加總理年度對話機制,與加拿大總理杜魯多舉行兩國總理首次年度對話。

  • PBMT 翻譯:Li Keqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime Minister Trudeau two prime ministers held its first annual session.

  • GNMT 翻譯:Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and hold the first annual dialogue between the two premiers.

Google Brain 團隊表示,機器翻譯並未得到完全解決,GNMT 系統仍然存在人類翻譯不會犯的錯誤。但他們認為,GNMT 對電腦自動翻譯領域而言,依然是一個重大的里程碑。

1800
Google 表示,其機器翻譯系統每天都接受到大約1800萬條中文到英文的翻譯請求。

聲音

機器學習對我而言,是為了讓人類能夠不用像機器那樣去做事。

Google 母公司 Alphabet 執行董事長 Eric Schmidt

翻譯 Google 這篇報告的中文編輯,大概是哭着寫完的吧。

中國網友

遞歸神經網絡

在機器學習和認知科學領域,神經網絡是一種模仿生物神經網絡(動物的中樞神經系統,特別是大腦)的結構和功能的數學模型或計算模型,用於對函數進行估計或近似。神經網絡由大量的人工神經元聯結進行計算。大多數情況下人工神經網絡能在外界信息的基礎上改變內部結構,是一種自適應系統。遞歸神經網絡(RNN)是兩種人工神經網絡的總稱。一種是時間遞歸神經網絡(recurrent neural network),另一種是結構遞歸神經網絡(recursive neural network)。時間遞歸神經網絡的神經元間連接構成有向圖,而結構遞歸神經網絡利用相似的神經網絡結構遞歸構造更為複雜的深度網絡。RNN一般指代時間遞歸神經網絡。(資料來自維基百科)

來源:GoogleScienceVentureBeat

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。

延伸閱讀