作為人工智能算法領域的領先者,Google 已經在其搜尋服務、電子郵件、即時通訊等多個產品中成功應用這一技術,近日又將其帶入機器翻譯領域。9月27日,Google 宣布推出 GNMT 系統(Google Neural Machine Translation,神經型機器翻譯),採用先進的神經網絡(Neural Network)訓練模型,實現到目前為止最高質量的機器翻譯。Google 已於26日發布了 GNMT 系統的技術細節論文。
長久以來,電腦程式自動生成的機器翻譯,一般都採用基於短語的 PBMT(Phrase-Based Machine Translation)模型,其翻譯結果好壞往往取決於譯入及譯出語言之間的詞彙、文法、語系甚至文化差異有多大,例如德文對英文的機器翻譯結果,通常比中文對英文的翻譯結果好得多。
近日在中文媒體廣為流傳的一張照片,再次凸顯了中英文自動翻譯的尷尬:廣州「一帶一路」自貿區論壇會場,「簽到處」的英文翻譯居然是“Sign Everywhere”(到處簽)——正是改進之前的 Google 翻譯所輸出的結果。而採用 GNMT 系統之後,Google 翻譯已自動將其修改為“Check-in”。
十年前,我們發布了 Google 翻譯,這項服務背後的核心算法是基於短語的 PBMT 模型。自那時起,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯一直是個高難度的目標。
參與這一計劃的 Google Brain 團隊介紹稱,他們在數年前便開始使用遞歸神經網絡模型(Recurrent Neural Networks,RNNs),來直接「學習」某種語言的一句話到另一種語言的同一句話的映射(Mapping)。其中,PBMT 被用來將輸入語句分解成詞彙和短語,並對它們進行獨立翻譯,而 GNMT 則負責將輸入語句整體視作翻譯工作的基本單元。相比於單純的 PBMT 模型,加入 GNMT 之後的新方法只需要中等規模的學習數據庫,就可以達到此前系統的翻譯準確度。
隨後,研究團隊陸續提出了一些改進方法,包括處理罕見詞、讓 GNMT 在更大型的數據庫上工作等方面的技術,讓機器翻譯的速度和準確度得到大大提升。Google 於去年開源(Open Source)的人工智能算法庫“TensorFlow”也為 GNMT 系統提供了足夠的運算能力。
Google 通過人類評估者對維基百科和新聞網站上給定語句的翻譯質量進行比較評分,發現 GNMT 系統比 PBMT 的翻譯效果有極大提升:GNMT 在多個主要語言之間的翻譯中,將翻譯誤差降低了至少55%到85%。
目前,Google 翻譯的移動版和網頁版已經使用 GNMT 系統進行中文到英文的機器翻譯。在未來幾個月,Google 會陸續將 GNMT 擴展到更多語言的翻譯上。不過,研究團隊已經發布了一些隨機採樣於新聞網站和書籍的對比示例,來顯示 GMNT 系統的強大。Google 展示的一則新聞示例如下:
-
中文原文:李克強此行將啟動中加總理年度對話機制,與加拿大總理杜魯多舉行兩國總理首次年度對話。
-
PBMT 翻譯:Li Keqiang premier added this line to start the annual dialogue mechanism with the Canadian Prime Minister Trudeau two prime ministers held its first annual session.
-
GNMT 翻譯:Li Keqiang will start the annual dialogue mechanism with Prime Minister Trudeau of Canada and hold the first annual dialogue between the two premiers.
Google Brain 團隊表示,機器翻譯並未得到完全解決,GNMT 系統仍然存在人類翻譯不會犯的錯誤。但他們認為,GNMT 對電腦自動翻譯領域而言,依然是一個重大的里程碑。