端聞

戰勝人類頂級圍棋手的 DeepMind,又橫掃了唇語專家


Google的DeepMind AI 在唇讀較量中戰勝人類專家。
Google 的 DeepMind AI 在唇讀較量中戰勝人類專家。攝:Carlo Allegri/Getty

儘管一般人在日常對話時,都會在潛意識裏通過對方嘴唇運動信息來幫助聽覺上的理解,但專業的唇讀(lip-reading)難度極高,一直以來也被認為是人類的獨門絕技。2006年的世界盃決賽場上,法國足球巨星施丹(Zinedine Zidane)一頭撞倒意大利後衛馬特拉斯(Marco Materazzi),令全世界觀眾目瞪口呆,也引來眾多唇語專家紛紛還原二人當時的對話——但這些解讀後來都被當事人否認,讓專家們顏面掃地。

10年後,唇語專家們不得不再次感到「羞愧」,因為他們的這項「絕技」已經被人工智能(AI)掌握甚至超越了,而這次的主角依然是此前戰勝人類頂級圍棋手的 Google 旗下 DeepMind 公司。

DeepMind 與英國牛津大學合作,利用熱門的機器學習(machine learning)技術開發出這個具有唇讀功能的 AI 系統,他們在一篇論文中詳述了算法原理。機器學習(Machine Learning)是近年來 AI 領域的主要研究方向之一,它是一類從大量數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。

這個 AI 系統總共「觀摩學習」了總長度近5000小時的 BBC 節目,包括從2010年到2015年間的 Newsnight、BBC Breakfast 和 Question Time 等,這些錄影資料總計有大約11.8萬句話。然後,研究團隊從2016年3月到9月間新播出的節目中隨機選取200個說話場景,讓 AI 與人類唇語專家進行對比測試,結果 AI 完勝:人類專家的準確率僅為12.4%,而 AI 的準確率達到46.8%。

這個 AI 系統可以通過説話者的脣形準確解讀出複雜的語句,比如“We know there will be hundreds of journalists here as well”(我們了解到還將有數百位記者會來)和“According to the latest figures from the Office of National Statistics”(根據國家統計署的最新數據)等等。而 AI 的誤讀中有很多都無關緊要,例如漏掉某些詞後面的“s”等。

這些結果顯示 AI 已經在唇讀領域全面超越人類,而且也不難想象它的應用前景。比如在未來,人們用 Skype 通話時如果環境聲音很嘈雜,或者用戶有聽覺障礙,他們都只需要看着手機就能『聽』到對方在講什麼。

MIT 科技評論

就在不久前,牛津大學、DeepMind 和加拿大高等研究院(CIFAR)聯合發布了另一篇論文,介紹他們基於一個較為簡單的語料庫 GRID 所開發出來的脣讀程式 LipNet。由於測試數據較簡單,LipNet 的準確度高達93.4%,但人類脣讀專家的成績只有79.6%;而聽覺受損但會讀脣的志願者只有52.3%的準確度,因此這一系統在未來對聽障人士將大有幫助。

與無人駕駛等受到投資者熱捧但也備受爭議的 AI 應用相比,通過唇語識別來幫助有聽力障礙的人士這類應用,似乎也應該受到一些關注。此外,與近期同樣熱門的語音識別相比,唇語識別在嘈雜的環境中更有優勢,但當然,它對環境光線也有一定要求。不過,如果你喉嚨不舒服(扁桃體腫了)但又不想打字,將來就可以使用 DeepMind 這個新系統,動動嘴唇來跟人交流。

如果你不相信施丹和馬特拉斯當中任何一個人的解釋(馬特拉斯對 ESPN 承認,他辱罵了施丹的姐姐),那不妨讓 DeepMind 告訴我們,他們兩人那一夜到底發生了什麼吧。

機器學習

Machine Learning,是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。機器學習已廣泛應用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機械人等領域。(資料來自維基百科,百科內容以 CC BY-SA 3.0 授權)

來源:ZDNet新科學家MIT科技評論


2017 年 7 月,端傳媒啟動了對深度內容付費的會員機制。在此之前刊發的深度原創報導,都會免費開放,歡迎轉發,也期待你付費支持我們

如果你喜歡,就分享給更多人吧