日報

藉着演算法,機器也能「以貌取書」了

刊登於 2016-11-10

機器學習已經能自動判別書本封面來分類。圖為一家印刷廠正在印刷小說。
日本九州大學兩位研究者近日發表研究報告,證明了藉由機器對書本封面設計進行自動識別,再給出書籍內容分類,準確度達21.9%。

雖然英文有句諺語——Don’t judge a book by its cover,勸人不可以貌取人。但事實上,書本封面確實提供了許多資訊,除了能吸引人閱讀及購買外,它也揭露書中內容、開啟書本與讀者的對話。

日本九州大學兩位研究者就從事了一項研究,希望了解機器是否能跟人類一樣從書本封面獲取有用資訊;他們嘗試藉由深度學習(deep learning)系統,從封面來預測、判斷書籍的類別,並在近日發表了題為《Judging a Book by its Cover》的研究報告

機器學習提供了使用大量設計資源及歷史的能力,藉由消弭設計與機器學習之間的落差,我們希望使用巨型數據集了解視覺設計的秘密。

《Judging a Book by its Cover》研究報告

現今藉由深度學習系統進行人臉識別(Face Recognition)的技術已經廣泛應用於數碼相機、智能手機、門禁系統、監控系統和網絡認證等領域。

負責此項研究的九州大學教授内田誠一(Seiichi Uchida)及博士生 Brian Kenji Iwana,則希望能藉類似技術,識別書籍封面設計下傳遞的資訊,進而提供自動的書籍類別建議、幫助宣傳及銷售,甚至反過來協助書籍封面設計過程,同時也能將此成果應用於電腦視覺領域中。

首先,他們從亞馬遜網站下載了137,788本書籍的封面,再根據亞馬遜網站的建議分類,將書籍劃入20個不同的類別;假如一本書可被歸入兩個或更多不同類別時,研究者則會將其劃入亞馬遜分類排列中的首選一個。接着,他們抽取數據集內的80%數據,用以訓練他們所使用的深度神經網絡(deep neural network),此神經網絡有四層,每一層有512個神經元;至於剩下的20%數據,則用作驗證模型及測試。

深度神經網絡

深度神經網絡是深度學習系統的學習框架之一。深度學習系統則是機器學習拉出的分支,它試圖使用包含複雜結構或由多重非線性變換構成的多個處理層,對資料進行高層抽象的演算法。而深度神經網路則是一種具備至少一個隱層的神經網路。(資料來自維基百科,百科內容以 CC BY-SA 3.0 授權)

接下來,就由演算法「做功課」。在眾多書籍當中,演算法會逐一辨識其封面,再為每本書籍排列出20個分類。研究者就以演算法所給出的排列,與驗證模型進行比對,再查看演算法給出「準確」辨識的比率。

研究結果顯示,演算法辨識的答案能配對驗證模型的第一、二及三名排列的機率,分別為21.9%、32.1%與40.2%,比起隨機選擇的正確率分別高出4.38、3.21及2.68倍。這證明了,藉由機器自動識別,針對書本封面設計進行分類是可能的,雖然並不容易。

内田教授和 Brian Iwana 指出,分類任務的困難之處在於書籍有各式各樣的封面及樣式,其中有些毫無特色,甚至有誤導性,還有許多封面圖片的特徵十分模糊,導致許多預測結果並不準確。

此外,也因為書籍類型沒有明確定義,使得大量書籍難以歸類;而也有書籍同屬不同類型,因而使得機器選出最正確類別的結果並不佳。

研究結果也指出,有些種類相較於其他種類更容易被辨別,例如「旅遊」和「電腦及科技」,因為書本設計者普遍地為這些類別使用相似的圖片以及設計;相較之下,「傳記及回憶錄」、「政治及社會科學」等類別就比較困難辦識。此外,也有些類別容易被搞混,例如「兒童圖書」和「漫畫書及圖畫小說」,以及「醫學」和「科學及數學」也不容易分辨。

對此研究,MIT 科技評論則指出,其缺點在於它並沒有比較神經網絡與人類在從封面辨識書本種類的能力,因此並不曉得兩者的差異。但評論認為,此演算法能幫助設計者增進其封面設計技能,甚至能讓機器在無需人力操控或協助之下,自行針對內容類別去設計書籍封面。

來源:MIT 科技評論Digital Trendsarxiv.org

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。

延伸閱讀