日报

借着演算法,机器也能“以貌取书”了

刊登于 2016-11-10

机器学习已经能自动判别书本封面来分类。图为一家印刷厂正在印刷小说。
日本九州大学两位研究者近日发表研究报告,证明了借由机器对书本封面设计进行自动识别,再给出书籍内容分类,准确度达21.9%。

虽然英文有句谚语——Don’t judge a book by its cover,劝人不可以貌取人。但事实上,书本封面确实提供了许多资讯,除了能吸引人阅读及购买外,它也揭露书中内容、开启书本与读者的对话。

日本九州大学两位研究者就从事了一项研究,希望了解机器是否能跟人类一样从书本封面获取有用资讯;他们尝试借由深度学习(deep learning)系统,从封面来预测、判断书籍的类别,并在近日发表了题为《Judging a Book by its Cover》的研究报告

机器学习提供了使用大量设计资源及历史的能力,借由消弭设计与机器学习之间的落差,我们希望使用巨型数据集了解视觉设计的秘密。

《Judging a Book by its Cover》研究报告

现今借由深度学习系统进行人脸识别(Face Recognition)的技术已经广泛应用于数码相机、智能手机、门禁系统、监控系统和网络认证等领域。

负责此项研究的九州大学教授内田诚一(Seiichi Uchida)及博士生 Brian Kenji Iwana,则希望能藉类似技术,识别书籍封面设计下传递的资讯,进而提供自动的书籍类别建议、帮助宣传及销售,甚至反过来协助书籍封面设计过程,同时也能将此成果应用于电脑视觉领域中。

首先,他们从亚马逊网站下载了137,788本书籍的封面,再根据亚马逊网站的建议分类,将书籍划入20个不同的类别;假如一本书可被归入两个或更多不同类别时,研究者则会将其划入亚马逊分类排列中的首选一个。接着,他们抽取数据集内的80%数据,用以训练他们所使用的深度神经网络(deep neural network),此神经网络有四层,每一层有512个神经元;至于剩下的20%数据,则用作验证模型及测试。

深度神经网络

深度神经网络是深度学习系统的学习框架之一。深度学习系统则是机器学习拉出的分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层,对资料进行高层抽象的演算法。而深度神经网络则是一种具备至少一个隐层的神经网络。(资料来自维基百科,百科内容以 CC BY-SA 3.0 授权)

接下来,就由演算法“做功课”。在众多书籍当中,演算法会逐一辨识其封面,再为每本书籍排列出20个分类。研究者就以演算法所给出的排列,与验证模型进行比对,再查看演算法给出“准确”辨识的比率。

研究结果显示,演算法辨识的答案能配对验证模型的第一、二及三名排列的机率,分别为21.9%、32.1%与40.2%,比起随机选择的正确率分别高出4.38、3.21及2.68倍。这证明了,借由机器自动识别,针对书本封面设计进行分类是可能的,虽然并不容易。

内田教授和 Brian Iwana 指出,分类任务的困难之处在于书籍有各式各样的封面及样式,其中有些毫无特色,甚至有误导性,还有许多封面图片的特征十分模糊,导致许多预测结果并不准确。

此外,也因为书籍类型没有明确定义,使得大量书籍难以归类;而也有书籍同属不同类型,因而使得机器选出最正确类别的结果并不佳。

研究结果也指出,有些种类相较于其他种类更容易被辨别,例如“旅游”和“电脑及科技”,因为书本设计者普遍地为这些类别使用相似的图片以及设计;相较之下,“传记及回忆录”、“政治及社会科学”等类别就比较困难办识。此外,也有些类别容易被搞混,例如“儿童图书”和“漫画书及图画小说”,以及“医学”和“科学及数学”也不容易分辨。

对此研究,MIT 科技评论则指出,其缺点在于它并没有比较神经网络与人类在从封面辨识书本种类的能力,因此并不晓得两者的差异。但评论认为,此演算法能帮助设计者增进其封面设计技能,甚至能让机器在无需人力操控或协助之下,自行针对内容类别去设计书籍封面。

来源:MIT 科技评论Digital Trendsarxiv.org

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读