由劍橋生化博士到初創企業家,她要用AI推翻科學知識的高牆

「我希望人工智能和網絡可以協助更多人發現和學習到最新的科學知識,正如你可以去YouTube找尋怎樣修理你的咖啡機一樣。」
出生於香港、畢業於劍橋的80後教授陳斯宇(Vivian)創辦了運用AI系統來搜索論文的平台Sparrho。
香港

一位數學博士苦苦研究一個數學難題,不斷翻看數學領域的論文,一年過去了,仍然沒有推進。一天,這位博士生在酒吧和一個物理學研究人員聊天,才發現這個數學難題,原來在物理學領域早已解決。

「我就發覺,其實好多創新可以發展得更加快。」出生於香港、畢業於劍橋的80後教授陳斯宇(Vivian)對端傳媒說,那名數學博士正是她的朋友。陳斯宇發現,普通人總是感覺難以接近科學知識,不過其實,即使對於研究人員來說,要準確找到自己所需的論文,也一點不容易。

目前,無論是Google Scholar還是專業論文數據庫,搜索方法都仍然停留在用關鍵詞搜索。在陳斯宇看來,這個方法過於機械。為了打破知識壁壘,讓論文更容易搜索,2013年,研究生物化學的陳斯宇勇敢跳入科創界,創立了免費論文搜索平台Sparrho。Sparrho運用了人工智能(AI)系統,讓那些屬於不同專業領域、但互有關聯的論文連結起來,用戶在Sparrho輸入一個專業關鍵詞後,會得到人性化的建議。

運營五年後,Sparrho的AI系統每天可以自行處理5萬份論文,將論文標注、分類,把有關聯的論文連結起來,方便用戶搜索。在Sparrho平台上,目前可以搜尋到超過6000萬篇學術論文,當中部分連結到收費的論文數據庫,部分是全文免費閲讀的開放資料。在全球範圍內,使用這個免費論文搜索平台的人,是來自2000多所大學的博士研究生。

「把Steve 數碼化吧!」

陳斯宇生於香港,小時候移民澳洲,2008年獲得獎學金,進入劍橋大學攻讀博士學位,專業為生物化學,不過她發現,自己的研究需要運用生物物理學的知識。對於生物物理學,她自感陌生,只好開始自學,但生物物理學的論文仍然讓她感覺閱讀困難,也不懂怎麼找准關鍵詞去搜索。

「在全球其中一家頂尖大學讀書,論文依然那麼難才可以找到和理解。」陳斯宇開始感覺,Google和收費的專業論文數據庫,並不能滿足科研人員的需求。

對研究人員來說,閱讀最新發布的相關論文非常重要。讀博士的時候,陳斯宇就和博士研究團隊組成了一個分享論文小組,每星期定時聚會,分享與大家研究相關的論文,其中最厲害的論文搜索高手就是Steve。Steve不是在網絡上用關鍵詞去找論文,而是每日早上喝茶吃早餐的時候,翻閱5-10本不同領域的頂尖科學期刊,尋找最新研究,把對研究團隊有幫助的論文推薦給大家。

除了打破不同學科之間的高牆,Sparrho還希望能夠推進科學知識的普及化,讓在不發達地區的博士生享受發達地區的科研資源。
除了打破不同學科之間的高牆,Sparrho還希望能夠推進科學知識的普及化,讓在不發達地區的博士生享受發達地區的科研資源。

陳斯宇說,Steve最厲害的是打破了不同專業的限制,實現了跨專業。例如當時她的研究遇到困難時,「Steve就會跟我說:『你上個星期遇到的問題還沒解決掉,你看看這個研究團隊怎樣解決, 雖然他們是用另一個蛋白質的。』有經驗的Steve就可以製造這個聯繫,但我只會用關鍵字去找,結果仍是找不到關於另一個蛋白質的論文。」

2013年,陳斯宇認識了在牛津大學研究人工智能的聯合創辦人Niluka Satharasinghe,她跟Niluka講述了Steve的故事,Niluka興奮地說了一句:「把Steve數碼化吧!」兩人一拍即合,決定一起創辦結合人工智能系統的論文平台——Sparrho。

人工智能背後的人

最開始,Sparrho並不聰明。

陳斯宇和合夥人聘用了數位像Steve一樣的研究人員,大量閱讀論文,將論文進行分類和標注,再把互有關聯的論文連結起來,最後,就不斷把這些經過處理的科研成果「餵給」AI系統進行學習。

不久之後,AI系統開始自動運作,Sparrho越來越聰明。只要用戶輸入一個關鍵詞,它就可以提供一些「更加人性化」的建議,與普通搜索引擎相比,它更擅長把不同學科的知識連結起來,慢慢吸引了不少博士生和研究人員來使用。

陳斯宇和Niluka鼓勵這些使用者在閱讀論文的同時,投入Sparrho的開發。具體來說,Sparrho的工作人員會允許經核實身份的博士生或研究人員用戶,把自己認為互有關聯的論文連結起來——這些工作將不斷優化Sparrho的AI系統,讓它更聰明,更人性化。

除了打破不同學科之間的高牆,Sparrho還希望能夠推進科學知識的普及化。它鼓勵經核實身份的用戶,針對自己認為重要的論文,撰寫大約200字的簡介,刊登在網站的「公布欄」(Pinboard)上,這些簡介把原本複雜的理論簡化,化為普通人也能讀懂的語言。

「我們要確保那些簡介是有水準的,有時有些博士生寫的東西是很厲害,但有些可能會寫得十分差勁,我們就要去處理這個差距。」陳斯宇說,現時網頁上已經有超過9萬個公布欄,而每個月更有數千個公布欄發布;Sparrho會每月精選一些寫得非常好的「公布欄」,主動聯絡撰寫的博士生,確保當中的學術水平後,會在網站首頁表揚這些「公布欄」,並未對這些博士生提供一定資金資助。

在陳斯宇看來,「公布欄」最重要的意義就是把知識平面化。「頂尖大學的學生有很多資源,但在非洲的博士生所屬的大學未必會有那麼多資源(擁有收費的數據庫),大家之間的起點就已經不公平。」陳斯宇說,透過「公布欄」,在哈佛的博士生可以利用自己的資源,整理出「公布欄」,讓發展中國家的博士生清晰了解在某一研究領域,哪些論文是必須讀,從而降低收費牆所造成的阻隔。

陳斯宇最盼望的是,Sparrho的AI系統有一天也能夠學習撰寫「公布欄」,為論文寫通俗化的摘要,更大規模、更快速地普及科研知識,不過今天,Sparrho還沒有如此聰明。

Sparrho的人工智能系統依賴一個個的專業人士去搭建,去改善,陳斯宇說,她也希望Sparrho能反過來幫助這些專業人士,其中之一就是,給每一個博士生一個更多人認識自己的機會。

目前,能否在頂尖論文雜誌發表研究,直接影響一個博士研究生的今後發展。陳斯宇指出,其實不少研究者都沒有那麼幸運,可以在頂尖論文雜誌發表研究,而無法發表論文的原因,並不一定是因爲他們能力不足,也有可能是因為資源和科研器材的限制,又或者是指導教授等一些外在因素的影響。

Sparrho的「公布欄」除了分享論文簡介,也給每一個博士生介紹自己和自己研究領域的機會,而各個大學和不同企業亦可以透過閲讀這些「公布欄」,更容易找到自己需要的專業人才。

陳斯宇希望Sparrho將來可以培養新一代的小朋友更便捷地接觸真正的科學,同時把科學普及到阿婆都看得懂。
陳斯宇希望Sparrho將來可以培養新一代的小朋友更便捷地接觸真正的科學,同時把科學普及到阿婆都看得懂。

未來,連阿婆都看得懂科研論文

除了擔任Sparrho的CEO,陳斯宇目前也是英國政府中的數碼經濟顧問小組的成員之一,還積極參與推廣女性投身商界的活動。問及在創業經歷中,是否因女性身份而困難重重?陳斯宇連連搖頭。

「可能反而因為這個特別的身份,令自己有更多機會。」她笑著說。不過她強調,最終真正得到別人注意的並不是因爲自己是少數的女性創業家,而是自己的構想真的擁有吸引力,可以吸引投資者以及用戶的注意。

目前,Sparrho的總部設於倫敦,不過陳斯宇表示最近經常回到出生地香港,因爲不少亞洲地區的公司和投資者都對Sparrho感興趣,不過具體的發展計畫,則還在協商中。

對於科學普及和分享的未來,陳斯宇野心勃勃。「我希望人工智能和網絡可以協助更多人發現和學習到最新的科學知識,正如你可以去YouTube找尋怎樣修理你的咖啡機一樣。」

一方面,陳斯宇希望Sparrho將來可以培養新一代的小朋友,讓他們從小就快捷地接觸專業的科學研究,接觸真正的科學。而另一方面,她也希望,Sparrho有一天可以把科學普及到「連阿婆都可以看懂科學專業論文」。作爲初創企業的CEO,陳斯宇說,距離目標,自己還有很長的路要走。

編輯推薦

讀者評論 6

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 很遺憾看到越來越多把AI當潮衣來穿的案例,整篇報導看下來,更多的是人工的部份而非AI的部份,就創新性而言,一如之前所言,與Google差異不大。試問有多少人單獨用這套系統而不用Google?「Sparrho的AI系統有一天也能夠學習撰寫「公布欄」,為論文寫通俗化的摘要,更大規模、更快速地普及科研知識」遺憾的是,這種可能性在未來是不存在的!至於阿婆看科學專業論文的需求有多高,也是一個值得思考的問題!

  2. 前面的評論寫得很好 很簡單測試方式 可以來判斷他做的東西的價值 他的數學博士朋友是否能不需要遇到物理學家 就能找到 那個在物理學界已經被解決的問題。 從標籤的作法來看 我認為不可能。 數學和理論物理甚至其他領域共同之處在於精神 而不在文字, 如果一個系統無法了解論文中的精神 妄想用文字去 比對 跨領域論文間的關係, 那麼雖然可能還是有一些用處, 但是 就如同前面的評論所說的 這樣跟Google差別不大

  3. 同意ricecat,她做的一切其实google scholar很早之前就在做了。ai也只是新瓶装旧酒,靠着最近的深度学习再提高一下曝光率。所谓ai,所谓剑桥生化博士都只是收割利益的噱头。真正推翻知识高墙的人是scihub不是她。

  4. 想法很好,不过如果就是靠找苦力打标签来训练的话,不可能跟谷歌抢这单生意的,因为这套方法论就是谷歌搞出来的。况且Steve这样的苦力也不好找。
    另外许多人可能不了解机器学习的这套方法论,每天只是听媒体吹嘘神经网络、深度学习有多么牛逼。我简单从产业角度解释一下,就是招一大帮兼价普工对着电脑打标签,听着好像还挺轻松,但如果我告诉你要满足真正的需求,比如要每月至少标定12万张图,而每张图也要耗费不少精力的时候,这件事情就没有想象中那么美好了。
    那么谷歌是怎么解决这类问题的?很简单,当你每天在使用谷歌产品的时候就是同时在帮他们做标定,谷歌不仅提供优秀的产品,同时产品本身也是一场伟大的众包活动,所以他们才会发展出这套方法论,这简直是为他们量身定做的,我很难想象在同样的方法下会有任何人能跟Google Scholar竞争。
    不过技术归技术,谷歌经常砍掉自己的产品,所以未来也不好说。

  5. 很有意義!

  6. 人文社科界有沒有類似Sparrho的存在?