由剑桥生化博士到初创企业家,她要用AI推翻科学知识的高墙

“我希望人工智能和网络可以协助更多人发现和学习到最新的科学知识,正如你可以去YouTube找寻怎样修理你的咖啡机一样。”
出生于香港、毕业于剑桥的80后教授陈斯宇(Vivian)创办了运用AI系统来搜索论文的平台Sparrho。
香港

一位数学博士苦苦研究一个数学难题,不断翻看数学领域的论文,一年过去了,仍然没有推进。一天,这位博士生在酒吧和一个物理学研究人员聊天,才发现这个数学难题,原来在物理学领域早已解决。

“我就发觉,其实好多创新可以发展得更加快。”出生于香港、毕业于剑桥的80后教授陈斯宇(Vivian)对端传媒说,那名数学博士正是她的朋友。陈斯宇发现,普通人总是感觉难以接近科学知识,不过其实,即使对于研究人员来说,要准确找到自己所需的论文,也一点不容易。

目前,无论是Google Scholar还是专业论文数据库,搜索方法都仍然停留在用关键词搜索。在陈斯宇看来,这个方法过于机械。为了打破知识壁垒,让论文更容易搜索,2013年,研究生物化学的陈斯宇勇敢跳入科创界,创立了免费论文搜索平台Sparrho。Sparrho运用了人工智能(AI)系统,让那些属于不同专业领域、但互有关联的论文连结起来,用户在Sparrho输入一个专业关键词后,会得到人性化的建议。

运营五年后,Sparrho的AI系统每天可以自行处理5万份论文,将论文标注、分类,把有关联的论文连结起来,方便用户搜索。在Sparrho平台上,目前可以搜寻到超过6000万篇学术论文,当中部分连结到收费的论文数据库,部分是全文免费阅读的开放资料。在全球范围内,使用这个免费论文搜索平台的人,是来自2000多所大学的博士研究生。

“把Steve 数码化吧!”

陈斯宇生于香港,小时候移民澳大利亚,2008年获得奖学金,进入剑桥大学攻读博士学位,专业为生物化学,不过她发现,自己的研究需要运用生物物理学的知识。对于生物物理学,她自感陌生,只好开始自学,但生物物理学的论文仍然让她感觉阅读困难,也不懂怎么找准关键词去搜索。

“在全球其中一家顶尖大学读书,论文依然那么难才可以找到和理解。”陈斯宇开始感觉,Google和收费的专业论文数据库,并不能满足科研人员的需求。

对研究人员来说,阅读最新发布的相关论文非常重要。读博士的时候,陈斯宇就和博士研究团队组成了一个分享论文小组,每星期定时聚会,分享与大家研究相关的论文,其中最厉害的论文搜索高手就是Steve。Steve不是在网络上用关键词去找论文,而是每日早上喝茶吃早餐的时候,翻阅5-10本不同领域的顶尖科学期刊,寻找最新研究,把对研究团队有帮助的论文推荐给大家。

除了打破不同学科之间的高墙,Sparrho还希望能够推进科学知识的普及化,让在不发达地区的博士生享受发达地区的科研资源。
除了打破不同学科之间的高墙,Sparrho还希望能够推进科学知识的普及化,让在不发达地区的博士生享受发达地区的科研资源。

陈斯宇说,Steve最厉害的是打破了不同专业的限制,实现了跨专业。例如当时她的研究遇到困难时,“Steve就会跟我说:‘你上个星期遇到的问题还没解决掉,你看看这个研究团队怎样解决, 虽然他们是用另一个蛋白质的。’有经验的Steve就可以制造这个联系,但我只会用关键字去找,结果仍是找不到关于另一个蛋白质的论文。”

2013年,陈斯宇认识了在牛津大学研究人工智能的联合创办人Niluka Satharasinghe,她跟Niluka讲述了Steve的故事,Niluka兴奋地说了一句:“把Steve数码化吧!”两人一拍即合,决定一起创办结合人工智能系统的论文平台——Sparrho。

人工智能背后的人

最开始,Sparrho并不聪明。

陈斯宇和合伙人聘用了数位像Steve一样的研究人员,大量阅读论文,将论文进行分类和标注,再把互有关联的论文连结起来,最后,就不断把这些经过处理的科研成果“喂给”AI系统进行学习。

不久之后,AI系统开始自动运作,Sparrho越来越聪明。只要用户输入一个关键词,它就可以提供一些“更加人性化”的建议,与普通搜索引擎相比,它更擅长把不同学科的知识连结起来,慢慢吸引了不少博士生和研究人员来使用。

陈斯宇和Niluka鼓励这些使用者在阅读论文的同时,投入Sparrho的开发。具体来说,Sparrho的工作人员会允许经核实身份的博士生或研究人员用户,把自己认为互有关联的论文连结起来——这些工作将不断优化Sparrho的AI系统,让它更聪明,更人性化。

除了打破不同学科之间的高墙,Sparrho还希望能够推进科学知识的普及化。它鼓励经核实身份的用户,针对自己认为重要的论文,撰写大约200字的简介,刊登在网站的“公布栏”(Pinboard)上,这些简介把原本复杂的理论简化,化为普通人也能读懂的语言。

“我们要确保那些简介是有水准的,有时有些博士生写的东西是很厉害,但有些可能会写得十分差劲,我们就要去处理这个差距。”陈斯宇说,现时网页上已经有超过9万个公布栏,而每个月更有数千个公布栏发布;Sparrho会每月精选一些写得非常好的“公布栏”,主动联络撰写的博士生,确保当中的学术水平后,会在网站首页表扬这些“公布栏”,并未对这些博士生提供一定资金资助。

在陈斯宇看来,“公布栏”最重要的意义就是把知识平面化。“顶尖大学的学生有很多资源,但在非洲的博士生所属的大学未必会有那么多资源(拥有收费的数据库),大家之间的起点就已经不公平。”陈斯宇说,透过“公布栏”,在哈佛的博士生可以利用自己的资源,整理出“公布栏”,让发展中国家的博士生清晰了解在某一研究领域,哪些论文是必须读,从而降低收费墙所造成的阻隔。

陈斯宇最盼望的是,Sparrho的AI系统有一天也能够学习撰写“公布栏”,为论文写通俗化的摘要,更大规模、更快速地普及科研知识,不过今天,Sparrho还没有如此聪明。

Sparrho的人工智能系统依赖一个个的专业人士去搭建,去改善,陈斯宇说,她也希望Sparrho能反过来帮助这些专业人士,其中之一就是,给每一个博士生一个更多人认识自己的机会。

目前,能否在顶尖论文杂志发表研究,直接影响一个博士研究生的今后发展。陈斯宇指出,其实不少研究者都没有那么幸运,可以在顶尖论文杂志发表研究,而无法发表论文的原因,并不一定是因为他们能力不足,也有可能是因为资源和科研器材的限制,又或者是指导教授等一些外在因素的影响。

Sparrho的“公布栏”除了分享论文简介,也给每一个博士生介绍自己和自己研究领域的机会,而各个大学和不同企业亦可以透过阅读这些“公布栏”,更容易找到自己需要的专业人才。

陈斯宇希望Sparrho将来可以培养新一代的小朋友更便捷地接触真正的科学,同时把科学普及到阿婆都看得懂。
陈斯宇希望Sparrho将来可以培养新一代的小朋友更便捷地接触真正的科学,同时把科学普及到阿婆都看得懂。

未来,连阿婆都看得懂科研论文

除了担任Sparrho的CEO,陈斯宇目前也是英国政府中的数码经济顾问小组的成员之一,还积极参与推广女性投身商界的活动。问及在创业经历中,是否因女性身份而困难重重?陈斯宇连连摇头。

“可能反而因为这个特别的身份,令自己有更多机会。”她笑著说。不过她强调,最终真正得到别人注意的并不是因为自己是少数的女性创业家,而是自己的构想真的拥有吸引力,可以吸引投资者以及用户的注意。

目前,Sparrho的总部设於伦敦,不过陈斯宇表示最近经常回到出生地香港,因为不少亚洲地区的公司和投资者都对Sparrho感兴趣,不过具体的发展计划,则还在协商中。

对于科学普及和分享的未来,陈斯宇野心勃勃。“我希望人工智能和网络可以协助更多人发现和学习到最新的科学知识,正如你可以去YouTube找寻怎样修理你的咖啡机一样。”

一方面,陈斯宇希望Sparrho将来可以培养新一代的小朋友,让他们从小就快捷地接触专业的科学研究,接触真正的科学。而另一方面,她也希望,Sparrho有一天可以把科学普及到“连阿婆都可以看懂科学专业论文”。作为初创企业的CEO,陈斯宇说,距离目标,自己还有很长的路要走。

编辑推荐

读者评论 6

会员专属评论功能升级中,稍后上线。加入会员可阅读全站内容,享受更多会员福利。
  1. 很遺憾看到越來越多把AI當潮衣來穿的案例,整篇報導看下來,更多的是人工的部份而非AI的部份,就創新性而言,一如之前所言,與Google差異不大。試問有多少人單獨用這套系統而不用Google?「Sparrho的AI系統有一天也能夠學習撰寫「公布欄」,為論文寫通俗化的摘要,更大規模、更快速地普及科研知識」遺憾的是,這種可能性在未來是不存在的!至於阿婆看科學專業論文的需求有多高,也是一個值得思考的問題!

  2. 前面的評論寫得很好 很簡單測試方式 可以來判斷他做的東西的價值 他的數學博士朋友是否能不需要遇到物理學家 就能找到 那個在物理學界已經被解決的問題。 從標籤的作法來看 我認為不可能。 數學和理論物理甚至其他領域共同之處在於精神 而不在文字, 如果一個系統無法了解論文中的精神 妄想用文字去 比對 跨領域論文間的關係, 那麼雖然可能還是有一些用處, 但是 就如同前面的評論所說的 這樣跟Google差別不大

  3. 同意ricecat,她做的一切其实google scholar很早之前就在做了。ai也只是新瓶装旧酒,靠着最近的深度学习再提高一下曝光率。所谓ai,所谓剑桥生化博士都只是收割利益的噱头。真正推翻知识高墙的人是scihub不是她。

  4. 想法很好,不过如果就是靠找苦力打标签来训练的话,不可能跟谷歌抢这单生意的,因为这套方法论就是谷歌搞出来的。况且Steve这样的苦力也不好找。
    另外许多人可能不了解机器学习的这套方法论,每天只是听媒体吹嘘神经网络、深度学习有多么牛逼。我简单从产业角度解释一下,就是招一大帮兼价普工对着电脑打标签,听着好像还挺轻松,但如果我告诉你要满足真正的需求,比如要每月至少标定12万张图,而每张图也要耗费不少精力的时候,这件事情就没有想象中那么美好了。
    那么谷歌是怎么解决这类问题的?很简单,当你每天在使用谷歌产品的时候就是同时在帮他们做标定,谷歌不仅提供优秀的产品,同时产品本身也是一场伟大的众包活动,所以他们才会发展出这套方法论,这简直是为他们量身定做的,我很难想象在同样的方法下会有任何人能跟Google Scholar竞争。
    不过技术归技术,谷歌经常砍掉自己的产品,所以未来也不好说。

  5. 人文社科界有沒有類似Sparrho的存在?