日報

MIT數據科學機:比人類更了解人類

刊登於 2015-10-20

美國麻省理工學院(MIT)的科研人員近日研究出一個新的算法,能代替人類迅速找到實際預測問題中最重要的數據,並極其準確地預測人類行為。攝:Carlo Allegri/REUTERS
美國麻省理工學院(MIT)的科研人員近日研究出一個新的算法,能代替人類迅速找到實際預測問題中最重要的數據,並極其準確地預測人類行為。

電腦是否會比人類更加「了解」人類,甚至能準確地預測人類行為?這一人工智能領域懸而未決的問題似乎有了答案——美國麻省理工學院(MIT)的科研人員近日提出了一個新的算法,能夠代替人類迅速找到實際預測問題中最重要的數據,並極其準確地預測人類行為。這一結果將於10月19日至21日在巴黎召開的 IEEE 數據科學及高級分析國際會議(International Conference on Data Science and Advanced Analytics)上作報告。

隨着互聯網的發展及數碼設備的普及,對海量數據的處理就顯得尤為重要,大數據(Big-data)分析如今在各個學科都變得非常熱門。不過,大數據中實用數據的篩選過程在一般情況下都需要藉助人類的直覺來完成,而直覺是人類思維中最難以複製的部分之一。

該論文的第一作者 Max Kanter 是 MIT 的一位碩士生,他和導師 Kalyan Veeramachaneni 一起進行的這項研究工作被命名為「數據科學機」(Data Science Machine)。數據科學機將能「代替」人類直覺,幫助人們減少篩選實用數據的時間,並像人類一樣執行數據分析,甚至比人做得更好。

我們將數據科學機視作對人類智力的補充。這世上有那麼多需要分析的數據,但大多都靜靜地躺在那裏。所以,我們應該想出對策來解決這個問題,至少要開始想這個問題。

論文第一作者 Max Kanter

為了測試數據科學機的能力,他們讓其參加了3項數據科學競賽。數據科學機比906支人類參賽隊伍中的615支表現更優秀,得到了更準確的預測結果。在其中兩場競賽中,數據科學機只用了12個小時便完成,而「愚蠢」的人類團隊卻需要幾個月的時間。

其中的一個比賽題目是基於學生在某個網絡課程上的交互數據,判斷某人是否會在10天內退課。在這個問題中需要考慮的因素有很多,人類參賽隊伍一般會選擇該學生「交作業的時間有多晚」、「是否查看課堂筆記」等因素作為輸入數據進行預測,但事實證明最重要的影響因素是該學生「在截止日多久前才開始寫作業」和「在課程網站花了多少時間」。數據科學機在這個題目上的表現比大部分人類團隊都優秀。

25
據 IBM 2013年發布的數據,全世界每天產生25億 GB 的數據。

聲音

從我們的經驗來看,要解決工程中的數據科學問題,有個非常重要的步驟叫做特徵工程。其中第一件事就是要確定從數據庫中提取哪些變量,為此你需要許多的想法。

Kanter 的導師 Kalyan Veeramachaneni

數據科學機是將前沿研究應用在實際問題中最難以置信的項目之一,它用一種新的視角來看待這些問題。我認為他們的方法將很快被奉為標準。

哈佛大學教授 Margo Seltzer

大數據

大數據(Big data 或 Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理並整理成為人類所能解讀的形式的資訊。在總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合併後進行分析可得出許多額外的資訊和數據關聯性,可用來察覺商業趨勢、判定研究質素、避免疾病擴散、打擊犯罪或測定即時交通路況等;這樣的用途正是大型數據集盛行的原因。(資料來自維基百科)

來源:QuartzMITcnBeta

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。

延伸閱讀