
電腦是否會比人類更加「了解」人類,甚至能準確地預測人類行為?這一人工智能領域懸而未決的問題似乎有了答案——美國麻省理工學院(MIT)的科研人員近日提出了一個新的算法,能夠代替人類迅速找到實際預測問題中最重要的數據,並極其準確地預測人類行為。這一結果將於10月19日至21日在巴黎召開的 IEEE 數據科學及高級分析國際會議(International Conference on Data Science and Advanced Analytics)上作報告。
隨着互聯網的發展及數碼設備的普及,對海量數據的處理就顯得尤為重要,大數據(Big-data)分析如今在各個學科都變得非常熱門。不過,大數據中實用數據的篩選過程在一般情況下都需要藉助人類的直覺來完成,而直覺是人類思維中最難以複製的部分之一。
該論文的第一作者 Max Kanter 是 MIT 的一位碩士生,他和導師 Kalyan Veeramachaneni 一起進行的這項研究工作被命名為「數據科學機」(Data Science Machine)。數據科學機將能「代替」人類直覺,幫助人們減少篩選實用數據的時間,並像人類一樣執行數據分析,甚至比人做得更好。
我們將數據科學機視作對人類智力的補充。這世上有那麼多需要分析的數據,但大多都靜靜地躺在那裏。所以,我們應該想出對策來解決這個問題,至少要開始想這個問題。
為了測試數據科學機的能力,他們讓其參加了3項數據科學競賽。數據科學機比906支人類參賽隊伍中的615支表現更優秀,得到了更準確的預測結果。在其中兩場競賽中,數據科學機只用了12個小時便完成,而「愚蠢」的人類團隊卻需要幾個月的時間。
其中的一個比賽題目是基於學生在某個網絡課程上的交互數據,判斷某人是否會在10天內退課。在這個問題中需要考慮的因素有很多,人類參賽隊伍一般會選擇該學生「交作業的時間有多晚」、「是否查看課堂筆記」等因素作為輸入數據進行預測,但事實證明最重要的影響因素是該學生「在截止日多久前才開始寫作業」和「在課程網站花了多少時間」。數據科學機在這個題目上的表現比大部分人類團隊都優秀。
聲音
從我們的經驗來看,要解決工程中的數據科學問題,有個非常重要的步驟叫做特徵工程。其中第一件事就是要確定從數據庫中提取哪些變量,為此你需要許多的想法。
數據科學機是將前沿研究應用在實際問題中最難以置信的項目之一,它用一種新的視角來看待這些問題。我認為他們的方法將很快被奉為標準。