日报

MIT数据科学机:比人类更了解人类

刊登于 2015-10-20

美国麻省理工学院(MIT)的科研人员近日研究出一个新的算法,能代替人类迅速找到实际预测问题中最重要的数据,并极其准确地预测人类行为。摄:Carlo Allegri/REUTERS
美国麻省理工学院(MIT)的科研人员近日研究出一个新的算法,能代替人类迅速找到实际预测问题中最重要的数据,并极其准确地预测人类行为。

电脑是否会比人类更加“了解”人类,甚至能准确地预测人类行为?这一人工智能领域悬而未决的问题似乎有了答案——美国麻省理工学院(MIT)的科研人员近日提出了一个新的算法,能够代替人类迅速找到实际预测问题中最重要的数据,并极其准确地预测人类行为。这一结果将于10月19日至21日在巴黎召开的 IEEE 数据科学及高级分析国际会议(International Conference on Data Science and Advanced Analytics)上作报告。

随着互联网的发展及数码设备的普及,对海量数据的处理就显得尤为重要,大数据(Big-data)分析如今在各个学科都变得非常热门。不过,大数据中实用数据的筛选过程在一般情况下都需要借助人类的直觉来完成,而直觉是人类思维中最难以复制的部分之一。

该论文的第一作者 Max Kanter 是 MIT 的一位硕士生,他和导师 Kalyan Veeramachaneni 一起进行的这项研究工作被命名为“数据科学机”(Data Science Machine)。数据科学机将能“代替”人类直觉,帮助人们减少筛选实用数据的时间,并像人类一样执行数据分析,甚至比人做得更好。

我们将数据科学机视作对人类智力的补充。这世上有那么多需要分析的数据,但大多都静静地躺在那里。所以,我们应该想出对策来解决这个问题,至少要开始想这个问题。

论文第一作者 Max Kanter

为了测试数据科学机的能力,他们让其参加了3项数据科学竞赛。数据科学机比906支人类参赛队伍中的615支表现更优秀,得到了更准确的预测结果。在其中两场竞赛中,数据科学机只用了12个小时便完成,而“愚蠢”的人类团队却需要几个月的时间。

其中的一个比赛题目是基于学生在某个网络课程上的交互数据,判断某人是否会在10天内退课。在这个问题中需要考虑的因素有很多,人类参赛队伍一般会选择该学生“交作业的时间有多晚”、“是否查看课堂笔记”等因素作为输入数据进行预测,但事实证明最重要的影响因素是该学生“在截止日多久前才开始写作业”和“在课程网站花了多少时间”。数据科学机在这个题目上的表现比大部分人类团队都优秀。

25 亿
据 IBM 2013年发布的数据,全世界每天产生25亿 GB 的数据。

声音

从我们的经验来看,要解决工程中的数据科学问题,有个非常重要的步骤叫做特征工程。其中第一件事就是要确定从数据库中提取哪些变量,为此你需要许多的想法。

Kanter 的导师 Kalyan Veeramachaneni

数据科学机是将前沿研究应用在实际问题中最难以置信的项目之一,它用一种新的视角来看待这些问题。我认为他们的方法将很快被奉为标准。

哈佛大学教授 Margo Seltzer

大数据

大数据(Big data 或 Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法透过人工,在合理时间内达到撷取、管理、处理并整理成为人类所能解读的形式的资讯。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的资讯和数据关联性,可用来察觉商业趋势、判定研究质素、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。(资料来自维基百科)

来源:QuartzMITcnBeta

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读