【编者按】《超级预测术》(Superforecasting)登上2015年亚马逊年度非虚构十大好书榜、《经济学人》年度好书榜、《金融时报》年度好书榜。
2016,这本书仍然炙手可热。恐怖袭击、极端天气、新兴科技……在充满不确定性的世界,所有人都想知道关于未来的蛛丝马迹。政府、专家、预测机构、未来事件交易市场......我们读过太多被现实击碎的数据、报告、趋势图。当专业成为一种壁垒,预测被人垄断,我们很少去想,自己平时靠什么作出判断。
这本书不会给你任何现成答案,也不是一本鼓吹预测之神的成功学。它告诉你,即使智商普通,也可以有效运用自己的大脑,判断事情,做出准备。这篇书评非常长,但它值得耐心读完。
(王烁,BetterRead创始人,财新传媒主编、财新网总编辑、《财新周刊》主编。端传媒获授权转载BetterRead的书评:BetterRead 2015最佳图书|成为超级预测者。分两篇刊出。标题为编辑所改。)
Superforecasting: The Art and Science of Prediction
出版时间:2015年9月
作者:Philip E. Tetlock, Dan Gardner
出版社:Crown/Archetype
世界是平的。历史终结了。有什么共同点?深邃,发人深省,总能自圆其说,但作为预测都是不及格的,或者说都不算是预测。
如果是预测,那么托马斯·弗里德曼和弗朗西斯·福山早就被证伪,没人听了,而不是像现在这样,无论在中国在美国,只要他们开口,总是有很多人在听。他们今天改口了:世界终将变平。历史应该终结。
不明确界定、无度量手段,准确与否难以检验,这不是预测,是故事。接受这种由深刻隐喻营造的故事,人们找到意义与方向,准不准确,你真的关心吗?
不过,预测这件事太重要,不能全交给故事。所有人的所有决策,不管意识到没有,都以预测为前提。
循证预测来了
循证(evidence based)预测,如同循证医学重塑医学,正在重塑预测这件事。
不循证的预测有两种典型:其一,“现在怎样将来就会怎样”;其二:“将来就是沿现在变化的斜率外推”。这两种预测法粗糙了点,但也不比前面的各种包装成专家预测,实则是故事的准确度差。
如果想了解活的循证预测,登录www.gjopen.com,参加一场开放、永不停止、包罗万象、精确打分的预测竞赛:Good Judgement Open,我译作“善断公开赛”。
“善断公开赛”的预测都是短期预测(不超过一年),共同点是界定精确。精确到什么地步呢?可以用来打赌,输的一方乖乖掏钱,没有借口可找。
“善断公开赛”不是赌场,预测输赢不关金钱,但采用的Brier计分系统(编按:这是评价频率预测准确度的一个指标,适用的一个前提是只关心某个事件是否发生0-1频度,而不关心事件发生的强度影响),与投注有相同的逻辑:
你预测下周末北京市出现雾霾爆表(AQI值500)的概率是90%,而对手方认为是10%,那就等于你选择以9:1的比例下注,如果你的对手方赢了,那么,假设他下注100块,就能从你这里赢走900块。你还敢乱说话吗?
Brier计分法一般分值在0在1之间,0意味着绝对准确,1意味着绝对错误,0.5则相当于随机乱蒙。
我在www.gjopen.com网站上发布了10个预测,目前的Brier分值是0.231。假设我能始终保持这个准确率,那么将接近所有参加者的最高水平。预测竞赛的第一年2001年,第五名的得分是0.22,一位超级预测者。
我有这么厉害吗?
没有。到目前为止,我的预测中只有一个产生了结果。问题是:“《超级预测术》(Superforecasting)这本书,在2015年10月底之前能不能上纽约时报畅销书榜?”
因为读过这本书,我毫不犹豫地选择“会”。我在2015年读过的书中,这本最值得一读,它也是BetterRead公号2015年度推荐的最佳书籍。我绝对相信它会很快登上《纽约时报》畅销书榜。如果错了,那也是《纽约时报》的错。
我赢了。
然后,到2015年底,大媒体纷纷发布年度好书榜,《超级预测术》登上了亚马逊年度非虚构十大好书榜、《经济学人》年度好书榜、《金融时报》年度好书榜。
诺贝尔经济学奖得主丹尼尔·卡尼曼说:“这本书讲述怎样让普通人在预测这个大事上战胜专家。在不确定世界上如何作清晰思考,它给出手册。”
高盛前董事长、美国前财长鲁宾写过回忆录《在不确定的世界上:从华尔街到华盛顿之路》,他说:“政策制定者或者普通人,只要想依据严格的思维过程作决策,这书都极为有用。”
“善断公开赛”、《超级预测术》,都衍生于美国著名政治学家菲利浦·泰特罗克(Philip Tetlock)领导下的大型预测研究项目:善断计划(Good Judgement Project)。
“善断计划”的资助者是IARPA(Intelligence Advanced Research Projects Activities),“情报高级研究项目”,组建于2006年,名称与著名的美国国防部DARPA相近,使命也与后者为军方提供颠覆性技术相似,区别在于服务的对象是美国情报界。
它合并了国家安全局颠覆性技术办公室、地理情报局全国技术协作组、中情局情报技术创新中心,直属国家情报总监,旨在跨机构为美国情报界提供革命性的新能力。
在IARPA的财务和技术支持下,Tetlock主持“善断计划”,从2011年9月到2015年6月,为期四年,总计两万多人登录“善断计划”网站。
他们就情报界抛出来的五百个国际问题持续作出预测,实时预测,实时检验。比如这样的问题:希腊会不会在2014年12月31日之前退出欧元区?
IARPA同时资助了五所精英大学的类似项目,并组织锦标赛,彼此竞争。Tetlock领导的“善断计划”一直赢,第一年赢了对比组60%,第二年赢了对比组70%。还赢了其他来自密西根大学和麻省理工的对手30%到70%不等。差距实在太大,第三年,IARPA干脆取消了锦标赛。
“善断计划”的预测准确率高得惊人。参与善断计划的人由网站招募而来,都是普通人,智商还可以,但不特殊,教育背景参差,也没有内幕信息。
但他们作出的预测战胜了情报机构内部的分析师——这些人不仅是出题人,而且还有不能公开的机密信息。
对学者而言,更惊人的是,“善断计划”还战胜了预测市场,即那些就各种真实事件下注的公开电子交易市场,如爱荷华电子交易市场(Iowa Electronic Market,http://tippie.uiowa.edu/iem)。
一般认为,预测准确是很难,但相对而言,用真金白银下注的真实市场对未来的预测最有效。善断计划对这个看法构成了极大冲击。
想想看:普通人能战胜市场这件事,会带来多大的冲击!
善断计划怎么做到的?
正确打开方式
把一头牛牵上集市的台子,让赶集农夫目测其体重;把一罐糖果放到桌上,让幼儿园小朋友估计有多少颗。谁估得最准?
多玩几次。每次肯定会有一个最准确的估计,只不过,每次做出最准确估计的不会是同一个人。类似试验做过无数次,结论早已经有了。
系统地看,所有估计的简单平均值胜过所有人的估计。几十个农夫目测牛的体重,几十位小朋友目测糖果的颗数,最靠谱的估计是求和再除以人数。
以一种简单的方式,平均值将所有人掌握的信息和作出的判断聚合起来,比单个人掌握的信息要完整,而形成的判断也更准确。这就是所谓群体的智慧。
群体的平均值是第一次聚合。这也是“善断计划”的起点。
用聚合来做预测,近年来在政治选举领域大热的内特·希弗(Nate Silver)也是此法。这个年轻人业余开发预测美职棒新人未来表现的系统,卖掉;玩扑克又赚了几十万美元;
然后做了个选举预测网站,2008年美国总统大选及国会选举一战成名,准确率超过所有民调,又卖给了《纽约时报》,然后出书《信号与噪音》(The Signal and the Noise: Why Most Predictions Fail but Some Don't)。
选举民调是对选民意见的聚合。Silver并不直接做预测,美国选举民调已经太多。Silver做这些民调的聚合,等于是选民群体的聚合的聚合:
用贝叶斯概率(Bayesian probability)(编按:一种对概率的解释,它将概率定义为某人对一个命题的信任程度),根据每个民调机构准确率的历史记录和动态表现,调整其在聚合中的权重。最后的结果既包含了对于每个民调机构的绩效评估,又聚合而成一个新预测。
这个预测有多准确?
2012年美国总统大选改选,Silver预测对了奥巴马战胜罗姆尼,这不稀奇。稀奇的是Silver还预测对了所有50个州两人的胜负结果。全中。
Tetlock坦承,虽然年轻几十岁,Silver的聚合预测是“善断计划”的智识来源之一:在聚合中给那些表现不同的预测者以不同的权重,效果胜过简单均值。
人以群分。“善断计划”启动于2011年,跨越四年,作不间断的预测实况演练。参加者在善断公开赛网站报名,就大量问题持续预测,接受严格检验。
每个预测都会用Brier计分法打分,并汇总成个人总分。在漫长的赛马中识别好马,以0.25分为界,有2%的人脱颖而出,攀到最优秀一级,即Tetlock所说的“超级预测者”。
这一步,Tetlock与Silver的做法相近,相当于将其应用到情报分析领域:根据预测准确率调整每个预测者在整体预测中的权重分配,并给予超级预测者更大权重。
由此产生的既是一个预测系统,又是一个预测者表现的评价系统。不出意料,它比预测的简单平均更为准确。
下一步则是Tetlock团队的创举,其实也很简单。
对加权平均后形成的预测结果,再做一道加工:极化(extremize)。
所谓极化,就是将预测结果往100%或者0的方向推。
举个例子,对美伊达成核协议可能性的预测,如果预测者加权平均后的回答是70%,那就把它上调到说85%;相反,如果预测值是30%,那就把它下调到15%。
极化基于一个简单的理由:假设群体中的每个人都获得了群体的全部信息,他们作预测时一定会更为自信。
从群体简单平均值到加权平均的过程,事实上已经聚合了所有人的信息,但没有完全反映出应该有的自信。极化就是要捕捉这个自信。
如果是乐观预测,极化会输出一个更乐观的预测;如果是悲观预测,极化会输出一个更悲观的预测。
就是这样简单:一群在网络上作预测的普通人,利用公开信息,借助相当简单的算法,以明显优势战胜了参与IARPA预测竞赛的所有对手。
还战胜了拥有保密情报的情报机构专业分析师,胜率高出多少这件事,本身得保密。这对那些终生研究情报的分析师,对整个美国情报界,都带来了巨大冲击。
加权平均—极化,这个做法有多强?
在两万多参与者中,只有一个人的Brier得分超过极化算法。
触类旁通:只要是存在大量预测者的领域,无论经济、政治、金融还是其他,都可以移植Tetlock的加权平均 + 极化算法,应用的空间极大。
超级战队
到目前为止,无论是简单平均,还是加权平均 + 极化,聚合的对象都是个体所作预测,基础是个体。
团队呢?要是超级预测者们组团呢?超级战队的预测力怎么样?
先上答案。
“善断计划”发现,如果参加者第一年成为超级预测者,第二年编入超级预测者团队,他的准确率会上升50%,第三年还将再上升50%。
不光超级预测者,即使是普通人组队,其准确率也有明显提高。善断计划的第一年,Tetlock将所有人随机分配,一部分组队,一部分不组队,团队预测的准确率比个人预测的准确率平均高出23%。
这个结果不是自然而然就会发生的。团队协作可补个人能力短板,汇总信息,检验决策逻辑,但风险是形成观念和行为的正反馈,不断强化,形成群体极化:
团队高度一致,认同于幻像,拒斥批判思维,也拒绝现实检验。这就是艾温·詹尼斯(Irving Janis)命名的“趋同思维(goupthink)”。对这种事,我们中国人也一点也不陌生。
所以,在组队的时候,“善断计划”会对预测者作简单培训:提示趋同思维的风险,了解这种风险是避免的第一步。共识并不总是好的,分歧并不总是坏的。
不要仅仅因为你同意某个观点就认为它是对的。不要停止反思。尖锐问题对团队就好比维生素对身体一样重要。等等。
当然,过度趋同不行,分歧失控也会使团队崩断。“善断计划”推英特尔创始人格鲁夫提出的“建设性对抗”,就事论事,提出精确问题。
如果不同意队友的看法,你既不要第一反应说“你真傻”,这只会引发争吵;也不要说“我不这样看”,不同意本身没有为讨论注入增量。正确的反应是:“你有什么依据?”然后步步聚焦,将讨论导向可检验的地带,汇总信息,聚合判断。
普通人组队的预测,准确率超过善断计划所有参加者个体的均值10%。前面提到的网上预测市场,如爱荷华电子交易市场,确实如经济学家们说的那样:
预测能力强大,其准确率又超过普通预测者团队10%。但最强的是超级预测者战队:他们战胜经济学家们一般认为不可战胜的预测市场15%到30%。
总的来说,团队胜过个体,而超级预测者团队战胜所有对手。更细地分解则是这样:超级预测者团队 > 预测市场 > 普通预测者团队 > 群体均值 > 个体。
(未完待续,见下篇:《谁是超级预测者》)
读者评论 0