【编者按】《超级预测术》（Superforecasting）登上2015年亚马逊年度非虚构十大好书榜、《经济学人》年度好书榜、《金融时报》年度好书榜。

2016，这本书仍然炙手可热。恐怖袭击、极端天气、新兴科技……在充满不确定性的世界，所有人都想知道关于未来的蛛丝马迹。政府、专家、预测机构、未来事件交易市场......我们读过太多被现实击碎的数据、报告、趋势图。当专业成为一种壁垒，预测被人垄断，我们很少去想，自己平时靠什么作出判断。

这本书不会给你任何现成答案，也不是一本鼓吹预测之神的成功学。它告诉你，即使智商普通，也可以有效运用自己的大脑，判断事情，做出准备。这篇书评非常长，但它值得耐心读完。

（王烁，BetterRead创始人，财新传媒主编、财新网总编辑、《财新周刊》主编。端传媒获授权转载BetterRead的书评：BetterRead 2015最佳图书｜成为超级预测者。分两篇刊出。标题为编辑所改。）

Superforecasting: The Art and Science of Prediction

出版时间：2015年9月

作者：Philip E. Tetlock, Dan Gardner

出版社：Crown/Archetype

世界是平的。历史终结了。有什么共同点？深邃，发人深省，总能自圆其说，但作为预测都是不及格的，或者说都不算是预测。

如果是预测，那么托马斯·弗里德曼和弗朗西斯·福山早就被证伪，没人听了，而不是像现在这样，无论在中国在美国，只要他们开口，总是有很多人在听。他们今天改口了：世界终将变平。历史应该终结。

不明确界定、无度量手段，准确与否难以检验，这不是预测，是故事。接受这种由深刻隐喻营造的故事，人们找到意义与方向，准不准确，你真的关心吗？

不过，预测这件事太重要，不能全交给故事。所有人的所有决策，不管意识到没有，都以预测为前提。

循证预测来了

循证（evidence based）预测，如同循证医学重塑医学，正在重塑预测这件事。

不循证的预测有两种典型：其一，“现在怎样将来就会怎样”；其二：“将来就是沿现在变化的斜率外推”。这两种预测法粗糙了点，但也不比前面的各种包装成专家预测，实则是故事的准确度差。

如果想了解活的循证预测，登录www.gjopen.com，参加一场开放、永不停止、包罗万象、精确打分的预测竞赛：Good Judgement Open，我译作“善断公开赛”。

“善断公开赛”的预测都是短期预测（不超过一年），共同点是界定精确。精确到什么地步呢？可以用来打赌，输的一方乖乖掏钱，没有借口可找。

“善断公开赛”不是赌场，预测输赢不关金钱，但采用的Brier计分系统（编按：这是评价频率预测准确度的一个指标，适用的一个前提是只关心某个事件是否发生0-1频度，而不关心事件发生的强度影响），与投注有相同的逻辑：

你预测下周末北京市出现雾霾爆表（AQI值500）的概率是90%，而对手方认为是10%，那就等于你选择以9:1的比例下注，如果你的对手方赢了，那么，假设他下注100块，就能从你这里赢走900块。你还敢乱说话吗？

Brier计分法一般分值在0在1之间，0意味着绝对准确，1意味着绝对错误，0.5则相当于随机乱蒙。

我在www.gjopen.com网站上发布了10个预测，目前的Brier分值是0.231。假设我能始终保持这个准确率，那么将接近所有参加者的最高水平。预测竞赛的第一年2001年，第五名的得分是0.22，一位超级预测者。

我有这么厉害吗？

没有。到目前为止，我的预测中只有一个产生了结果。问题是：“《超级预测术》（Superforecasting）这本书，在2015年10月底之前能不能上纽约时报畅销书榜？”

因为读过这本书，我毫不犹豫地选择“会”。我在2015年读过的书中，这本最值得一读，它也是BetterRead公号2015年度推荐的最佳书籍。我绝对相信它会很快登上《纽约时报》畅销书榜。如果错了，那也是《纽约时报》的错。

我赢了。

然后，到2015年底，大媒体纷纷发布年度好书榜，《超级预测术》登上了亚马逊年度非虚构十大好书榜、《经济学人》年度好书榜、《金融时报》年度好书榜。

诺贝尔经济学奖得主丹尼尔·卡尼曼说：“这本书讲述怎样让普通人在预测这个大事上战胜专家。在不确定世界上如何作清晰思考，它给出手册。”

高盛前董事长、美国前财长鲁宾写过回忆录《在不确定的世界上：从华尔街到华盛顿之路》，他说：“政策制定者或者普通人，只要想依据严格的思维过程作决策，这书都极为有用。”

“善断公开赛”、《超级预测术》，都衍生于美国著名政治学家菲利浦·泰特罗克（Philip Tetlock）领导下的大型预测研究项目：善断计划（Good Judgement Project）。

“善断计划”的资助者是IARPA（Intelligence Advanced Research Projects Activities)，“情报高级研究项目”，组建于2006年，名称与著名的美国国防部DARPA相近，使命也与后者为军方提供颠覆性技术相似，区别在于服务的对象是美国情报界。

它合并了国家安全局颠覆性技术办公室、地理情报局全国技术协作组、中情局情报技术创新中心，直属国家情报总监，旨在跨机构为美国情报界提供革命性的新能力。

在IARPA的财务和技术支持下，Tetlock主持“善断计划”，从2011年9月到2015年6月，为期四年，总计两万多人登录“善断计划”网站。

他们就情报界抛出来的五百个国际问题持续作出预测，实时预测，实时检验。比如这样的问题：希腊会不会在2014年12月31日之前退出欧元区？

IARPA同时资助了五所精英大学的类似项目，并组织锦标赛，彼此竞争。Tetlock领导的“善断计划”一直赢，第一年赢了对比组60%，第二年赢了对比组70%。还赢了其他来自密西根大学和麻省理工的对手30%到70%不等。差距实在太大，第三年，IARPA干脆取消了锦标赛。

“善断计划”的预测准确率高得惊人。参与善断计划的人由网站招募而来，都是普通人，智商还可以，但不特殊，教育背景参差，也没有内幕信息。

但他们作出的预测战胜了情报机构内部的分析师——这些人不仅是出题人，而且还有不能公开的机密信息。

对学者而言，更惊人的是，“善断计划”还战胜了预测市场，即那些就各种真实事件下注的公开电子交易市场，如爱荷华电子交易市场（Iowa Electronic Market，http://tippie.uiowa.edu/iem）。

一般认为，预测准确是很难，但相对而言，用真金白银下注的真实市场对未来的预测最有效。善断计划对这个看法构成了极大冲击。

想想看：普通人能战胜市场这件事，会带来多大的冲击！

善断计划怎么做到的？

正确打开方式

把一头牛牵上集市的台子，让赶集农夫目测其体重；把一罐糖果放到桌上，让幼儿园小朋友估计有多少颗。谁估得最准？

多玩几次。每次肯定会有一个最准确的估计，只不过，每次做出最准确估计的不会是同一个人。类似试验做过无数次，结论早已经有了。

系统地看，所有估计的简单平均值胜过所有人的估计。几十个农夫目测牛的体重，几十位小朋友目测糖果的颗数，最靠谱的估计是求和再除以人数。

以一种简单的方式，平均值将所有人掌握的信息和作出的判断聚合起来，比单个人掌握的信息要完整，而形成的判断也更准确。这就是所谓群体的智慧。

群体的平均值是第一次聚合。这也是“善断计划”的起点。

用聚合来做预测，近年来在政治选举领域大热的内特·希弗（Nate Silver）也是此法。这个年轻人业余开发预测美职棒新人未来表现的系统，卖掉；玩扑克又赚了几十万美元；

然后做了个选举预测网站，2008年美国总统大选及国会选举一战成名，准确率超过所有民调，又卖给了《纽约时报》，然后出书《信号与噪音》（The Signal and the Noise: Why Most Predictions Fail but Some Don't）。
选举民调是对选民意见的聚合。Silver并不直接做预测，美国选举民调已经太多。Silver做这些民调的聚合，等于是选民群体的聚合的聚合：

用贝叶斯概率（Bayesian probability）（编按：一种对概率的解释，它将概率定义为某人对一个命题的信任程度），根据每个民调机构准确率的历史记录和动态表现，调整其在聚合中的权重。最后的结果既包含了对于每个民调机构的绩效评估，又聚合而成一个新预测。

这个预测有多准确？

2012年美国总统大选改选，Silver预测对了奥巴马战胜罗姆尼，这不稀奇。稀奇的是Silver还预测对了所有50个州两人的胜负结果。全中。

Tetlock坦承，虽然年轻几十岁，Silver的聚合预测是“善断计划”的智识来源之一：在聚合中给那些表现不同的预测者以不同的权重，效果胜过简单均值。

人以群分。“善断计划”启动于2011年，跨越四年，作不间断的预测实况演练。参加者在善断公开赛网站报名，就大量问题持续预测，接受严格检验。

每个预测都会用Brier计分法打分，并汇总成个人总分。在漫长的赛马中识别好马，以0.25分为界，有2%的人脱颖而出，攀到最优秀一级，即Tetlock所说的“超级预测者”。

这一步，Tetlock与Silver的做法相近，相当于将其应用到情报分析领域：根据预测准确率调整每个预测者在整体预测中的权重分配，并给予超级预测者更大权重。
由此产生的既是一个预测系统，又是一个预测者表现的评价系统。不出意料，它比预测的简单平均更为准确。

下一步则是Tetlock团队的创举，其实也很简单。

对加权平均后形成的预测结果，再做一道加工：极化（extremize）。

所谓极化，就是将预测结果往100%或者0的方向推。

举个例子，对美伊达成核协议可能性的预测，如果预测者加权平均后的回答是70%，那就把它上调到说85%；相反，如果预测值是30%，那就把它下调到15%。

极化基于一个简单的理由：假设群体中的每个人都获得了群体的全部信息，他们作预测时一定会更为自信。

从群体简单平均值到加权平均的过程，事实上已经聚合了所有人的信息，但没有完全反映出应该有的自信。极化就是要捕捉这个自信。

如果是乐观预测，极化会输出一个更乐观的预测；如果是悲观预测，极化会输出一个更悲观的预测。

就是这样简单：一群在网络上作预测的普通人，利用公开信息，借助相当简单的算法，以明显优势战胜了参与IARPA预测竞赛的所有对手。

还战胜了拥有保密情报的情报机构专业分析师，胜率高出多少这件事，本身得保密。这对那些终生研究情报的分析师，对整个美国情报界，都带来了巨大冲击。

加权平均—极化，这个做法有多强？

在两万多参与者中，只有一个人的Brier得分超过极化算法。

触类旁通：只要是存在大量预测者的领域，无论经济、政治、金融还是其他，都可以移植Tetlock的加权平均 + 极化算法，应用的空间极大。

超级战队

到目前为止，无论是简单平均，还是加权平均 + 极化，聚合的对象都是个体所作预测，基础是个体。

团队呢？要是超级预测者们组团呢？超级战队的预测力怎么样？

先上答案。

“善断计划”发现，如果参加者第一年成为超级预测者，第二年编入超级预测者团队，他的准确率会上升50%，第三年还将再上升50%。

不光超级预测者，即使是普通人组队，其准确率也有明显提高。善断计划的第一年，Tetlock将所有人随机分配，一部分组队，一部分不组队，团队预测的准确率比个人预测的准确率平均高出23%。

这个结果不是自然而然就会发生的。团队协作可补个人能力短板，汇总信息，检验决策逻辑，但风险是形成观念和行为的正反馈，不断强化，形成群体极化：

团队高度一致，认同于幻像，拒斥批判思维，也拒绝现实检验。这就是艾温·詹尼斯（Irving Janis）命名的“趋同思维（goupthink）”。对这种事，我们中国人也一点也不陌生。

所以，在组队的时候，“善断计划”会对预测者作简单培训：提示趋同思维的风险，了解这种风险是避免的第一步。共识并不总是好的，分歧并不总是坏的。

不要仅仅因为你同意某个观点就认为它是对的。不要停止反思。尖锐问题对团队就好比维生素对身体一样重要。等等。

当然，过度趋同不行，分歧失控也会使团队崩断。“善断计划”推英特尔创始人格鲁夫提出的“建设性对抗”，就事论事，提出精确问题。

如果不同意队友的看法，你既不要第一反应说“你真傻”，这只会引发争吵；也不要说“我不这样看”，不同意本身没有为讨论注入增量。正确的反应是：“你有什么依据？”然后步步聚焦，将讨论导向可检验的地带，汇总信息，聚合判断。

普通人组队的预测，准确率超过善断计划所有参加者个体的均值10%。前面提到的网上预测市场，如爱荷华电子交易市场，确实如经济学家们说的那样：

预测能力强大，其准确率又超过普通预测者团队10%。但最强的是超级预测者战队：他们战胜经济学家们一般认为不可战胜的预测市场15%到30%。

总的来说，团队胜过个体，而超级预测者团队战胜所有对手。更细地分解则是这样：超级预测者团队 > 预测市场 > 普通预测者团队 > 群体均值 > 个体。

（未完待续，见下篇：《谁是超级预测者》）

本刊载内容版权为端传媒或相关单位所有，未经端传媒编辑部授权，请勿转载或拷贝，否则即为侵权。

评论｜想想看：普通人能战胜市场这件事，会带来多大的冲击！