【編者按】《超級預測術》(Superforecasting)登上2015年亞馬遜年度非虛構十大好書榜、《經濟學人》年度好書榜、《金融時報》年度好書榜。
2016,這本書仍然炙手可熱。恐怖襲擊、極端天氣、新興科技……在充滿不確定性的世界,所有人都想知道關於未來的蛛絲馬跡。政府、專家、預測機構、未來事件交易市場......我們讀過太多被現實擊碎的數據、報告、趨勢圖。當專業成為一種壁壘,預測被人壟斷,我們很少去想,自己平時靠什麼作出判斷。
這本書不會給你任何現成答案,也不是一本鼓吹預測之神的成功學。它告訴你,即使智商普通,也可以有效運用自己的大腦,判斷事情,做出準備。這篇書評非常長,但它值得耐心讀完。
(王爍,BetterRead創始人,財新傳媒主編、財新網總編輯、《財新週刊》主編。端傳媒獲授權轉載BetterRead的書評:BetterRead 2015最佳圖書|成為超級預測者。分兩篇刊出。標題為編輯所改。)
Superforecasting: The Art and Science of Prediction
出版時間:2015年9月
作者:Philip E. Tetlock, Dan Gardner
出版社:Crown/Archetype
世界是平的。歷史終結了。有什麼共同點?深邃,發人深省,總能自圓其說,但作為預測都是不及格的,或者說都不算是預測。
如果是預測,那麼托馬斯·弗里德曼和弗朗西斯·福山早就被證偽,沒人聽了,而不是像現在這樣,無論在中國在美國,只要他們開口,總是有很多人在聽。他們今天改口了:世界終將變平。歷史應該終結。
不明確界定、無度量手段,準確與否難以檢驗,這不是預測,是故事。接受這種由深刻隱喻營造的故事,人們找到意義與方向,准不準確,你真的關心嗎?
不過,預測這件事太重要,不能全交給故事。所有人的所有決策,不管意識到沒有,都以預測為前提。
循證預測來了
循證(evidence based)預測,如同循證醫學重塑醫學,正在重塑預測這件事。
不循證的預測有兩種典型:其一,「現在怎樣將來就會怎樣」;其二:「將來就是沿現在變化的斜率外推」。這兩種預測法粗糙了點,但也不比前面的各種包裝成專家預測,實則是故事的準確度差。
如果想瞭解活的循證預測,登錄www.gjopen.com,參加一場開放、永不停止、包羅萬象、精確打分的預測競賽:Good Judgement Open,我譯作「善斷公開賽」。
「善斷公開賽」的預測都是短期預測(不超過一年),共同點是界定精確。精確到什麼地步呢?可以用來打賭,輸的一方乖乖掏錢,沒有藉口可找。
「善斷公開賽」不是賭場,預測輸贏不關金錢,但採用的Brier計分系統(編按:這是評價頻率預測準確度的一個指標,適用的一個前提是只關心某個事件是否發生0-1頻度,而不關心事件發生的強度影響),與投注有相同的邏輯:
你預測下週末北京市出現霧霾爆表(AQI值500)的概率是90%,而對手方認為是10%,那就等於你選擇以9:1的比例下注,如果你的對手方贏了,那麼,假設他下注100塊,就能從你這裏贏走900塊。你還敢亂說話嗎?
Brier計分法一般分值在0在1之間,0意味著絕對準確,1意味著絕對錯誤,0.5則相當於隨機亂蒙。
我在www.gjopen.com網站上發佈了10個預測,目前的Brier分值是0.231。假設我能始終保持這個準確率,那麼將接近所有參加者的最高水平。預測競賽的第一年2001年,第五名的得分是0.22,一位超級預測者。
我有這麼厲害嗎?
沒有。到目前為止,我的預測中只有一個產生了結果。問題是:「《超級預測術》(Superforecasting)這本書,在2015年10月底之前能不能上紐約時報暢銷書榜?」
因為讀過這本書,我毫不猶豫地選擇「會」。我在2015年讀過的書中,這本最值得一讀,它也是BetterRead公號2015年度推薦的最佳書籍。我絕對相信它會很快登上《紐約時報》暢銷書榜。如果錯了,那也是《紐約時報》的錯。
我贏了。
然後,到2015年底,大媒體紛紛發佈年度好書榜,《超級預測術》登上了亞馬遜年度非虛構十大好書榜、《經濟學人》年度好書榜、《金融時報》年度好書榜。
諾貝爾經濟學獎得主丹尼爾·卡尼曼說:「這本書講述怎樣讓普通人在預測這個大事上戰勝專家。在不確定世界上如何作清晰思考,它給出手冊。」
高盛前董事長、美國前財長魯賓寫過回憶錄《在不確定的世界上:從華爾街到華盛頓之路》,他說:「政策制定者或者普通人,只要想依據嚴格的思維過程作決策,這書都極為有用。」
「善斷公開賽」、《超級預測術》,都衍生於美國著名政治學家菲利浦·泰特羅克(Philip Tetlock)領導下的大型預測研究項目:善斷計劃(Good Judgement Project)。
「善斷計劃」的資助者是IARPA(Intelligence Advanced Research Projects Activities),「情報高級研究項目」,組建於2006年,名稱與著名的美國國防部DARPA相近,使命也與後者為軍方提供顛覆性技術相似,區別在於服務的對象是美國情報界。
它合併了國家安全局顛覆性技術辦公室、地理情報局全國技術協作組、中情局情報技術創新中心,直屬國家情報總監,旨在跨機構為美國情報界提供革命性的新能力。
在IARPA的財務和技術支持下,Tetlock主持「善斷計劃」,從2011年9月到2015年6月,為期四年,總計兩萬多人登錄「善斷計劃」網站。
他們就情報界拋出來的五百個國際問題持續作出預測,實時預測,實時檢驗。比如這樣的問題:希臘會不會在2014年12月31日之前退出歐元區?
IARPA同時資助了五所精英大學的類似項目,並組織錦標賽,彼此競爭。Tetlock領導的「善斷計劃」一直贏,第一年贏了對比組60%,第二年贏了對比組70%。還贏了其他來自密西根大學和麻省理工的對手30%到70%不等。差距實在太大,第三年,IARPA乾脆取消了錦標賽。
「善斷計劃」的預測準確率高得驚人。參與善斷計劃的人由網站招募而來,都是普通人,智商還可以,但不特殊,教育背景參差,也沒有內幕信息。
但他們作出的預測戰勝了情報機構內部的分析師——這些人不僅是出題人,而且還有不能公開的機密信息。
對學者而言,更驚人的是,「善斷計劃」還戰勝了預測市場,即那些就各種真實事件下注的公開電子交易市場,如愛荷華電子交易市場(Iowa Electronic Market,http://tippie.uiowa.edu/iem)。
一般認為,預測準確是很難,但相對而言,用真金白銀下注的真實市場對未來的預測最有效。善斷計劃對這個看法構成了極大衝擊。
想想看:普通人能戰勝市場這件事,會帶來多大的衝擊!
善斷計劃怎麼做到的?
正確打開方式
把一頭牛牽上集市的台子,讓趕集農夫目測其體重;把一罐糖果放到桌上,讓幼兒園小朋友估計有多少顆。誰估得最准?
多玩幾次。每次肯定會有一個最準確的估計,只不過,每次做出最準確估計的不會是同一個人。類似試驗做過無數次,結論早已經有了。
系統地看,所有估計的簡單平均值勝過所有人的估計。幾十個農夫目測牛的體重,幾十位小朋友目測糖果的顆數,最靠譜的估計是求和再除以人數。
以一種簡單的方式,平均值將所有人掌握的信息和作出的判斷聚合起來,比單個人掌握的信息要完整,而形成的判斷也更準確。這就是所謂群體的智慧。
群體的平均值是第一次聚合。這也是「善斷計劃」的起點。
用聚合來做預測,近年來在政治選舉領域大熱的內特·希弗(Nate Silver)也是此法。這個年輕人業餘開發預測美職棒新人未來表現的系統,賣掉;玩撲克又賺了幾十萬美元;
然後做了個選舉預測網站,2008年美國總統大選及國會選舉一戰成名,準確率超過所有民調,又賣給了《紐約時報》,然後出書《信號與噪音》(The Signal and the Noise: Why Most Predictions Fail but Some Don't)。
選舉民調是對選民意見的聚合。Silver並不直接做預測,美國選舉民調已經太多。Silver做這些民調的聚合,等於是選民群體的聚合的聚合:
用貝葉斯概率(Bayesian probability)(編按:一種對概率的解釋,它將概率定義為某人對一個命題的信任程度),根據每個民調機構準確率的歷史記錄和動態表現,調整其在聚合中的權重。最後的結果既包含了對於每個民調機構的績效評估,又聚合而成一個新預測。
這個預測有多準確?
2012年美國總統大選改選,Silver預測對了奧巴馬戰勝羅姆尼,這不稀奇。稀奇的是Silver還預測對了所有50個州兩人的勝負結果。全中。
Tetlock坦承,雖然年輕幾十歲,Silver的聚合預測是「善斷計劃」的智識來源之一:在聚合中給那些表現不同的預測者以不同的權重,效果勝過簡單均值。
人以群分。「善斷計劃」啓動於2011年,跨越四年,作不間斷的預測實況演練。參加者在善斷公開賽網站報名,就大量問題持續預測,接受嚴格檢驗。
每個預測都會用Brier計分法打分,並匯總成個人總分。在漫長的賽馬中識別好馬,以0.25分為界,有2%的人脫穎而出,攀到最優秀一級,即Tetlock所說的「超級預測者」。
這一步,Tetlock與Silver的做法相近,相當於將其應用到情報分析領域:根據預測準確率調整每個預測者在整體預測中的權重分配,並給予超級預測者更大權重。
由此產生的既是一個預測系統,又是一個預測者表現的評價系統。不出意料,它比預測的簡單平均更為準確。
下一步則是Tetlock團隊的創舉,其實也很簡單。
對加權平均後形成的預測結果,再做一道加工:極化(extremize)。
所謂極化,就是將預測結果往100%或者0的方向推。
舉個例子,對美伊達成核協議可能性的預測,如果預測者加權平均後的回答是70%,那就把它上調到說85%;相反,如果預測值是30%,那就把它下調到15%。
極化基於一個簡單的理由:假設群體中的每個人都獲得了群體的全部信息,他們作預測時一定會更為自信。
從群體簡單平均值到加權平均的過程,事實上已經聚合了所有人的信息,但沒有完全反映出應該有的自信。極化就是要捕捉這個自信。
如果是樂觀預測,極化會輸出一個更樂觀的預測;如果是悲觀預測,極化會輸出一個更悲觀的預測。
就是這樣簡單:一群在網絡上作預測的普通人,利用公開信息,借助相當簡單的算法,以明顯優勢戰勝了參與IARPA預測競賽的所有對手。
還戰勝了擁有保密情報的情報機構專業分析師,勝率高出多少這件事,本身得保密。這對那些終生研究情報的分析師,對整個美國情報界,都帶來了巨大衝擊。
加權平均—極化,這個做法有多強?
在兩萬多參與者中,只有一個人的Brier得分超過極化算法。
觸類旁通:只要是存在大量預測者的領域,無論經濟、政治、金融還是其他,都可以移植Tetlock的加權平均 + 極化算法,應用的空間極大。
超級戰隊
到目前為止,無論是簡單平均,還是加權平均 + 極化,聚合的對象都是個體所作預測,基礎是個體。
團隊呢?要是超級預測者們組團呢?超級戰隊的預測力怎麼樣?
先上答案。
「善斷計劃」發現,如果參加者第一年成為超級預測者,第二年編入超級預測者團隊,他的準確率會上升50%,第三年還將再上升50%。
不光超級預測者,即使是普通人組隊,其準確率也有明顯提高。善斷計劃的第一年,Tetlock將所有人隨機分配,一部分組隊,一部分不組隊,團隊預測的準確率比個人預測的準確率平均高出23%。
這個結果不是自然而然就會發生的。團隊協作可補個人能力短板,匯總信息,檢驗決策邏輯,但風險是形成觀念和行為的正反饋,不斷強化,形成群體極化:
團隊高度一致,認同於幻像,拒斥批判思維,也拒絕現實檢驗。這就是艾溫·詹尼斯(Irving Janis)命名的「趨同思維(goupthink)」。對這種事,我們中國人也一點也不陌生。
所以,在組隊的時候,「善斷計劃」會對預測者作簡單培訓:提示趨同思維的風險,瞭解這種風險是避免的第一步。共識並不總是好的,分歧並不總是壞的。
不要僅僅因為你同意某個觀點就認為它是對的。不要停止反思。尖銳問題對團隊就好比維生素對身體一樣重要。等等。
當然,過度趨同不行,分歧失控也會使團隊崩斷。「善斷計劃」推英特爾創始人格魯夫提出的「建設性對抗」,就事論事,提出精確問題。
如果不同意隊友的看法,你既不要第一反應說「你真傻」,這只會引發爭吵;也不要說「我不這樣看」,不同意本身沒有為討論注入增量。正確的反應是:「你有什麼依據?」然後步步聚焦,將討論導向可檢驗的地帶,匯總信息,聚合判斷。
普通人組隊的預測,準確率超過善斷計劃所有參加者個體的均值10%。前面提到的網上預測市場,如愛荷華電子交易市場,確實如經濟學家們說的那樣:
預測能力強大,其準確率又超過普通預測者團隊10%。但最強的是超級預測者戰隊:他們戰勝經濟學家們一般認為不可戰勝的預測市場15%到30%。
總的來說,團隊勝過個體,而超級預測者團隊戰勝所有對手。更細地分解則是這樣:超級預測者團隊 > 預測市場 > 普通預測者團隊 > 群體均值 > 個體。
(未完待續,見下篇:《誰是超級預測者》)
讀者評論 0