評論|黎班:拜登民調超特朗普——大選民調可靠與否的政治科學

到底民調可信嗎?
2020年10月18日北卡羅萊納州,民主黨總統候選人喬·拜登(Joe Biden)於里弗賽德高中參加競選集會。

2016年的美國總統選舉對自由派菁英來說是一場「惡夢」,川普(特朗普)雖然輸了普選票,卻贏了選舉人票,最終問鼎總統之位,一下擊穿希拉里·柯林頓(港譯克林頓,下稱柯林頓)會當選的「民調」幻象。

讓我們來回顧下當時的民調:《紐約時報》預測柯林頓有85%的機會會贏;《華盛頓郵報》沒有明確給出數字,但報稱柯林頓會贏;即便是相對保守的《華爾街日報》,當時也認為柯林頓贏面較大;在選舉預測中頗有名望的「普林斯頓選舉研究室」,則預測柯林頓有93%的機會當選⋯⋯只有以預測運動賽事起家的538網站,認為柯林頓「只有」70%的當選機會。

這樣的選舉預測成果被視為是2016年政治科學的失敗,同時加深了普通民眾認為「民調不可信」的看法。即便到了2018年美國期中選舉,預測準確度相對較高,但數據還是顯示大多數美國人不相信民調。

2020年新一屆總統大選,拜登VS特朗普的民調再度出爐,在全國民調的部分,拜登平均領先川普8~10%,而在上次令人跌破眼鏡的鏽帶州,拜登的民調大多領先6-9%。那這一次,民調可不可信呢?

2016年11月8日美國大瀑布城,距離美國大選日還不到24小時,共和黨總統候選人特朗普在競選集會上與支持者見面。
2016年11月8日美國大瀑布城,距離美國大選日還不到24小時,共和黨總統候選人特朗普在競選集會上與支持者見面。

可靠「民調」的統計原理

在問民調可靠與否之前,必須要確定到底討論的到底是「民調」還是「預測」。

嚴格來說,前面所提到的紐時、538、普林斯頓選舉研究室等機構給出的數字,並不是「民調」結果,而是基於民調的選舉結果「預測」,二者略有不同。

打個比方,一間學校有1000個學生有權選舉學生會會長,候選人有兩位(某甲跟某乙)。在正式選舉前一天,學生報紙調查了全部1000個學生的支持傾向,結果顯示支持兩位候選人的人數分別是600與400。

學者會說,某甲的民調支持有60%,但不會說某甲翌日獲勝的機率是60%;因為某乙要翻轉選情,必須要在一天之內讓101人從某甲處跑票,這顯然不是件容易的事,在這樣的情況下,我們可以很有信心地預測,某甲的獲勝機率絕對是高於60%的。

所以,在問民調可靠與否之前,必須要確定到底討論的到底是「民調」還是「預測」。

從根本上來說,民調就是對一小部分合乎統計學標準的人群做調查,以推論全體國民意向的一種社會科學工具。既然是從小部分人的意見來推論大多數人的意向,那誤差就是必然的,而如果誤差又是在可預測的範圍內的話,就沒有理由說民調不準。

那麼是什麼因素影響民調(或廣義的社會調查)準不準?最重要的因素是,「抽樣」。

如前所述,既然民調是要從少數樣本來推論全體國民意向,那麼抽樣所展現的民意樣態,應盡量與全國的民意樣態相接近。要達到這個目標需要兩個條件:第一是抽樣的數量要足夠,第二是樣本要有代表性。統計學推論告訴我們,針對這種兩個選項的民調,如果要在95%的信心水準下達到3%的抽樣誤差(意思就是實際的數字有95%的可能性落在調查結果正負3%的範圍以內),大概就要抽樣1000-1500個人。基本上,各類民調的樣本數是足夠的,所以最大的問題在於,樣本是否足夠隨機、足夠具有代表性。

只有當樣本足夠隨機,才能有效地從樣本推論全體國民的意向。但這種樣本的隨機性並不容易達到,因為我們抽樣總是仰賴某些特定的抽樣方法,例如電話號碼、門牌號碼等等。但是這種抽樣方法就會排除掉沒有電話或是沒有固定居所的人,也就是會讓樣本無法忠實反應母體的樣貌。

美國民調以往最常被詬病的問題是,仰賴答錄機(robotcall)做市話(land line)民調,在只有市話抽樣的情況下,樣本會以年紀偏大的白人居多,因為這群人最有機會接到市話。同樣的,做網路民調也會遇到類似的問題,網路民調可以抽樣到的人,以年輕、大量使用電腦的群體居多。

其實,不管用何種方式抽樣,抽樣本身都會具有選擇性、非完全隨機。即便我們用居家面訪的方式做調查,抽到的群體也只是有固定住所的人,而無法涵蓋到旅居海外或是沒有固定住所的人。為了處理這種問題,民意調查通常都會使用分層抽樣,或是對抽樣後的樣本加權,來讓樣本具有足夠代表性。分層抽樣就是將母體按照某些重要的特徵分成不同的群體,並且特別地針對這些不同的群體去做抽樣;而樣本加權則是在抽樣後,針對樣本內不同群體的回應做加權,讓加權後的樣本可以有代表性。

舉例來說,調查者認為性別是影響投票行為的重要因子,而某全體國民中,男性佔了45%、女性佔了55%,但在抽樣的樣本中,男性佔了60%、而女性佔了40%。此時樣本中的男性比例就會讓調查結果失真。這時就必須要對調查結果加權。樣本中,男性回答的權重是45/60 = 0.75,而女性是 55/40 = 1.375。如果此時男性對候選人A的支持度是30%而女性對候選人A的支持度是60%,在沒有加權的狀況下,調查結果對A候選人的支持度是30% * 0.6 + 60% * 0.4 = 42% 但如果我們經過加權則是 30% * 0.75 * 0.6 + 60% * 1.375 * 0.4 = 46.5% ,兩者間會有4.5%的差距。由於樣本中候選人A的女性支持者代表性不足,所以在加權之後支持度就比較高。

2016年的民調的一個問題就是,沒有針對受訪者的教育程度做加權。

而2016年的民調的一個問題就是,沒有針對受訪者的教育程度做加權。以後見之明來說,在上屆選舉中,藍領白人轉向川普,讓人們發現原來大學學歷會顯著地影響到投票意向。在這樣的狀況下,如果一個調查沒有針對學歷加權,就很可能會產生偏誤。

然而,即便2016年的民調存在這樣的偏誤,但整體上來說,各機構的預測選舉得票率還是可靠的。在選舉之前,2016年的全美民調,平均結果是柯林頓贏川普3.9%,而最終2016年的普選票,也確實是柯林頓贏了川普2.1%。這樣的民調結果並不「完美」,但已經是在一個可以接受的範圍內了(若在95%的信心水準、誤差範圍為2%的標準下)。

那到底2016年的選舉民調問題出在哪?從選舉後的檢討看來,問題有二:一,州層級民意調查的缺乏;二,預測模型的偏誤。

2016年11月8日北卡羅萊納州,距離美國大選日還不到24小時,民主黨總統候選人希拉里·克林頓在競選集會前在後台等待。
2016年11月8日北卡羅萊納州,距離美國大選日還不到24小時,民主黨總統候選人希拉里·克林頓在競選集會前在後台等待。

2016年的問題:選舉人團制,與州層級調查的缺乏

後見之明來說,最大的問題就是人們沒料到過去歐巴馬(奧巴馬)大勝的威斯康辛州以及密西根州的選情竟然如此接近。

經過了2016年選舉之後,很多人終於意識到,美國的總統選舉結果,不是由普選票決定的,而是由選舉人團(electoral college)決定的,而各州的普選票只是決定了各州要怎麼投選舉人團票而已。

選舉人團制度是一種間接選舉,根據《美國憲法》,每州選舉人人數等同該州參眾兩院議員人數,再由選舉人代表該州投票;由於美國是聯邦制國家,並考慮到各州的特定地理及歷史條件,制憲元老決定採取選舉人團制度,保障各州權益。而選舉人團投票如何計算輸贏,具體的計算方式又由各州政府法律再行規定。

現行制度下,除了緬因州與內布拉斯州,會根據州內選區安排選舉人票外,其餘的州都採行「勝者全拿」的制度。這種「勝者全拿」的制度除了會產生輸了普選票但贏了大選這種結果外,也對民意調查形成很大的挑戰。

由於各州是贏者全拿,所以州層級的民調就變得更為重要。但施行州層級的民調有一個困難:成本。

這背後的原因其實不難理解,首先是,如果要達到同樣的誤差水準,在州民調所需要的樣本數,與全國層級所需的樣本數是一樣的。也就是說,同樣抽樣1500個人,如果抽樣的對象是全紐約州州民的話,所需要達到的抽樣誤差,跟抽樣全國是一樣的,都是大概3%。所以如果民調變成一州一州地做,那耗費的成本是直接做一個全國民調的50倍。

因此,很少民調機構會願意在總統大選時一州一州地做民調,人們看到的民調大多是全國層級的。而州層級的總統民調,通常只會在選情較為接近的搖擺州做調查,例如佛州、賓州、北卡、科羅拉多、亞利桑那等在過去幾次總統選舉中,曾經翻盤過的州。

但2016年選舉,以後見之明來說,最大的問題就是人們沒料到過去歐巴馬(奧巴馬)大勝的威斯康辛州以及密西根州的選情竟然如此接近。而背後的原因大概有幾個:第一是民調機構大多沒有針對教育程度加權,第二是許多選前未表態的選民大多支持川普,而最後一種可能是,很多川普選民在受民調時會不願意透露自己的投票意向。

第二以及第三個原因其實可能背後是同一回事,那就是在民調當中顯示為尚未決定的選民主要是川普支持者。但這問題在2020年可能不是大問題,因為2016年時大約穩定的有10%的抽樣選民不回答或是支持第三方勢力,但在2020時這個數字大約只有5%。

從既有的資料來看,沒有針對教育程度加權的確是2016年民調的硬傷,由於賓州、密西根州、威斯康辛等鏽帶州,沒受高等教育的白人人口比率都相對很高的地方,對於藍領白人為何會導向川普又有兩種解釋:第一種是認為他們在全球化的衝擊下收入越來越不穩定而把希望投注在「美國優先」的川普。第二種解釋是藍領白人對於民主黨/自由派在種族、性別等身份政治議題的立場感到不安,他們認為民主黨的進步立場「不夠美國」。

更重要的問題或許不是民調本身,而是媒體、學者怎麼解讀民調。這就是預測是否準確的問題,而不是民調的問題。

然而,更重要的問題或許不是民調本身,而是媒體、學者怎麼解讀民調。這就是預測是否準確的問題,而不是民調的問題。

最大的問題或許是,美國媒體、學者跟智庫等等菁英,完全沒有辦法接受美國總統可能會由一個常常口出性別、種族政治不正確話語的綜藝節目角色來擔當。由於對川普本能式的反感,自由派沒有辦法看到為何有人會願意支持川普。自由派也會覺得,就算不論種族、性別政治等議題,藍領白人選民通常也是川普貿易、社福等政策的受害者,以經濟理性來預估,川普不可能選得上。

追根究底,就是自由派在選舉政治判斷上,因為自身的政治正確而對川普支持者有不切實際的想像,自由派可能認為,會說出如此歧視女性話語的人怎麼可能可以贏得女性支持者的票?但選舉的出口民調說明了,沒有大學學歷的白人女性大量的支持川普。把川普的政治不正確直接連結到「所有選民」可能對他的厭惡,以至於忽略民調與預測模型中的不確定性,這才是川普「驚奇」的原因。

2020年10月13日,特朗普總統的支持者在賓夕法尼亞州約翰斯敦舉行的競選集會時歡呼雀躍。
2020年10月13日,特朗普總統的支持者在賓夕法尼亞州約翰斯敦舉行的競選集會時歡呼雀躍。

「預測」是否準確:資料與模型的問題

但媒體的預測也不是只依靠自身的感覺,他們的預測通常是根據專家建立的預測模型。而比起民調,模型其實有著更多的不確定性。

如上文提到的學生會主席的例子所說明的,「民調」與「選舉結果預測」,其實是兩件相關但不一樣的事。民調是從樣本中對候選人的支持度,來推論母體對該候選人的支持程度;而預測是綜合各種不同的資訊,來推論到底誰會當選。最簡單的語言差別是,民調的結果用「推論支持度百分之多少」來表達,而選舉結果預測是「某候選人當選機率有多高」。

舉例來說,如果某選舉有兩個候選人,在沒有抽樣偏誤的情況下,民調結果是55%(候選人A)對上45%(候選人B),那麼在99%的信心水準、誤差是3%的情況下,候選人A選上的機率會是多少?

如果假設全體選民都會去投票,那麼答案不是55%,而是高於99%。其中的道理是,「信心水準99%下、誤差3%」,意味著,有99%的機率候選人的支持度是落在調查結果的正負3%內。換句話說,這份民調顯示的是,全體選民對A的支持度有99%的機會是落在52~58%之間。

媒體的預測也不是只依靠自身的感覺,他們的預測通常是根據專家建立的預測模型。而比起民調,模型其實有著更多的不確定性。

而選舉結果預測也不僅僅只用當期的民調結果作為主要材料,政治學者也會把經濟表現(失業率、GDP成長等等)當成指標;或是純粹用過往的投票結果做時間序列的模型。換句話說,預測選舉結果模型並不一定以民調結果為主。

而以民調為主的預測模型,在面對美國大選這種各州贏者全拿的狀況下,又會有更多挑戰。首先是如前面所說的,州層級的民調品質不一致,用品質不好的民調來做預測,就只會得到有偏誤的預測結果。第二是,有的模型會把美國經濟情況、有無戰爭等因素也放入考量,但加入太多因素的模型可能會有過適(overfitting)的狀況,也就是模型因為放入太多變項,而變得只能解釋既有的資料,而對未來的觀察結果沒有預測/解釋能力。

而即便比較的全是以民調為核心的預測模型,不同人的模型設定也會給出差距非常大的預測結果。以2016年的美國大選來說,前面提到的普林斯頓選舉研究室,538以及《紐約時報》,都是以民調為主的選舉預測模型。但他們對於柯林頓在各州的獲勝機率有非常不一樣的看法,連帶的對於誰有機會當總統,也有著非常不同的看法

對於不同的預測模型,我們不能說誰才是更為正確的,我們該討論的是哪個模型比較好用。

在2016年時,普林斯頓選舉研究室的王聲宏寫了篇長文批評538的方法過度拘泥於細節,且放入太多的參數,以至於不確定性非常高,而網路媒體《哈芬頓郵報》甚至直接攻擊538偏向川普,以致引來538主編希爾佛(Nate Silver)的高調回應。總體來說,希爾佛的模型更注重所選取民調的品質,以及會考量前幾次選舉中各州的傾向,而王聲宏的模型則是認為平均過後的民調會自然地把偏誤剔除,所以他並不主動選擇要納入哪個民調,而僅僅是把所有民調進行平均,再跑模擬。但2016年的選舉結果顯示,希爾佛用過往選舉結果等因素來調整州民調的做法,能給出更好的結果。

由於預測模型只是一種對於選舉過程、結果的描繪方式,因此對於不同的預測模型,我們不能說誰才是更為正確的,我們該討論的是哪個模型比較好用。在2016年選舉之前,王聲宏的模型更好地解釋、預測了參議院選舉與總統選舉;但由於2016年選舉期間的民意調查有前述的加權與抽樣問題,所以希爾佛對民調結果的調整就更好地預測了2016年的選舉結果。

2016年11月8日紐約,民主黨總統候選人希拉里・克林頓的支持者在競選集會上,等待觀看投票結果。
2016年11月8日紐約,民主黨總統候選人希拉里・克林頓的支持者在競選集會上,等待觀看投票結果。

該繼續相信民調跟預測模型嗎?

看到這裏,讀者可能會認為作者還是沒有回答最重要的問題:到底民調可信嗎?

在上述冗長的解釋後,答案應該頗為明確:在2016年時的全美民調,其實並不是那麼不可信。而更重要的是,從2018年期中選舉結果來看,民調其實很好地掌握了選民的投票意向。

真正讓2016年總統選舉成為「驚奇」的,是媒體對民調的解讀,以及預測模型對於州層級民調的過度信任。這些問題在2016年的教訓過後已經有改善——自由派媒體由於2016年的創傷,而對民調是否可靠更為謹慎,民調機構則針對教育程度進行了加權的改進,而州層級的民調比起2016年來說也更多了。

其實更為現實的問題是,除了民調之外,我們當下也沒有更好的工具可以去測量選民的投票意向,繼而預測選舉結果了。即便民調的準確性令人「不滿意」,它還是政治科學家手邊擁有的最好的工具。四年前因為模型預測失準而上CNN吃蟲給觀眾看的預測研究員王聲宏也,即便我們對民調以及預測有嚴重創傷,我們還是可以改進民調方法,來戰勝恐懼。

(黎班,在法學院與政治系打混的不成熟研究者,專注於中國政治與美國政治)

讀者評論 8

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 文中指出:自由派媒體由於2016年的創傷,而對民調是否可靠更為謹慎,民調機構則針對教育程度進行了加權的改進
    但是執政團隊四年內的表現及經歷的風風雨雨,是否能夠拿4年前素人川普的教育加權項目去調整民調?也是值得抱持懷疑。
    我看完本文結論居然是:別信民調,投就對了。

  2. 民调一般分为A(成人),LV(Likely Voters),RV(Reg. Voters),特别是后两种为主,无证移民或者无投票资格的合法移民一般会被民调公司排除在外。

  3. 無證移民數量僅約佔總人口的3%,生活型態亦屬於被抽樣機率較低的族群,另外美國的選民資格是由是否有去註冊而決定,沒有提前登記的話即便是美國公民也不具投票資格,因此這些民調與預測通常本身就有衡量過人口特性、甚至會再加上實際去投票意願的預估

  4. 上次大选的最大问题是最后几天的科米邮件门事件,导致实际差距和民调时的差距大幅收窄,而这些差距根本还来不及反应到民调上(民调大约有一周半到两周的滞后期)。希拉里说自己输掉大选完全是科米一点都没错。

  5. 非法移民對民調是否有顯著的影響呢?假設該群體普遍支持民主黨,但民調無法確認樣本是否有投票權,導致民調結果偏向民主黨,但實際上是高估了?

  6. Probability 这种反直觉的东西拿到大众媒体上读的时候一定要take with a grain of salt。编辑:” 普林斯顿选举研究室的王声宏写了篇长文批评538的方法过度拘泥于细节” 里的长文链接打不开。

    1. 讀者你好,編輯更新了一次鏈接,你看看現在能打開嗎?

  7. 指责当年民调有非常大的问题的,其实还是统计学没有学好。很可惜我本科时候统计学老师一直拿那个说事。全国层面有代表性的民调本身本身预测的就是普选的结果而非大选的结果,事实上希拉里的确赢得了普选,而民调和普选结果存在的差异小于通常的抽样误差,即使民调完全科学,两次抽样之间存在一定变化也是可能的。而在州层面,不具备代表性显然是基于路径依赖而产生的问题,但是在很多选情焦灼的州,关键的几百票怎么可能是之前的抽样统计可以准确预测的?有些抽样误差永远无法避免。