評論|特朗普被嚴重低估——美國總統大選,民調預測為何再次失常?

特朗普支持者害羞?說謊?因為疫情不能出門?還是什麼?
2020年9月8日,美國總統特朗普在美國北卡羅來納州舉行的競選活動中。

本次美國總統大選,截至截稿前還在膠著,但從許多州令人意外的結果、以及目前為止兩大黨候選人的得票率來看,都跟非常多選前的民意調查有重大差距。光是以知名民調分析網站 FiveThirtyEight 收集的全美民調平均來看,拜登的選前民調平均為51.8%,特朗普為43.4%,但選舉結果目前大約是拜登50.5%、特朗普為47.8%,兩人的實際差距相較民調也更為接近。

民調失準了多少

我在州層級維度,比較了 FiveThirtyEight 在每個州收集的民調結果,與大選開票至美國時間星期五早上的各州結果(包含華盛頓特區、但不包含內華達州以及緬因州選舉人團分配給眾議院選區的地方),有一個初步的發現:50個州加上華盛頓,拜登在其中48個選區被民調高估,而特朗普在其中45個選區被低估。因為選票分布比較不均(且阿拉斯加還有一些票沒開),所以若比較中位數的話,會發現,拜登被民調高估的中位數是2.65%,而特朗普被民調低估的中位數是2.02%,這一來一往的差距是4.7%。

這個結果也反映在大選上,非常多選前預估拜登會勝利的地方,最後結果都是緊咬、甚至被特朗普逆轉。例如最具代表性的佛羅里達州,選前民調平均預估拜登會以50.8%擊敗特朗普的48.4%,但結果是特朗普的51.2%擊退拜登的47.8%,來回差距5%。

從民意調查的角度來看,每次抽樣一千人,假如樣本具有代表性的話,民調應有百分之三的誤差區間。但是假如民調真的沒有偏差,那應該是有時候高估、有時候低估、整體的誤差平均數則應該為零。但從數據分布來看,民調針對特朗普以及拜登的偏差程度,都顯著地不等於零。假如使用統計檢定的「單尾 t 檢定」來測量,兩者的分布都是顯著拒絕為零的(p<0.0001)。

筆者在另外一篇公開文章中,對四年前民調機構預測特朗普以及希拉蕊(希拉里)的結果的落差進行比對,然後把四年前的差距與今年的差距相較。結果發現,民調公司幾乎是在同一個地方跌倒——四年前低估特朗普得票率的地方,四年之後同樣低估了特朗普的得票率。甚至在四年之前,民調低估特朗普的中位數為2.79、而高估希拉蕊的中位數為1.32,有41個選區低估特朗普、有38個選區高估希拉蕊。若從這個角度看,四年後的這一波總統民調,跟四年前相比可說並沒有進步。

民調在哪些地方失準?

那麼,民調是在那些地方失準呢?在下面第二張圖裏,我把民調對兩位候選人的預測、以及最後的結果一起畫了出來進行比較(省略了華盛頓特區,因為這裏的選票分布太過極端,且刪除它完全沒有影響剩下的分布以及回歸線)。

假如民調預測是準確的,那應該所有的點都落在對角線的斜線上,即民調結果等於選舉結果。但從分布來看,可以看到特朗普的得票(紅色點與紅色線)在右上角更偏離對角虛線,而拜登的得票(藍色點與藍色線)在左下角更偏離虛線。

右上角的偏差顯示,民調在特朗普支持者比較多的地方,更傾向低估特朗普的得票率。而左下角的偏差顯示,民調在拜登得票率比較低的地方,更傾向高估拜登的得票率。舉例來說,在特朗普大勝的懷俄明州( Wyoming),民調平均預測是特朗普獲得66%、拜登獲得31.0%,兩者差距35%;但實際選舉結果,是特朗普獲得70%、拜登僅獲得26%,兩者差距44%。

而用回歸模型檢定會發現,民調公司的確在特朗普強、拜登弱的地方更傾向低估特朗普、高估拜登,可相同的狀況卻沒有發生在拜登強、特朗普弱的地方。以最極端的華盛頓特區為例,民調預估拜登與特朗普的得票率為91%與5%,而實際結果為93%與5%,就幾乎沒有差異。

怎麼解釋?

第一種說法是,特朗普支持者比較害羞、不願意表態,因此拒絕在回答電話問卷時說自己支持特朗普(shy voter effect)。圖二也的確顯示出,在特朗普支持者越多的選區,平均而言民調越會低估特朗普。但這種說法有一個心理學上的問題,選民若感到「害羞」,通常是因為受到社會壓力。但假如真的有社會壓力,理論上應該是拜登支持者越多的地方、特朗普支持者越不願意表態。但實際結果是反過來的,因此似乎不太合理。

第二種說法是認為偏差由選舉人團制度導致。因為選舉人團是贏者全拿的制度,所以在特朗普支持度超高的地方,拜登的支持者最後就會放棄投票,因為投了也沒用,導致特朗普的得票率會在最後又上升。這種說法解釋了一半,卻不能解釋另外一半:在拜登支持度超高的地方,特朗普支持者的得票率並沒有被高估。因此,除非選舉人團制度的影響只對拜登支持者有效,不然這個結果解釋得並不全面。當然,也可以假設拜登支持者在會輸的選區就會放棄,但特朗普支持者無論如何都會去投。

2020年10月14日,特朗普支持者在新澤西競選集會中揮動旗子。
2020年10月14日,特朗普支持者在新澤西競選集會中揮動旗子。

第三種說法與第二種接近,認為在特朗普支持者多的選區,正好在投票日前後肺炎的盛行率也比較高,因此會讓拜登支持者卻步而不去現場投票。但這種解釋的問題是,因為有郵寄投票,所以疫情的影響可能不大。反而是,這次選舉的投票率超高,兩大黨得票都大勝四年前,拜登和特朗普的個人得票都超過了7000萬,是史上第一、第二多票數的總統候選人,雙方支持者都比四年前多。

因此,如果要歸因於,有部分在民調中受訪的選民沒出來投票,或者說有拜登支持者「轉投」,都可能還需要更多證據。比較貼近現實的假設是,有些人無論如何皆更傾向出來投票。

第四種說法則歸因於特朗普支持者的背景。例如,特朗普支持者中有許多是高學歷白人,他們不好意思在民調中說支持特朗普,也即存在選民說謊現象。一些媒體的出口民調似乎支持了這個假設。但同理,出口民調不能解決的問題是,這些人也可能對出口民調說謊。

對此,一個非常間接的檢驗方法是,觀察民調與實際結果的差距,然後觀察這個差距是否在白人社經地位高的地方比較嚴重。因此,我把前面的民調資料、選舉結果資料跟美國50個州加華盛頓特區的白人比例、教育程度比例進行整合,然後進行回歸模型分析。回歸模型顯示,雖然樣本數只有50個(州),但當僅放入白人比例與高教育程度比例的交互作用項,其交互作用項對特朗普的估計差異是有顯著影響的(p = 0.03),可是影響方向跟假設是相反的。

用白話文來解釋這段話,意思是,假如把美國的州依照白人比例以及學位比例分成四類(高低依照白人比例71%、大學學歷31%的各州中位數區分),那麼按照以上假設,白人多且大學學歷者多的州,平均而言特朗普被低估的量應該是最低的。但是筆者的檢測發現,特朗普被低估最多的地方,是白人多、但大學學歷者較少的州。

不過這個檢測的局限是,筆者在撰文之際並沒有找到更細部的資料來源,因此只能進行間接估計,繼而沒有找到支持以上假設的證據。更直接的證據也許得等個人層次的民調資料釋放出來,並且跨時間進行多次訪問後,才有可能找到。

反過來說,可能性較大的一個原因是,這些州民的工作及生活型態比較難被電話以及網路民調接觸到,因此在過去民調中都被低估了。當然,民調公司也被多次抨擊過,民調採訪了太多大學學歷以上的選民,但民調公司大多使用改變不同受訪者答案權重的方式來降低偏差。

2020年10月24日,北卡羅來納州舉行的特朗普競選集會。
2020年10月24日,北卡羅來納州舉行的特朗普競選集會。

需持續找出「選民不表態」的原因

綜合以上分析,假如民調公司都確實能做到,在具代表性的美國人口母體抽樣、並且有針對社經背景做正確的加權的話,那對民調不準確的解釋,大概可能是有這樣一群真正的特朗普支持者:不管勝敗都會勇於投票,但是接到民調電話時刻意不說自己支持特朗普,而且這刻意不說並不是因為社會壓力,而是其他因素。

在這樣的情況下,民調能做的大概就是透過其他方式去套出支持者的真心話。政治科學學界的確有一些針對增加受訪者誠實發言的問卷設計,但許多設計方式太過複雜,可能不適合電話訪問,而只能當面訪問或者透過網路平台訪問,惟這兩種方式又會產生其他可能的偏差。

總結來說,這樣的固定偏差為何會發生,需要繼續觀察:是單純發生於特朗普支持者的現象,還是共和黨支持者普遍的現象?這個問題之所以重要,是因為特朗普在未來繼續參選總統的可能性不高,因此找到「選民不表態」的最終原因,將會決定下一次美國總統大選時,民調是否會再次跟結果產生偏差。

(王宏恩,內華達大學拉斯維加斯分校政治系助理教授)

讀者評論 13

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 对于尚未统计完选票的数据,与民调之间做比较是不合适的,例如现在拜登和川普的普选票比例已经分别为51.0%和47.2%了,而还有大州(尤其NY)有很多选票没开出来。

  2. 言之有物而且讓人對數據產生興趣的文章。川普或共和黨的支持者對我來說一向是面目比較模糊的,希望有機會能多了解他們。我個人覺得保守派的選民似乎比較不信任民調,所以選擇拒答,造成民調的不準確。

  3. 用了一堆統計分析,最後什麼東東都沒說出來,這就是為什麼關在象牙塔中的拿學位的人以前吃的開,現在會被人看成百無一用的原因。
    其實民調失掉的原因,不需要太複雜的解釋,一句話:川普的選民被川普奮鬥不懈的強烈攻勢感動,美國之大,一天跑七、八個城市,真神人也,所以全力傾巢而出,所以候選人動員的「能量指數」是民調專家測不出來需要研究改進的地方。

  4. 很有意思的文章。在社会科学中,数学、逻辑、统计学也是无处不在的。

  5. 右下偏差是否应是:在拜登支持者较少的州更容易出现高估情况?

  6. 我认为即使是在特朗普支持度高的地方,特朗普的支持者们是否就不会感到压力仍然是一个值得商榷的问题。比如说,你的上司反对特朗普,尽管你的同事们其实大多是支持特朗普的,那么可能大家也都不会很公开地说出来。这个例子也与学历的调查结果相符。

  7. 不知道那些说trump voter shy的人有没有关注大选,这些低教育白人多的川粉地带根本没有必要shy,而且无任何社会压力(大部分人都投trump),且铁粉积极性极高,我觉得shy voter的猜测甚至还不如选民故意撒谎,因为川粉的社群经常鼓吹让被访者对民调撒谎。

  8. 我不認為民調有多失準,只是開票順序造成看起來很接近,事實上川普如民調顯示還是落後且也在搖擺州落後。

  9. 回Agora,第三張圖其實已經體現出,特朗普被低估最多的,是在白人比例高且大學學歷持有者比例低的地方。
    只不過是無法通過這個現象倒推動機,也即不能因此就說他們害羞或說謊。文章在講第一種和第四種說法時,已經討論過害羞或說謊都不是不可能,但未能提供毫無破綻的合理解釋。
    另外是白人比例高且大學學歷持有者比例低,與白人低學歷持有者,兩者也是有差異的。
    當然你的假設也是有可能成立的,但如文章最後說,應該是有更細部資料,通過多次訪問才能求證。

  10. 有感而发,何必要保卫一个保不住的观点呢…人啊,保持开放心态更好。

  11. 我蠻同意Agora的說法,因為無法有效駁斥反對意見,所以選擇一開始掩匿即自己投票意向。
    另外是否需探討怎樣的社會氛圍,才能有誤差率低的民調結果? 個人想法是,處於非我即敵的撕裂型政治氛圍下,因為討論空間已趨近於零,有一群需要內心安靜空間的選民,會自然對第三人探詢意象採沉默或說謊反應,這時採樣誤差會失準,屬於無效民調的社群,這時候失準的民調也是再度催化分裂的因素之一。

  12. 为什么不会是反过来:受教育水平低的白人因为害羞,而在民调中隐藏自己的真实意向呢?这其实更能完美解释现实:不管学历高低,川普的支持者都会认为媒体、外界有偏见,所以会有所保留。但学历低的因为在经验中更受歧视和更多地被人驳斥,而更难以保卫自己的观点(虽然并不会为此放弃自己的立场),所以在和外界接触时,更容易伪装/隐藏自己的政治立场。

  13. 所以目前我们已经知道民调公司基于教育水平进行了加权,那么是否可能是应答存在结构性差异,即相同等教育程度相较于民主党的支持者,教育水平低的白人共和党支持者更不倾向于回答民调,所以被赋予了较高权重的这一群体实际信度不够,从而导致结果存在对于拜登支持率的高估,并且在川普支持者越多的地方越明显。