评论|特朗普被严重低估——美国总统大选,民调预测为何再次失常?

特朗普支持者害羞?说谎?因为疫情不能出门?还是什么?
2020年9月8日,美国总统特朗普在美国北卡罗来纳州举行的竞选活动中。

本次美国总统大选,截至截稿前还在胶著,但从许多州令人意外的结果、以及目前为止两大党候选人的得票率来看,都跟非常多选前的民意调查有重大差距。光是以知名民调分析网站 FiveThirtyEight 收集的全美民调平均来看,拜登的选前民调平均为51.8%,特朗普为43.4%,但选举结果目前大约是拜登50.5%、特朗普为47.8%,两人的实际差距相较民调也更为接近。

民调失准了多少

我在州层级维度,比较了 FiveThirtyEight 在每个州收集的民调结果,与大选开票至美国时间星期五早上的各州结果(包含华盛顿特区、但不包含内华达州以及缅因州选举人团分配给众议院选区的地方),有一个初步的发现:50个州加上华盛顿,拜登在其中48个选区被民调高估,而特朗普在其中45个选区被低估。因为选票分布比较不均(且阿拉斯加还有一些票没开),所以若比较中位数的话,会发现,拜登被民调高估的中位数是2.65%,而特朗普被民调低估的中位数是2.02%,这一来一往的差距是4.7%。

这个结果也反映在大选上,非常多选前预估拜登会胜利的地方,最后结果都是紧咬、甚至被特朗普逆转。例如最具代表性的佛罗里达州,选前民调平均预估拜登会以50.8%击败特朗普的48.4%,但结果是特朗普的51.2%击退拜登的47.8%,来回差距5%。

从民意调查的角度来看,每次抽样一千人,假如样本具有代表性的话,民调应有百分之三的误差区间。但是假如民调真的没有偏差,那应该是有时候高估、有时候低估、整体的误差平均数则应该为零。但从数据分布来看,民调针对特朗普以及拜登的偏差程度,都显著地不等于零。假如使用统计检定的“单尾 t 检定”来测量,两者的分布都是显著拒绝为零的(p<0.0001)。

笔者在另外一篇公开文章中,对四年前民调机构预测特朗普以及希拉蕊(希拉里)的结果的落差进行比对,然后把四年前的差距与今年的差距相较。结果发现,民调公司几乎是在同一个地方跌倒——四年前低估特朗普得票率的地方,四年之后同样低估了特朗普的得票率。甚至在四年之前,民调低估特朗普的中位数为2.79、而高估希拉蕊的中位数为1.32,有41个选区低估特朗普、有38个选区高估希拉蕊。若从这个角度看,四年后的这一波总统民调,跟四年前相比可说并没有进步。

民调在哪些地方失准?

那么,民调是在那些地方失准呢?在下面第二张图里,我把民调对两位候选人的预测、以及最后的结果一起画了出来进行比较(省略了华盛顿特区,因为这里的选票分布太过极端,且删除它完全没有影响剩下的分布以及回归线)。

假如民调预测是准确的,那应该所有的点都落在对角线的斜线上,即民调结果等于选举结果。但从分布来看,可以看到特朗普的得票(红色点与红色线)在右上角更偏离对角虚线,而拜登的得票(蓝色点与蓝色线)在左下角更偏离虚线。

右上角的偏差显示,民调在特朗普支持者比较多的地方,更倾向低估特朗普的得票率。而左下角的偏差显示,民调在拜登得票率比较低的地方,更倾向高估拜登的得票率。举例来说,在特朗普大胜的怀俄明州( Wyoming),民调平均预测是特朗普获得66%、拜登获得31.0%,两者差距35%;但实际选举结果,是特朗普获得70%、拜登仅获得26%,两者差距44%。

而用回归模型检定会发现,民调公司的确在特朗普强、拜登弱的地方更倾向低估特朗普、高估拜登,可相同的状况却没有发生在拜登强、特朗普弱的地方。以最极端的华盛顿特区为例,民调预估拜登与特朗普的得票率为91%与5%,而实际结果为93%与5%,就几乎没有差异。

怎么解释?

第一种说法是,特朗普支持者比较害羞、不愿意表态,因此拒绝在回答电话问卷时说自己支持特朗普(shy voter effect)。图二也的确显示出,在特朗普支持者越多的选区,平均而言民调越会低估特朗普。但这种说法有一个心理学上的问题,选民若感到“害羞”,通常是因为受到社会压力。但假如真的有社会压力,理论上应该是拜登支持者越多的地方、特朗普支持者越不愿意表态。但实际结果是反过来的,因此似乎不太合理。

第二种说法是认为偏差由选举人团制度导致。因为选举人团是赢者全拿的制度,所以在特朗普支持度超高的地方,拜登的支持者最后就会放弃投票,因为投了也没用,导致特朗普的得票率会在最后又上升。这种说法解释了一半,却不能解释另外一半:在拜登支持度超高的地方,特朗普支持者的得票率并没有被高估。因此,除非选举人团制度的影响只对拜登支持者有效,不然这个结果解释得并不全面。当然,也可以假设拜登支持者在会输的选区就会放弃,但特朗普支持者无论如何都会去投。

2020年10月14日,特朗普支持者在新泽西竞选集会中挥动旗子。
2020年10月14日,特朗普支持者在新泽西竞选集会中挥动旗子。

第三种说法与第二种接近,认为在特朗普支持者多的选区,正好在投票日前后肺炎的盛行率也比较高,因此会让拜登支持者却步而不去现场投票。但这种解释的问题是,因为有邮寄投票,所以疫情的影响可能不大。反而是,这次选举的投票率超高,两大党得票都大胜四年前,拜登和特朗普的个人得票都超过了7000万,是史上第一、第二多票数的总统候选人,双方支持者都比四年前多。

因此,如果要归因于,有部分在民调中受访的选民没出来投票,或者说有拜登支持者“转投”,都可能还需要更多证据。比较贴近现实的假设是,有些人无论如何皆更倾向出来投票。

第四种说法则归因于特朗普支持者的背景。例如,特朗普支持者中有许多是高学历白人,他们不好意思在民调中说支持特朗普,也即存在选民说谎现象。一些媒体的出口民调似乎支持了这个假设。但同理,出口民调不能解决的问题是,这些人也可能对出口民调说谎。

对此,一个非常间接的检验方法是,观察民调与实际结果的差距,然后观察这个差距是否在白人社经地位高的地方比较严重。因此,我把前面的民调资料、选举结果资料跟美国50个州加华盛顿特区的白人比例、教育程度比例进行整合,然后进行回归模型分析。回归模型显示,虽然样本数只有50个(州),但当仅放入白人比例与高教育程度比例的交互作用项,其交互作用项对特朗普的估计差异是有显著影响的(p = 0.03),可是影响方向跟假设是相反的。

用白话文来解释这段话,意思是,假如把美国的州依照白人比例以及学位比例分成四类(高低依照白人比例71%、大学学历31%的各州中位数区分),那么按照以上假设,白人多且大学学历者多的州,平均而言特朗普被低估的量应该是最低的。但是笔者的检测发现,特朗普被低估最多的地方,是白人多、但大学学历者较少的州。

不过这个检测的局限是,笔者在撰文之际并没有找到更细部的资料来源,因此只能进行间接估计,继而没有找到支持以上假设的证据。更直接的证据也许得等个人层次的民调资料释放出来,并且跨时间进行多次访问后,才有可能找到。

反过来说,可能性较大的一个原因是,这些州民的工作及生活型态比较难被电话以及网路民调接触到,因此在过去民调中都被低估了。当然,民调公司也被多次抨击过,民调采访了太多大学学历以上的选民,但民调公司大多使用改变不同受访者答案权重的方式来降低偏差。

2020年10月24日,北卡罗来纳州举行的特朗普竞选集会。
2020年10月24日,北卡罗来纳州举行的特朗普竞选集会。

需持续找出“选民不表态”的原因

综合以上分析,假如民调公司都确实能做到,在具代表性的美国人口母体抽样、并且有针对社经背景做正确的加权的话,那对民调不准确的解释,大概可能是有这样一群真正的特朗普支持者:不管胜败都会勇于投票,但是接到民调电话时刻意不说自己支持特朗普,而且这刻意不说并不是因为社会压力,而是其他因素。

在这样的情况下,民调能做的大概就是透过其他方式去套出支持者的真心话。政治科学学界的确有一些针对增加受访者诚实发言的问卷设计,但许多设计方式太过复杂,可能不适合电话访问,而只能当面访问或者透过网路平台访问,惟这两种方式又会产生其他可能的偏差。

总结来说,这样的固定偏差为何会发生,需要继续观察:是单纯发生于特朗普支持者的现象,还是共和党支持者普遍的现象?这个问题之所以重要,是因为特朗普在未来继续参选总统的可能性不高,因此找到“选民不表态”的最终原因,将会决定下一次美国总统大选时,民调是否会再次跟结果产生偏差。

(王宏恩,内华达大学拉斯维加斯分校政治系助理教授)

读者评论 13

会员专属评论功能升级中,稍后上线。加入会员可阅读全站内容,享受更多会员福利。
  1. 对于尚未统计完选票的数据,与民调之间做比较是不合适的,例如现在拜登和川普的普选票比例已经分别为51.0%和47.2%了,而还有大州(尤其NY)有很多选票没开出来。

  2. 言之有物而且讓人對數據產生興趣的文章。川普或共和黨的支持者對我來說一向是面目比較模糊的,希望有機會能多了解他們。我個人覺得保守派的選民似乎比較不信任民調,所以選擇拒答,造成民調的不準確。

  3. 用了一堆統計分析,最後什麼東東都沒說出來,這就是為什麼關在象牙塔中的拿學位的人以前吃的開,現在會被人看成百無一用的原因。
    其實民調失掉的原因,不需要太複雜的解釋,一句話:川普的選民被川普奮鬥不懈的強烈攻勢感動,美國之大,一天跑七、八個城市,真神人也,所以全力傾巢而出,所以候選人動員的「能量指數」是民調專家測不出來需要研究改進的地方。

  4. 很有意思的文章。在社会科学中,数学、逻辑、统计学也是无处不在的。

  5. 右下偏差是否应是:在拜登支持者较少的州更容易出现高估情况?

  6. 我认为即使是在特朗普支持度高的地方,特朗普的支持者们是否就不会感到压力仍然是一个值得商榷的问题。比如说,你的上司反对特朗普,尽管你的同事们其实大多是支持特朗普的,那么可能大家也都不会很公开地说出来。这个例子也与学历的调查结果相符。

  7. 不知道那些说trump voter shy的人有没有关注大选,这些低教育白人多的川粉地带根本没有必要shy,而且无任何社会压力(大部分人都投trump),且铁粉积极性极高,我觉得shy voter的猜测甚至还不如选民故意撒谎,因为川粉的社群经常鼓吹让被访者对民调撒谎。

  8. 我不認為民調有多失準,只是開票順序造成看起來很接近,事實上川普如民調顯示還是落後且也在搖擺州落後。

  9. 回Agora,第三張圖其實已經體現出,特朗普被低估最多的,是在白人比例高且大學學歷持有者比例低的地方。
    只不過是無法通過這個現象倒推動機,也即不能因此就說他們害羞或說謊。文章在講第一種和第四種說法時,已經討論過害羞或說謊都不是不可能,但未能提供毫無破綻的合理解釋。
    另外是白人比例高且大學學歷持有者比例低,與白人低學歷持有者,兩者也是有差異的。
    當然你的假設也是有可能成立的,但如文章最後說,應該是有更細部資料,通過多次訪問才能求證。

  10. 有感而发,何必要保卫一个保不住的观点呢…人啊,保持开放心态更好。

  11. 我蠻同意Agora的說法,因為無法有效駁斥反對意見,所以選擇一開始掩匿即自己投票意向。
    另外是否需探討怎樣的社會氛圍,才能有誤差率低的民調結果? 個人想法是,處於非我即敵的撕裂型政治氛圍下,因為討論空間已趨近於零,有一群需要內心安靜空間的選民,會自然對第三人探詢意象採沉默或說謊反應,這時採樣誤差會失準,屬於無效民調的社群,這時候失準的民調也是再度催化分裂的因素之一。

  12. 为什么不会是反过来:受教育水平低的白人因为害羞,而在民调中隐藏自己的真实意向呢?这其实更能完美解释现实:不管学历高低,川普的支持者都会认为媒体、外界有偏见,所以会有所保留。但学历低的因为在经验中更受歧视和更多地被人驳斥,而更难以保卫自己的观点(虽然并不会为此放弃自己的立场),所以在和外界接触时,更容易伪装/隐藏自己的政治立场。

  13. 所以目前我们已经知道民调公司基于教育水平进行了加权,那么是否可能是应答存在结构性差异,即相同等教育程度相较于民主党的支持者,教育水平低的白人共和党支持者更不倾向于回答民调,所以被赋予了较高权重的这一群体实际信度不够,从而导致结果存在对于拜登支持率的高估,并且在川普支持者越多的地方越明显。