評論|2021諾貝爾經濟學獎,為何是一場靜悄悄的革命?

如何判斷一場革命有沒有成功?
2021年10月11日瑞典斯德哥爾摩新聞發布會上,瑞典皇家科學院秘書長宣布諾貝爾經濟學獎得獎者。
國際 社會 經濟

「革命勝利了!」

在今年諾貝爾經濟學獎得主公布之後,推特上一眾社會科學學者異口同聲地發出了感慨。

他們口中的革命,是發軔於統計學,並逐漸擴散到社會科學各個領域,由因果推斷(causal inference)方法驅動,悄然間改變了實證研究基本面貌的「可置信性革命(credibility revolution)」。

因果識別需要隨機變動。

如今,當你翻開一篇社會科學中的實證論文,有很大概率會發現如下字眼的身影:「識別策略(identification strategy)」、「內生性(endogeneity)」、「準隨機分配(quasi-random assignment)」,亦或「自然實驗(natural experiment)」。雖然含義略有不同,但它們都體現了同樣的思想:想要論證從X到Y的因果關係,我們必須要依賴X獨立於Y發生的隨機變動。這一變動可以來自研究者的人為干預,即真正的對照實驗,也可以源於出乎意料的外生政策或事件衝擊。在後一種情況中,研究者無法控制隨機分配的過程,只能觀測到最終的結果,就彷彿是在自然中恰好撞見了一場由第三方執行完畢的對照實驗。因此這種情況得名「準實驗」或「自然實驗」。

一個經典的例子是今年諾獎得主Angrist於1990年發表於《美國經濟評論》(American Economic Review)的論文。他感興趣的問題是,服兵役會給個體未來的收入帶來怎樣的改變。顯然,直接對比有無參軍經歷者當下的工資水平,得到的估計並不準確。因為具備某些特質(比如身體強壯或服從紀律)的個體參軍意願更高,而這些特質又會影響他們在勞動力市場上的表現。因此,我們很難知道,工資水平的差異究竟完全是由兵役導致,還是源自個體在其他方面的差異。這些會對因果識別產生干擾的差異,被統計學家們形象地稱為「混淆變量(confounder)」。

如果我們可以開展一場實驗,隨機地決定每名被試需不需要參軍,那自然就可以排除混淆變量的干擾。只不過,這樣的實驗若由學者執行,必然違反倫理,不具備可行性。Angrist獨闢蹊徑,考察了七十年代初美國政府在越戰期間進行的軍事動員。當時的美國國防部出於公平性的考慮,採用了抽籤的方式來決定每名適齡男性是否要應徵入伍。Angrist的分析發現,被抽中的越戰老兵跟未參戰的同齡人相比,在八十年代的收入要低15%。由於抽籤的隨機性,這一歷史事件相當於是由政府實施的大規模實驗,因此上述數字可以被視作對服兵役和收入水平之間因果關係的可信估計。

舊制度

「基於結果的視角」不得不面對一個根本性的問題。

因果識別需要隨機變動,這是現代統計學的開山祖師,Ronald Fisher和Jerzy Neyman就已經清楚認識到的道理。他們二人分別發明的置換檢驗(permutation test)和置信區間(confidence interval),至今仍是實驗分析中最為常用的工具。只不過由於時代的限制,他們並未試圖將隨機化的理念推廣到非實驗數據之中。更糟糕的是,二戰前的統計學,有一段和種族主義互相糾葛的不光彩歷史。著名統計學家,也是回歸分析的發明者高爾頓,曾試圖用統計方法,在不同人種的顱骨尺寸和平均智力之間建立因果關係。就連Fisher自己,也因為是優生學的忠實擁躉而飽受爭議。戰後成長起來的一代統計學家對這段歷史深為不齒,轉而擁抱了另一位統計學巨匠,高爾頓門生皮爾遜所提倡的理念:相關非因果(Correlation does not imply causation)。一時間,統計學的潮流變成了尋找反例,來揭示因果推斷中可能存在的各種謬誤,以證明此類嘗試的荒誕不經。

與此同時,在大戰期間自然科學高速發展的帶動下,社會科學迎來了各色理論蓬勃興起的時代。經濟學在薩繆爾森的帶領下迅速完成了數學化,建立了植根於最優化理論的微觀基礎;而納什和阿羅的開創性工作,讓均衡的概念深入人心。在政治學和社會學中,帕森斯的結構功能主義佔據了主導地位。這一時期的理論家們,試圖去釐清給定封閉系統(一個經濟體或者一個社會)內,均衡狀態下各個變量之間的相互作用。在一定的模型假設下,這些作用可以被歸結為一組聯立的線性方程,即所謂的「結構方程模型(structural equation modeling)」。方程組中,有些變量同時出現在左右兩端——既接受來自其他變量的作用,又作用於其他變量——因而是「內生」的;另一些變量只存在於右手端,是純粹的輸入,可以被視為「外生」的。利用觀測到的數據,我們可以試圖求解(「識別」)方程的各個係數。如果我們相信,手頭的理論模型是對現實足夠精確的近似,那麼解出的模型就可以幫助我們預測,當某個外生變量(比如利率)取值改變時,感興趣的內生變量(比如儲蓄率)會如何響應。

隨着統計技術的發展,學者們建立的模型也越來越複雜——不但形式愈發靈活,囊括的變量也更多。然而,這種「基於結果的視角(outcome-based perspective)」不得不面對一個根本性的問題:影響任意結果(比如個體收入)的因素,都可能有成百上千種,無法被一個模型一網打盡。應該增加哪些變量,刪去哪些,最後往往變成了理念上的爭執,沒有經驗證據作為支撐——如果我們認為,年齡是決定收入的重要因素,那年齡的平方項呢?立方項呢?跟其他變量的交互項呢?要怎麼判斷哪個模型是更好的選擇?怎麼確保研究者不會刻意去選擇提供了有利證據的模型?

統計學家 Jerzy Neyman。
統計學家 Jerzy Neyman。

火種

換言之,我們不再在乎「結果的原因」,而是去關心「原因的結果」。前者要求我們對事物的運作規律有完整的認識,而後者只需要自然的一次無心插柳。

當社會科學家們為這些問題爭論不休時,他們並不知道,一場將要橫掃各個社科領域的革命,已經在美國的東海岸播下了火種。哈佛畢業的統計學家Don Rubin當時供職於美國教育考試服務中心(ETS)。他對於心理學家同事們在對照實驗中也要使用模型的做法感到疑惑不解,於是寫了一篇短文加以反駁。在這篇短文中,Rubin提出了一種後來被稱為「潛在結果(potential outcome)」的分析框架,以幫助人們理解實驗數據。所謂潛在結果,看起來是個再簡單不過的想法:比如在隨機分配藥物的對照實驗中,我們或者觀察到某個被試服用藥物後的健康狀況(潛在結果1),或者觀察到其服用了安慰劑之後的健康狀況(潛在結果2),但永遠不可能同時觀察到兩者。未被觀察到的那個潛在結果,即被稱為實際結果的「反事實(counterfactual)」。Rubin指出,任何實驗處理(treatment)所產生的因果效應,等於兩個潛在結果之差在樣本中的平均值,即「平均處理效應(average treatment effect)」。因果識別的根本挑戰,就在於利用手頭的信息,去推斷未被觀察到的反事實會是怎樣(Holland,1986)。

這個看似簡單的框架,跟隨機化的理念相結合之後,爆發出了驚人的能量。Rubin證明,只要處理分配是隨機的,那麼處理組(treatment group)和控制組(control group)的平均結果,即為兩個潛在結果平均值的可信估計。進而兩組在平均結果上的差異,也就告訴了我們平均處理效應的大小。更重要的是,Rubin注意到了實驗和自然實驗之間的相似性,第一次將非實驗數據放置於實驗的框架下進行思考:如果我們想知道X和Y是否存在因果關係,那與其去關注哪些因素影響了Y,倒不如想想X的變動由哪些因素決定,再去尋找X相對於Y發生了隨機變動的情境,並由此對反事實進行推斷。換言之,我們不再在乎「結果的原因」,而是去關心「原因的結果」。前者要求我們對事物的運作規律有完整的認識,而後者只需要自然的一次無心插柳。

反過來說,Rubin的框架也意味着,只有存在隨機化的處理分配時,討論因果性才有意義。因此,當研究者們想在非實驗數據中找到因果關係時,他們必須要回答如下問題:在何種假設下,數據的生成過程可以被視為一次隨機實驗?如何論證假設的可信性?如果假設未被滿足,分析結果會不會發生很大變化?本質上,Rubin要求實證研究者用實驗設計的標準來評判非實驗數據的生成過程。自變量被視為「處理狀態(treatment status)」,因變量是「結果(outcome)」,通過隨機分配識別因果關係的具體方法則是「識別策略」。這種範式後來被稱為「基於設計的視角(design-based perspective)」。

濫觴

實證結果跟理論預測相悖,那我們應該去質疑自然實驗的效力,還是去相應地修正理論?三位諾獎得主不約而同地選擇了後者。

但是,對於自然實驗的分析,很多時候並不如真實實驗那麼簡單。由於處理的分配過程無法被控制,甚至不能被直接觀測,研究者往往要依靠統計方法對數據進行調整,以期儘量分離出感興趣的因果關係。而這,正是今年三位諾獎得主最為顯著的貢獻。比如在Angrist那個越戰老兵的例子中,一個不可忽視的事實是,抽籤結果跟實際入伍情況並不完全一致——有些未抽中的愛國青年會主動從軍,而另一些抽中的人會想方設法逃避兵役。在實驗設計裏,這種現象被稱為「不依從(non-compliance)」。如何在存在不依從的時候估計因果效應?在1995年的一篇經典論文中,Angrist、Imbens和Rubin一起解決了這個問題。他們指出,根據處理分配和實際的處理狀態,我們可以把整個樣本分成四類人:始終接受者(always-taker),無論抽中與否都會從軍的人;從不接受者(never-taker),無論抽中與否都不會從軍的人;依從者(complier),只有被抽中時才會從軍的人;違逆者(defier),只有沒抽中籤才會從軍的人。這其中,違逆者在現實中的比例應該可以忽略不計。那麼,利用抽籤的隨機性,我們就能計算出其他三類人的比例——比如在抽中籤的人裏,沒去服兵役的必定是從不接受者,而餘下的則是依從者。因為只有依從者的選擇跟抽籤結果有關,所以抽籤造成的收入差異,完全體現在他們身上。也就是說,越戰徵兵的自然實驗,只能幫我們識別兵役對依從者這個群體的處理效應,這被三位作者稱為「局部平均處理效應(local average treatment effect)」。

他們的文章,為因果推斷中一類重要的方法——工具變量(instrumental variable),奠定了堅實的統計基礎。所謂工具變量,即跟處理狀態相關,但又不直接改變潛在結果的某個變量,比如例子中的中籤與否:中籤的人參軍概率更高,但收入只跟參軍掛鈎,不直接由抽籤決定。儘管這一方法早已在經濟學中出現,但直到這篇文章,學者們才意識到了工具變量與不依從之間的深刻關係,其背後藴含的假設,以及其估計值的真正含義。

運用工具變量法,Angrist和合作者Krueger又巧妙地回答了經濟學中另一個經典問題:更長的教育年限是否能帶來收入的增長?他們為教育年限找到的工具變量,是個體的出生季度。出生季度顯然不會直接影響收入,但出生在下半年的人,相比於出生在上半年的同班同學年齡更小,也更難滿足輟學所需的年齡要求(在美國一般為16歲)。比如A和B分別出生在1990年的3月和10月,那麼到了2006年9月新學年開始之前,A已經年滿16歲,可以選擇輟學,而B則不能,只好多接受一年中學教育。Angrist和Krueger估計,多出的這一年,可以在將來讓B的收入獲得7.5%的增長。

當顯而易見的隨機分配難以尋覓的時候,實證研究者常用的一種識別策略,是將特質相似的個體放在一組,分組估計處理效應再進行加總。這背後的思路,是讓數據看起來儘可能像分組實驗(blocking experiment)的產物——在根據固定特質劃分的組別裏,我們有更充分的理由相信,處理的變動源自隨機分配。舉例來說,我們想知道有女兒的美國法官會不會在判決時更為仁慈。在由全體法官構成的樣本里,有沒有女兒未必是隨機的。很明顯,年輕的法官更可能沒有女兒,而判決標準則也許更為嚴苛。但是,在每個年齡相仿、履歷類似、政治立場相近的法官子群體裏,家裏有沒有女兒跟判決的潛在結果,看起來就更像是互相獨立的事件。

在統計學中,這一策略被稱為匹配(matching),最早也是由Rubin發明。現實世界中,完美的匹配經常難以實現,我們不得不依靠各種各樣的近似,比如將最為相似的每五名法官分為一組,或者根據法官們有女兒的概率——所謂的「傾向評分(propensity score)」——進行分組。從2006年至今,Imbens和合作者Abadie發表了一系列論文,研究了不同近似法則對最終估計的影響,並推導了相應的統計分布。他們證明,從匹配得到的估計並不滿足中心極限定理成立的條件,因此無法應用自助法(bootstrap)進行統計推斷。Imbens還進一步探討了如何利用傾向評分進行加權(weighting)估計,以及如何將匹配或者加權跟經典的回歸分析相結合,以得到更加穩健的估計結果。他提出的這些方法,目前都已經成為了因果推斷中最為常見的工具。

在一些情況下,即使分組也不能完全確保隨機的處理分配。我們也許會擔心,分配過程還受到不可觀測的混淆變量干擾。Card和Krueger在研究最低工資水平和快餐店員工就業率之間的關係時,就遭遇了這一挑戰。他們想利用的自然實驗,是從1992年4月1日起,新澤西州將法定最低時薪從4.25美元上調到5.05美元,而接壤的賓夕法尼亞州則未有改變。那麼,是不是比較一下兩州邊界上特質相似的快餐店僱員人數上的差異,就能斷定最低工資的上漲有沒有拉低員工就業率呢?並不一定。一種可能是,新澤西州的顧客更習慣於自助點餐,因而快餐店裏本來員工人數就更少。Card和Krueger的調查數據顯示,在1992年2月時薪調整之前,新澤西州快餐店的平均僱員人數是20.44人,確實少於賓州快餐店的23.33人。

為了更好地利用時薪調整中包含的隨機性,Card和Krueger採用了一種名為雙重差分法(difference-in-differences)的識別策略。他們假設,也許最低時薪的上漲不獨立於快餐店的僱員人數本身,但至少獨立於僱員人數的變化趨勢。這意味着,混淆變量的影響在各個時期是恆定的。這樣的話,我們可以先計算每家快餐店1992年4月1日前後的僱員人數變化(一重差分)以消除混淆變量,再對比兩州平均僱員變化率上面的差異(雙重差分)。雙重差分的結果顯示,在處理開始之後,新澤西快餐店的平均僱員人數跟賓州的相比,並未表現出更緩慢的增長。在另一項研究中,Card將雙重差分用於衡量古巴移民的湧入對邁阿密勞動力市場的衝擊,發現效應也十分微弱。

Card、Angrist和Imbens的開創性研究,極大地動搖了經濟學界對於傳統方法的信心。根據經典理論,最低工資的上漲必然導致就業率下跌,移民的湧入必然降低市場薪資水平。現在,實證結果跟理論預測相悖,那我們應該去質疑自然實驗的效力,還是去相應地修正理論?三位諾獎得主不約而同地選擇了後者。在他們看來,基於隨機處理分配得到的估計值,才是檢驗因果關係的黃金標準,要遠比抽象的邏輯推導更為貼近現實。兩者出現的偏差,恰恰說明經典理論,以及由此而來的結構式估計(structural estimation),可置信度(credibility)遠遠沒有我們想像得高。經濟學想進一步發展,想對現實有更大的指導意義,需要一場可置信性革命,需要以實驗和自然實驗作為理論的試金石。

統計學家Donald Rubin。
統計學家Donald Rubin。

燎原

如今,因果推斷已經成為了一座各個學科匯聚一堂的大熔爐:統計學家、社會科學家、計算機科學家和醫學工作者們,一邊立足本學科的需求提出新的問題,一邊從其他學科那裏借鑑洞察和經驗,時不時合作進行難題攻堅。

革命永遠激動人心,哪怕在經濟學家中也是如此。追隨着他們三人的腳步,經濟學界對於自然實驗的熱情變得空前高漲。斷點回歸(regression discontinuity)、控制函數(control function)、合成控制法(synthetic control)……新的識別策略層出不窮,滲透的領域也日益廣泛。從民主是否促進經濟增長(Acemoglu et al., 2001),到加強警力能不能夠遏制犯罪(Levitt, 2002),革命者們在一個又一個議題上向傳統智慧發起了挑戰。自然實驗的人氣也讓對照實驗變得更為流行。以19年諾貝爾經濟學獎得主Banerjee、Duflo和Kremer為代表的學者,將眾多發展中國家變成了自己的實驗場。他們與政府或國際組織合作,單刀直入地在實地檢驗不同政策的效果,將發展經濟學帶入了嶄新的時代。甚至在許多曾被認為無法用實驗方法研究的領域,比如國際貿易和產業組織中,經濟學家們也挖空心思地引入了隨機干預,並取得了豐碩的成果。

隨着革命進程的深入,其真正的意義也愈發清楚地展現在人們面前。首先,新方法可以直接幫助我們評估某項政策的收益,因此前所未有地拉近了經濟學研究跟現實世界的距離。過去三十年間,Card和Angrist在勞動經濟學和教育經濟學上不斷地將知識前沿向前推進:技能培訓到底有沒有用(Ashenfelter and Card, 1985)?小班教學的收益有多大(Angrist and Levy, 1999)?哪種擇校模式更有效率(Abdulkadiroğlu et al., 2017)?他們的工作深刻地重塑了美國從聯邦到地方的政策制定,也為各個國家的無數後來者所效仿。其次,出乎意料的實證結果破除了經濟學家對經典理論的迷信,讓行為經濟學等一批「旁門左道」獲得了更多注意力,也迫使理論研究者更注重從現實中汲取靈感。最後,也是最重要的是,新一代經濟學家們意識到,你不用再學習複雜的動態一般均衡模型(DSGE),也能做出極具價值的研究。你需要的,只是一本《基本無害的計量經濟學》(Angrist和Pischke合著的教材),一個好用的統計軟件,以及一次還未被人注意到的自然實驗。隨着門檻的降低,經濟學中的實證研究變得空前民主化和國際化了,哪怕你身處第三世界,並不了解經濟理論的前沿進展,也能借由本國的案例為學科發展做出貢獻。

沒過多久,從事定量研究的政治學家和社會學家們也感受到了革命的召喚,而他們的皈依某種程度上甚至比經濟學家們還要更加徹底。這兩個學科本身沒有結構式估計的傳統,因此範式轉換的成本更低,更願意接受被經濟學家視為異端的工具,比如聯合選擇實驗(conjoint experiment)、貝葉斯推斷(Bayesian inference)和中介分析(mediation analysis)。新方法的出現,打開了通往無限可能的大門,讓不少子領域重煥生機。在美國政治中,向政治家寄出內容隨機剪裁的信件以探知其回應性(responsiveness),或者藉由票數接近的選舉來考察黨派跟政策之間的關係,已經成為了學者們的常規操作。

因果推斷在社會科學中的成功,反過來又讓更多統計學家和計量經濟學家對相關問題產生了興趣。他們的加入,促進了因果推斷和統計學其他領域的交流,加速了新方法的生產和應用。Imbens近年的工作就主要集中於這一方面。他跟合作者一道將各類機器學習算法引入了因果推斷(Athey and Imbens, 2019)。機器學習的靈活性,讓我們獲得了對誤差更加穩健的識別策略,也得以更加具體地刻畫處理效應在樣本中的分布,設計更加有效率的處理分配。

如今,因果推斷已經成為了一座各個學科匯聚一堂的大熔爐:統計學家、社會科學家、計算機科學家和醫學工作者們,一邊立足本學科的需求提出新的問題,一邊從其他學科那裏借鑑洞察和經驗,時不時合作進行難題攻堅。計算機科學巨匠Judea Pearl提出的因果圖模型(Pearl, 2009),被政治學家入江直樹用於研究德國仇恨犯罪的蔓延(Egami, 2019);經濟學家Manski對部分識別(partial identification)的思考(Manski, 2000),啟發了流行病學家對抽樣方式的改進(Crawford et al., 2018)。大數據時代的到來,讓因果推斷有了更廣闊的用武之地。大數據能承載更復雜的工具,導向更準確的估計,進而幫我們篩選出更有解釋力的理論;理論再為下一步的研究設計指明方向。社會科學家關於人類行為的知識正在以空前的速度積累,也許很快就能給人類社會本身帶來天翻地覆的變化。

諾貝爾經濟學獎得主之一,美國麻省理工學院教授安格里斯特(Joshua D. Angrist)。
諾貝爾經濟學獎得主之一,美國麻省理工學院教授安格里斯特(Joshua D. Angrist)。

退潮、和解與新希望

門檻降低的副作用之一,就是研究者們對統計工具不加思索的濫用,面對非實驗數據,不去思索背後的生成過程,就生硬地套上一個工具變量或者傾向評分匹配,然後聲稱自己得到了因果效應的估計。

但就跟其他革命一樣,可置信性革命的發展,也始終伴隨着攻訐和質疑。一部分批評來自革命陣營內部。隨着對因果推斷的理解愈發深入,學者們逐漸發現,早年的那批開創性研究,確實存在不少值得商榷之處。比如以出生季度作為教育年限的工具變量,看似巧妙,實則漏洞頗多。一來出生季度跟教育年限之間的相關性實際上非常微弱,是一個弱工具變量,會給估計帶來偏誤;二來出生季度未必是隨機分配,新生兒往往集中於特定月份出生,而且跟家庭背景有關。抨擊雙重差分方法的論文,則更是汗牛充棟。新方法固然更加透明可靠,但也只有在滿足一定假設的前提下才能生效。門檻降低的副作用之一,就是研究者們對統計工具不加思索的濫用,面對非實驗數據,不去思索背後的生成過程,就生硬地套上一個工具變量或者傾向評分匹配,然後聲稱自己得到了因果效應的估計。

但是,世間沒有萬靈藥。在沒有隨機分配的情境中,強求因果識別,反而違背了「基於設計的視角」這一根本理念,只會降低人們對社會科學,乃至因果推斷方法的期待。近年來,以工具變量作為識別策略的論文愈發少見,很大一個原因,正是之前發表的大批劣質研究,摧毀了學界對這種方法的信任。舉例來說,研究非洲的學者們曾經用降雨量作為農業收成的工具變量,去識別收成縮減如何加劇武裝衝突。但2015年發表的一篇論文發現,在修建了水壩的地區,儘管降雨量不再能影響農業,卻還是跟衝突發生的概率高度相關(Sarsons, 2015)。這說明降雨通過其他渠道發生了作用,並不符合工具變量的基本要求。防止此類情況再度出現,一要靠統計方法的不斷進步,二要靠學術界內部的制度建設,用「事前註冊(pre-register)」等方式,減少濫用工具的激勵。

更加刺耳的聲音,來自傳統方法的擁護者們。他們中的一些人認為,所謂「局部平均處理效應」根本沒有意義,因為每次實驗的依從者群體可能都各不相同,無法作為政策制定的參考。還有一些人斷言,缺乏理論的指導,單靠對因果效應的估計,我們還是很難真正理解世界的運作方式。就連諾獎得主們也不得不承認,這些意見不無道理。但他們也指出,傳統方法並不能幫助我們做得更好。因果推斷跟結構式估計,也從來不是非此即彼的互斥關係。相反,將兩種方法結合起來,能夠讓我們對社會現象有更加深刻的認識。城市經濟學家們已經嘗試過,將柏林牆的建立和倒塌作為兩次外生衝擊,來識別城市地理模型中的深層參數,諸如個體對居住環境的偏好和生產力對區位的依賴(Ahlfeldt et al., 2015)。政治學家Svolik在考察美國人對民主的態度時,將調查實驗(survey experiment)嵌入空間投票模型(spatial voting model)之中,讓人們直觀地感受到了美國人願意為民主制度支付的代價(Graham and Svolik, 2020)。

因果推斷跟結構式估計,也從來不是非此即彼的互斥關係。相反,將兩種方法結合起來,能夠讓我們對社會現象有更加深刻的認識。

如何判斷一場革命有沒有成功?領袖人物譽滿天下,桂冠加持,自然是一個強烈的信號。但也許更為重要的是,革命帶來的改變,已經不知不覺間成為了我們生活中的一部分,讓人很容易就忘記了舊時代的模樣。可置信性革命無疑符合這樣的標準。各個社科院系的研究生們,有幾個沒聽過《基本無害的計量經濟學》,有幾個對潛在結果和處理效應聞所未聞?也許總有一天,統計工具上的新舊之爭,會被徹底遺忘。範式的選擇將取決於具體問題,而非學者的師承或者無謂執念。當被問及在方法論上的偏好時,我們每個人都會像政治學家Adam Przeworski那樣作答:「我是一個方法論上的機會主義者……我從來沒有什麼原則。」

參考文獻:

Abadie, A., & Imbens, G. W. (2006). Large sample properties of matching estimators for average treatment effects. econometrica, 74(1), 235-267.

Abadie, A., & Imbens, G. W. (2008). On the failure of the bootstrap for matching estimators. Econometrica, 76(6), 1537-1557.

Abdulkadiroğlu, A., Angrist, J. D., Narita, Y., & Pathak, P. A. (2017). Research design meets market design: Using centralized assignment for impact evaluation. Econometrica, 85(5), 1373-1432.

Acemoglu, D., Johnson, S., & Robinson, J. A. (2001). The colonial origins of comparative development: An empirical investigation. American economic review, 91(5), 1369-1401.

Ahlfeldt, G. M., Redding, S. J., Sturm, D. M., & Wolf, N. (2015). The economics of density: Evidence from the Berlin Wall. Econometrica, 83(6), 2127-2189.

Angrist, J. D. (1990). Lifetime earnings and the Vietnam era draft lottery: evidence from social security administrative records. The American Economic Review, 313-336.

Angrist, J. D., & Keueger, A. B. (1991). Does compulsory school attendance affect schooling and earnings?. The Quarterly Journal of Economics, 106(4), 979-1014.

Angrist, J. D., Imbens, G. W., & Rubin, D. B. (1996). Identification of causal effects using instrumental variables. Journal of the American statistical Association, 91(434), 444-455.

Angrist, J. D., & Lavy, V. (1999). Using Maimonides' rule to estimate the effect of class size on scholastic achievement. The Quarterly journal of economics, 114(2), 533-575.

Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics. Princeton university press.

Ashenfelter, O., & Card, D. (1985). Using the Longitudinal Structure of Earnings to Estimate the Effect of Training Programs. The Review of Economics and Statistics, 648-660.

Athey, S., & Imbens, G. W. (2019). Machine learning methods that economists should know about. Annual Review of Economics, 11, 685-725.

Card, D. (1990). The impact of the Mariel boatlift on the Miami labor market. ILR Review, 43(2), 245-257.

Card, D., & Krueger, A. B. (1993). Minimum wages and employment: A case study of the fast food industry in New Jersey and Pennsylvania.

Crawford, F. W., Aronow, P. M., Zeng, L., & Li, J. (2018). Identification of homophily and preferential recruitment in respondent-driven sampling. American journal of epidemiology, 187(1), 153-160.

Egami, N. (2018). Identification of Causal Diffusion Effects Under Structural Stationarity. arXiv preprint arXiv:1810.07858.

Graham, M. H., & Svolik, M. W. (2020). Democracy in America? Partisanship, polarization, and the robustness of support for democracy in the United States. American Political Science Review, 114(2), 392-409.

Hirano, K., Imbens, G. W., & Ridder, G. (2003). Efficient estimation of average treatment effects using the estimated propensity score. Econometrica, 71(4), 1161-1189.

Holland, P. W. (1986). Statistics and causal inference. Journal of the American statistical Association, 81(396), 945-960.

Levitt, S. D. (2002). Using electoral cycles in police hiring to estimate the effects of police on crime: Reply. American Economic Review, 92(4), 1244-1250.

Manski, C. F. (2003). Partial identification of probability distributions. Springer Science & Business Media.

Pearl, J. (2009). Causality. Cambridge university press.

Rubin, D. B. (1973). Matching to remove bias in observational studies. Biometrics, 159-183.

Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of educational Psychology, 66(5), 688.

Sarsons, H. (2015). Rainfall and conflict: A cautionary tale. Journal of development Economics, 115, 62-72.

讀者評論 13

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 端应该每年对自然科学的诺贝尔奖也请些人来写科普

  2. 自然实验和真实实验除了随机变动之外,另一个差别或许在于盲法。这在越战的案例中比较明显。在这个案例中,将抽签结果作为工具变量应该也与这个变量的随机性相关。说得简单一点应该是抽签的结果是随机的,自然发生的抽签,就像在真实实验中的随机分组一样,是否会抽中与实验对象的特征无关。但是在大部分真实实验中,虽然会随机将所有实验对象分成两组或几组,但是究竟哪一组是实验组,哪一组是对照组是不会告知实验对象的。这也就是所谓的盲法。盲法的意义在于避免由于实验对象的心理作用影响实验的结果。例如在测试药物有效性的实验中,一旦告知实验对象自己在实验组,所接受的药剂是正在试验中的新药而不是糖丸或者淀粉丸,就有可能发生由于心理作用而觉得自己的病情好转了,至于好转是否真的是由药物带来就变得很难分析。这就是所谓安慰剂效应,其中实验对象的心理作用成为了混淆变量。因此在真实实验中实验对象不会知道自己在实验组还是在对照组。但在越战的案例中,抽签的结果必然会通知本人,不然这个人怎么知道自己需不需要去参军,也因此就不可能实现盲法。伴随而来的是实验对象的心理变化。这可能是自然实验与真实实验的另一个差别,或许也会影响因果分析的可置信性。

  3. 不过近10年来最重要的经济学研究恰恰是有意抛弃了细微模型研究,转到大尺度上的21世纪资本论

  4. 休谟问题的复归

  5. 作為外行的醫療人員感覺每個字都看得懂,但湊在一起就變天書了XD

  6. 人文学科确实是方法论越来越多样化了,既要懂文本解释方法,又得懂实证研究方法。而且没有掌握多门语言难以进行对比研究,英语必须要学,实证研究又要求一定的计算机知识,高等数学和统计学也学得头都大了。

  7. 最近在看Good Economics for Hard Times,裏面就正正討論了上述問題,例如明知外國月亮比較圓人口為何不流動、沒有完全相同的國家作比較之下如何辨別政策成效、自由貿易是否真的有利經濟增長等等議題。看見現代經濟學打破固有思維真的很有趣。

  8. 兼顾了学术和科普两个方面,很不错的文章!

  9. 现代政治学者已经进化到精通拉丁文希腊文,读得懂柏拉图、圣奥古斯丁;证得了宽平稳随机过程,进行得了假设检验;还可以用C++直接调用高性能指令集进行分布式蒙特卡罗数值模拟的境界了吗……🤣

  10. 内容已经有点超出新闻写作的范畴。但作为社会学学生,读下来我高呼精彩。

  11. 不愧是端,写的清晰又专业。

  12. 自由風吹倒劊子手表示:

    好文!

  13. 相关方法论作品
    中文翻译:基本无害的计量经济学
    精通计量
    中文书籍:因果推断实用计量方法
    基本有用的计量经济学