巴拿馬文件 編讀手記

巴拿馬文件背後,記者和程序員如何聯手做新聞?

為了解析、共享、使用2.6TB的巴拿馬文件,他們到底開發了哪些工具?記者們又如何使用?


巴拿馬文件的曝出,靠的是近80個國家的400多位記者,在逾12個月的調查中的凝心聚力。
巴拿馬文件的曝出,靠的是近80個國家的400多位記者,在逾12個月的調查中的凝心聚力。端傳媒攝影部/設計圖片

一家律師事務所,曝光1150萬份文件,數據量超過2.6TB,涉及214萬家離岸公司,21個避税天堂,和全球72名前任或現任國家元首、政府首腦或其家人——巴拿馬文件的曝出,靠的是近80個國家的400多位記者,在逾12個月的調查中的凝心聚力。而他們的聯繫與協作,則是得益於國際調查記者同盟(ICIJ)鋪就的數據管道。

由此,一個深入當地、放眼全球的新聞編輯室文化,一種記者與程序員的有效聯結,正在多個國家的記者團隊中紮根、發展。

ICIJ的數據團隊,是怎麼建起來的?

現在能駕馭大型數據調查的ICIJ,4年前卻為此大為頭疼。當時,前一年在哥倫比亞大學史泰博調查報導中心交流學習的莫爾•卡布拉(Mar Cabra)加入ICIJ,全職員工僅有4名,機構缺乏數據處理能力。遇項目需要,他們通常招募短期僱員處理數據。雖可解一時之急,但合同工的工作時間不固定,項目持續性差,發展缺乏長遠規劃。

2011年,ICIJ掌握了250萬份離岸金融秘密文件,聯合50多家媒體機構開始分析密檔,陸續揭露了10個離岸金融管轄地、10萬多個離岸公司的交易情況以及公司的實際持有者,最終成為影響波及全球的「離岸解密」項目(Offshore Leaks)。項目的巨大影響導致多個政府立案調查、高層下台、修訂政策。這也是ICIJ首次做這樣規模的大數據分析。

項目結束後,參與項目的兩位程序員加入ICIJ,搭建起數據團隊。如今,機構共有12名員工,有着四名程序員和三位記者的數據和研究團隊就佔了半壁江山,電視記者出身又熱衷於數據新聞的卡布拉擔任團隊負責人。她曾比喻自己就像空中管制員,負責程序員和記者之間的溝通、協調,監督管理工作進度,直接向副總監報備工作。此後,ICIJ成員合作模式也日漸純熟,具備了處理大數據量的能力。此次,2016年巴拿馬文件的數據量為2.6TB,是2013年離岸解密的10倍,維基百科的1500多倍,絕大多數為郵件、符合數據庫格式的信息、PDF文件、圖像和文本文件。

程序員X記者,如何搞定2.6TB調查?

電子通訊軟件、數據處理工具、數據庫,以及可視化呈現工具,都是ICIJ製作、發布項目、擴大影響力的有利助手,都是程序員和記者相互合作、打磨的結果。在卡布拉的帶領和協調下,程序員協助解析數據、開發工具,並積極徵求記者同伴的意見,以便日後改進。

為了與數十個國家的記者做快速溝通,ICIJ摒棄了既麻煩也不安全的郵件組。他們得到了奈特原型基金(Knight Prototype Fund)的資助,提升開源軟件Oxwall安全和使用性能,聯繫成員測試、改進,一步步變成了現在的「記者版臉書」Global I-Hub:登入時需通過雙因素認證(two-factor authentication ),登入後頁面上顯示論壇話題、鏈接,用戶可分享文件、實時聊天。

大家可能好奇,這2.6TB的數據文件,是如何被解析的?要知道,大部分泄密數據零散不一、未成結構,莫薩克•馮賽卡律師事務所的內部數據庫到ICIJ手上時已不再是原有格式。程序員裏戈韋託•卡瓦哈爾(Rigoberto Carvajal)和開發員米格爾•費安多(Miguel Fiando)重新構建了數據庫結構,根據文件原有編碼找到數據之間的關係,使文件符合圖形數據庫格式。

ICIJ這次遇到的文件格式千奇百怪,他們於是不得不將絕大多數文件做光學識別(OCR)掃描,再標記索引、處理解析。ICIJ用了三四十個臨時服務器,以便同時完成處理數據和掃描文件的任務。

數據解析完成,ICIJ用圖書館員常用的開源解析工具Project Blacklight,做分面搜索。工具支持按文件結構、年份、文件類型檢索,也可支持正則表達式檢索,用戶可檢索含有護照號碼等特定格式數字的文件,預覽並下載。程序員馬修•卡魯阿納•加利齊亞(Matthew Caruana Galizia)解析出文件處理鏈的代碼,供ICIJ做開源共享。

經程序員的努力,ICIJ還開發了批量檢索功能。如果記者想尋找所在國家的政治人物,上傳名單到Blacklight,系統便可按照近似度檢索,將結果輸出至csv格式的表格。這就意味着,如果檢索含有冰島首相西格蒙杜爾•貢勞格松(Sigmundur Gunnlaugsson)的名字,若將結果的相似度設置為2,可搜出符合「西格蒙杜爾·貢勞格松」,「西格蒙杜爾·X·貢勞格松」,「貢勞格松,西格蒙杜爾」格式的結果。記者可自主設置條件,快速檢索。

將海量數據可視化,也是一個需要程序員巧思的細緻工序。ICIJ選擇了工具Linkurious,用關係圖展現數據,方便易懂。記者僅需點擊數據點、延伸數據網,就能檢索姓名。記者還可通過它用API抽取數據,或者把它插入網頁故事。

此外,ICIJ還開發了一個承載數據庫的交互式工具「The Power Players」,可查 70多位政治人物的資料。點開頁面,你就能看到政治人物的頭像依次排列,點擊頭像,在左側可見與該人物相關的數據條目,右側可見其周圍的關係網。報導發表前,ICIJ會與合作伙伴分享這個交互工具的嵌入代碼,有些非英語國家的媒體還會翻譯成自己的語言。

上述功能強大的工具,藏着ICIJ貼近記者需求的用心。對ICIJ來講,與他們合作使用工具的用戶既有熟稔數據技能、與程序員並肩作戰的記者,同時也有擅長分析文件、與人交談卻在技術上怯場的傳統調查記者。因此每個工具都必須照顧兩方的需求,操作過程儘量簡單,但也能完成結構複雜、體量龐大的工作。

目前,ICIJ已經在嘗試開發一個可以在不同電腦上安裝、配合瀏覽器運行的插件式工具,方便記者與持有相應實體機構信息的其他記者聯繫、合作。想要做到這一點,ICIJ還需讓工具克服自然語言處理等難關。

海量數據到手,小型記者團隊如何庖丁解牛?

順着ICIJ構建的數據通道,各國記者團隊開啟了揭黑之旅。

去年夏天,深耕調查報導40餘年的印度尼西亞《Tempo》週刊受ICIJ邀請,組建了一支由調查組編輯菲利普斯·帕里拉(Philipus Parera)帶領的6人記者團隊。

粗覽數據,《Tempo》的記者發現,近800名印尼政商界人士的名字赫然在列。他們列出名字,分為三類:政府官員、商人和其他,每個記者分配相應人數進行調查。六個月裏,在ICIJ提供的編程、數據處理的支持下,他們搜索利益鏈條,每天和其他參與調查的媒體討論發現、互通有無,向ICIJ報告進展。

今年4月3日,《Tempo》發表了第一批報導。報導披露的名單裏,包括因腐敗案外逃的在國內勢力龐大的兩名企業家以及首都雅加達地方行政長官,輿論嘩然。

與ICIJ的這次合作,讓這個傳統紙媒體驗到了數據挖掘、跨境合作的潛力。在帕里拉看來,巴拿馬文件採取的跨境調查形式,可以為故事增值。他說:「從這次調查後,我們相信,如果要做更具影響力的調查報導,我們必須要通過合作。不僅在印尼國內,在亞洲甚至國際上,我們正開始嘗試和儘可能多的媒體建立合作網絡。」他表示,雜誌也正考慮聘請程序員,來協助處理日益增多的大數據分析或其他調查項目。

蒙古電視台也是巴拿馬文件調查中的一員,但一開始並未參與其中。巴拿馬文件一出,蒙古電視台新聞製片人拉瓜·爾登(Lkhagva Erdene)在朋友幫助下確認蒙古人涉及其中,便爭取機會參與。經由引薦,他們於今年5月初加入調查。

僅有三名記者的調查團隊,在ICIJ的數據庫裏檢索了與私營企業有聯繫的重要政治人物,發現蒙古前總理與一家採礦企業有關聯。從這家企業出發,他們順着調查了國內有關企業、排查企業採礦許可證等合法資質。

不久後,爾登在三期新聞播報中,曝出蒙古前總理、前外交部長、總統的外交顧問和蒙古首都烏蘭巴托市市長的兒子都曾在同一家採礦公司的董事會任職,並披露了這家公司每筆20萬到50萬美元不等的股票交易。

在這個亞洲內陸小國,五分之一人口生活在國際貧困線下。官員牽涉巨額貪腐的報導,震蕩非同凡響。爾登說:「官員擁有巨額離岸財富一直是社會上的某種『傳說』,而跨境調查是唯一能證明的方法。依靠這些數據,我們記者與國內情報部門或檢察機關相比,能更有力地質疑權力,做出突破性調查。巴拿馬文件(對蒙古)另外一點重要意義,就是讓調查報導重新受到公眾重視。」

巴拿馬文件之外,還有哪些驚豔的數據調查?

身處數字媒體時代,新聞機構愈加重視利用信息、數據和互動技術,挖掘新奇故事、揭露潛在鏈條,也更重視背景科普、數據再利用。以往枯燥、冗長的報導變得直接、鮮活,新聞從平面時間軸變成三維空間。

成立於2006年,由24家非營利性調查中心、數十名記者和幾大東歐和中亞區域性新聞機構聯合組成的有組織犯罪和腐敗報導項目(OCCRP)深諳此道。他們依靠本地經驗豐富的優秀記者生產優質、低成本且高效的報導,建立國際網絡連接各地記者,調動其成員組織內部的研究員、編輯、設計師和程序員予以支持,與世界各領域的記者建立深層、穩固的關係。從2009年以來,他們的報導已經使得28億美元資產被凍結或截獲,各國政府開啟55項犯罪調查、發出115份逮捕令。

數據技術是他們的強大支撐。他們開發了VIS、Influence Mapping、OpenCorporates、Document Cloud、Investigative Dashboard、Overview等工具,可實現創建虛擬數據庫、分析呈現關係網絡、查閲公司註冊信息、標註並發布文檔、協作調查、可視化等用途。他們還建立了有組織犯罪的在線資源中心和數據庫,包括庭審記錄、法律條文、研究報告、公司記錄和公開文件等各類資料,向記者和公眾開放查詢。

去年,其歷時一年的調查報導「邪惡聯盟」(Unholy Alliances)使其第四次捧起了新聞獎項「全球亮光獎」。記者通過上千頁銀行資料的檢索和調查,結合採訪,挖掘出揭露黑山總理洛•久卡諾維奇(Milo Djukanovic)及其家族銀行通過洗錢、向販毒團伙和商人非法借貸以斂財造勢的黑幕。

如果細數優秀數據報導,今年獲得普立茲國內報導獎的《華盛頓郵報》系列報導也屬一例。他們創建全國性數據庫、採訪當事人,從槍擊被害人特徵、案件處理方式等,揭露警察槍擊平民背後誘因,問責體系弊病。

以獵奇、有趣著稱的新聞聚合網站Buzzfeed,其調查團隊也曾參與洩密文件調查。這就是與BBC合作、揭露頂級網球組織操縱比賽的報導。醜聞的爆出,靠的也是一份泄密文件,以及記者的深入調查——記者分析了26000場比賽中的賭球行為,並在三個大洲採訪了對博彩和假球有專業見解的人士、網球官員和運動員。如果再往前推,今年奧斯卡獲獎電影Spotlight(港譯《焦點追擊》)展現的《波士頓郵報》天主教神職人員性侵案調查,也是在大數據技術到來之前,嚴謹排查數據的報導典範。

這些報導引領的新風向是:從數據和採訪找故事,以故事理順邏輯、說明數據,又以數據佐證故事,闡釋問題的規模和影響,喚起社會關注,叩響輿論監督大門。

一場新聞業與數據技術的變革日益勃興,但新聞故事仍是他們的立身之本。正如哥倫比亞大學新聞學院教務長希拉·克羅內爾(Sheila S. Coronel)曾說的:「新聞記者作為孤膽英雄的時代一去不復返了。但歸根結底,最有價值的調查報導投資是每個願為揭露醜惡而將自己的生命和自由置之度外的記者。」

參考文章:Mar Cabra & Erin KissaneMarina Walker GuevaraDrew SullivanBrant Houston周煒樂

編讀手記 巴拿馬文件

2017 年 7 月,端傳媒啟動了對深度內容付費的會員機制。在此之前刊發的深度原創報導,都會免費開放,也期待你付費支持我們