Pick-Up

Gale原始檔案系列:潦草手寫文件,完整內部記錄,藏著一段段人文與歷史的故事

刊登於 2023-05-03

#Pick-Up

近年來,隨着社會公衆與學術界對各類歷史議題的關注,越來越多研究者開始關注更多元的學術話題,包括香港歷史、以至中國歷史等相關內容,性小眾族羣議題,非以西方主流視角出發的議題等。而知名老牌數據庫Gale原始檔案系列,一如既往向研究者們提供幫助。

1954年成立於美國密歇根的檔案出版社Gale,是一個飽經時間考驗的圖書館檔案出版商,這個名字對於普通大衆來說或不算熟悉,但如果問起圖書管理業從業員,Gale出版索引、整理檔案的特點對他們來說耳熟能詳。

「我們的任務是拓寬研究的可能性,幫助研究者和學生用我們的資料,通過新角度去提出新問題。」負責亞洲市場的產品經理森澤正樹介紹。

Gale一直緊跟時代的變化。自1990年代後期開始,Gale開始創建不同的電子數據庫,而大約在2002年左右,電腦與互聯網出版普及時,Gale已經走在時代之先,開始歷史檔案數字化的工作。從那時起,Gale着手於備份歷史資料,讓它們留存在網上,讓後人可以搜索。

主題選擇上,Gale關注人文社科、歷史、文學、社會等議題,同樣順應時代。「我們的主題選擇基於我們用戶的興趣決定,而且隨著時間改變。」森澤正樹說。「例如說到我們的歷史檔案,最開始2002開始保存時,我們主要保存一些很多人認為是西方世界的主流研究,比如18世紀的英文書籍,或者《倫敦時報》這樣的主流報紙。但用戶的需求逐漸隨著時間改變,近年來大家更強調多元、少數族群、少數的聲音、非西方視角的觀點等主題。人們關心的不再只是西方的、主流的、特別是男性的聲音,也留意比如女性的聲音、LGBTQ、地理上非西方世界的聲音。」因此,如今的Gale平台上擁有一系列的關於性別,同志運動、性的歷史、女性研究的歷史檔案,此外也關注政治極化、小報新聞學,以及殖民史、去殖民化的歷史,擁有一系列關於殖民的資料,也有前殖民地的官方文件。而當中內容,也包括中文世界近年越發關注的香港。

真實的檔案,讓讀者仿如活在歷史中

關於中國的檔案是Gale一個重要的關注點。「21世紀像很多人所說的,也是一個中國的世紀,我們必須了解中國的過去,才知道中國的前路走向哪裡,也就意味著世界的前路走向哪裡。」森澤透露,自2016年開始,Gale發佈了一個新的系列數據庫,內容專注於中國當代歷史,叫做當代世界的中國(China in the modern world)。這個系列的檔案一經發行就很受歡迎,Gale後來以大約一年一個的頻率發佈該系列的新模組(module),至今總共發布了6組,總量約有240萬頁,逐漸變成一個巨大的項目。

值得一提的是,已發佈的6組檔案中,其中有一組是特別關於香港的,而在接下來的一年,Gale還會發布兩個新模組,其中一個是香港主題的第二部分,另一個關於上海。讀者可以通過這些檔案,看見中國的時代軌跡。「特別是現代中國和西方世界的互動,有時候是不怎麼愉快的互動。我們嘗試關注這些活動背後的故事。」森澤說,「所以你可以看到手寫的大英帝國對中國的外交文件,在鴉片戰爭之前、期間和之後;你可以看到香港殖民辦公室的報告,當時的官員向大英匯報了什麼;你可以閱讀在中國發行的英文雜誌;你可以看到當時海關的內部工作,是一個中國的官僚機構,但是主要是由英國人運作的,我們有非常內部的紀錄,你可以看到他們是如何工作,如何與當時的中國政府打交道……各種各樣的事情。」

如今發布的香港部份,大約講述到1950年年代,而第二部分則會接序說起,從1960到1993年。

森澤介紹,在海量資料中,用戶可以看到意想不到的有趣內容:「有外交紀錄,很有趣,不只是中英的往來信件,還有很多內部紀錄,像看到他們的所有email……也有期刊,很多是來中國的傳教士製作的,他們前往其他外國人不敢去的地方,學習當地方言,深入當地,你可以在他們筆下讀到很多當時的故事……」

尤其讓森澤印象深刻的檔案內容,是關於1997年香港主權移交,用戶可以在Gale的資料庫中搜索到不同的報道和紀錄,看到從1980年代談判開始起,不同的英國報紙有大量討論。這些各種意見不僅來自記者,也來自讀者來信反饋,各種意見的交鋒,當中涉及大量關於民主、民主化的香港、是否應該幫助香港民主化、幫助應該到何種程度的討論,以及大量關於中國、中國想要什麼的思考。「甚至連建一個機場,都能變成非常政治化的大討論,因為中國對英國在主權移交前建機場感到不愉快。」森澤說,「這讓你有種重新生活在歷史中的感覺。」

對於研究香港和中國歷史學者和學生來說,未來尋找相關檔案,可以不用親身飛到外國的檔案館作現場研究,而且Gale更有全文搜尋功能,方便線上索引。

在一些逐漸變得可見的小衆議題上,Gale也有先人一步的收藏。Gale擁有關於性與性別的兩個大系列收藏,包括LGBTQ群體的歷史,甚至存有不少禁忌話題的歷史資料。Gale保存了很多18、19世紀的情色書籍,描繪非常禁忌的性話題,此前他們往往被主流的歷史研究忽視了。而在上述中國現代史系列中,Gale也收藏了關於香港「妹仔」丫鬟制度被英政府認爲是奴隸制,而在1920-1930年間引發的巨大醜聞時的大量新聞報道和內部官方討論文件。在一份份的檔案記錄中,可以看到性別、東西方價值如何互相衝擊等多元話題。

把內容做到極致,所有紀錄都重要

森澤認爲,對於研究者和學生的需求而言,Gale平台與其他同類相比有着大量優勢。首先,從歷史資料的數量而言,Gale有量級上的優勢。「如果你算上微縮菲林的時代,我們做這件事情半個世紀了。我們現在有60個檔案系系列和400個分支,說到數量我們肯定是有最大的,最多樣的檔案紀錄。」

「第二點, 我們出版這些內容的時候就做到極致。」森澤解釋,有一些出版商可能會做出選擇,他們可能會看看整個本身的偏好,然後考慮其中哪一些檔案更為「重要」。

「一些(檔案)價值最高,就只先做那些有亮點的、最有名的,設一個小的檔案,來突出那些最引人注目的。有一些出版商會這麼做,而且他們很擅長市場營銷,」森澤說。「但我們不太同意這個做法。」

「因為『重要性』可以是很主觀的。一份文件對於某個用戶來說,可能是毫不重要的,但是對於另外一個研究者來說,可能是關鍵發現。我們作為出版商,並沒有資格去決定哪一份文件是重要的,哪一份是垃圾。所以當我們把東西數字化的時候,我們做到極致,把一切我們接觸得到的東西都數字化。這就是為什麼我們把整份CO129文件都數字化了,也就是整份英國國家檔案中的香港殖民紀錄。我們不會去選擇關於香港的紀錄裡面,哪一份是重要、哪一份是不重要的。研究者們對這一點很認可。」

此外,Gale同樣也會花費資源,用於維護、修復一些太易碎的文件上。「我們會支付這些材料的修復費用。我們是希望那些紀錄的擁有者能夠擁有這些紀錄的完整的數字備份,萬一發生了什麼事情他們丟失了原始的檔案,那還是有完整的數字備份。」

新技術活化舊檔案

森澤認爲Gale值得被選擇的第三個原因,是Gale會主動革新,去迎合用戶的需要。「當我們在開始將18世紀的書籍數字化時,這個行業裡面的人想到的,主要都是要以圖像形式保存它們,沒有人想到去讓他們變得可以搜索。因為他們都已經是非常老的書了,有什麼必要呢?但我們引入了光學字元辨識(OCR,optical character recognition)這個技術通常比較少用在非常老舊的書籍上,至少在那個時候人們麼沒有想到這麼做。但是我們將所有的書籍都這樣數字化了,而這革新了學術研究本身。」

他舉例道,一個教授或學生只需要搜索「茶」或「咖啡」,就能在可能題目毫不相關、浩如煙海的書籍中找到提到茶或咖啡的句子。

而如今,Gale更進一步,開始引用手寫文本識別技術(Handwritten Text Recognition,HTR)。「比如在香港檔案中有很多跟文件都是潦草手寫的,這個可能連現代人本身都很難閱讀。但是你可以使用搜索功能,因為我們已經把這項技術應用到了每一頁。」

與此同時,Gale現在也在推廣數字人文(digital humanities)的概念。這個想法來自於用戶反饋,森澤提到,最初用戶表示希望獲得某一些已歸檔文件的文本數據,希望能夠把所有文本放在電腦裡面運行,看看某一個詞語在當中被提及的次數。

「哇,我們想,這是一個非常不同的嘗試。我們通常(對使用檔案)的理解,是我們搜索這些文檔,並且閱讀之,但近年來的很多研究者是採用大數據的方式去研究這些材料,他們在分析整份歷史資料的文本。」因此,Gale以十分不同的切入方式創造了新平台,Gale數字學術實驗室(Gale Digital Scholar Lab)。

用戶可以做各種分析,可以計算詞彙,可以自動對比功能對比相似度,可以在內容中自動提取地址和名稱,可以計算文件的情緒,這個平台允許用戶無需學會編程也能使用那些功能。「你可以分析,比如說所有的香港殖民地的文件,甚至不用閱讀它們。我們為了滿足用戶的需要而革新,力求趕上時代,我相信我們是走在革新的的尖端。」

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。