Pick-Up

Gale原始档案系列:潦草手写文件,完整内部记录,藏着一段段人文与历史的故事

刊登于 2023-05-03

#Pick-Up

近年来,随着社会公众与学术界对各类历史议题的关注,越来越多研究者开始关注更多元的学术话题,包括香港历史、以至中国历史等相关内容,性小众族群议题,非以西方主流视角出发的议题等。而知名老牌数据库Gale原始档案系列,一如既往向研究者们提供帮助。

1954年成立于美国密歇根的档案出版社Gale,是一个饱经时间考验的图书馆档案出版商,这个名字对于普通大众来说或不算熟悉,但如果问起图书管理业从业员,Gale出版索引、整理档案的特点对他们来说耳熟能详。

“我们的任务是拓宽研究的可能性,帮助研究者和学生用我们的资料,通过新角度去提出新问题。”负责亚洲市场的产品经理森泽正树介绍。

Gale一直紧跟时代的变化。自1990年代后期开始,Gale开始创建不同的电子数据库,而大约在2002年左右,电脑与互联网出版普及时,Gale已经走在时代之先,开始历史档案数字化的工作。从那时起,Gale着手于备份历史资料,让它们留存在网上,让后人可以搜索。

主题选择上,Gale关注人文社科、历史、文学、社会等议题,同样顺应时代。“我们的主题选择基于我们用户的兴趣决定,而且随着时间改变。”森泽正树说。“例如说到我们的历史档案,最开始2002开始保存时,我们主要保存一些很多人认为是西方世界的主流研究,比如18世纪的英文书籍,或者《伦敦时报》这样的主流报纸。但用户的需求逐渐随着时间改变,近年来大家更强调多元、少数族群、少数的声音、非西方视角的观点等主题。人们关心的不再只是西方的、主流的、特别是男性的声音,也留意比如女性的声音、LGBTQ、地理上非西方世界的声音。”因此,如今的Gale平台上拥有一系列的关于性别,同志运动、性的历史、女性研究的历史档案,此外也关注政治极化、小报新闻学,以及殖民史、去殖民化的历史,拥有一系列关于殖民的资料,也有前殖民地的官方文件。而当中内容,也包括中文世界近年越发关注的香港。

真实的档案,让读者仿如活在历史中

关于中国的档案是Gale一个重要的关注点。“21世纪像很多人所说的,也是一个中国的世纪,我们必须了解中国的过去,才知道中国的前路走向哪里,也就意味着世界的前路走向哪里。”森泽透露,自2016年开始,Gale发布了一个新的系列数据库,内容专注于中国当代历史,叫做当代世界的中国(China in the modern world)。这个系列的档案一经发行就很受欢迎,Gale后来以大约一年一个的频率发布该系列的新模组(module),至今总共发布了6组,总量约有240万页,逐渐变成一个巨大的项目。

值得一提的是,已发布的6组档案中,其中有一组是特别关于香港的,而在接下来的一年,Gale还会发布两个新模组,其中一个是香港主题的第二部分,另一个关于上海。读者可以通过这些档案,看见中国的时代轨迹。“特别是现代中国和西方世界的互动,有时候是不怎么愉快的互动。我们尝试关注这些活动背后的故事。”森泽说,“所以你可以看到手写的大英帝国对中国的外交文件,在鸦片战争之前、期间和之后;你可以看到香港殖民办公室的报告,当时的官员向大英汇报了什么;你可以阅读在中国发行的英文杂志;你可以看到当时海关的内部工作,是一个中国的官僚机构,但是主要是由英国人运作的,我们有非常内部的纪录,你可以看到他们是如何工作,如何与当时的中国政府打交道……各种各样的事情。”

如今发布的香港部份,大约讲述到1950年年代,而第二部分则会接序说起,从1960到1993年。

森泽介绍,在海量资料中,用户可以看到意想不到的有趣内容:“有外交纪录,很有趣,不只是中英的往来信件,还有很多内部纪录,像看到他们的所有email……也有期刊,很多是来中国的传教士制作的,他们前往其他外国人不敢去的地方,学习当地方言,深入当地,你可以在他们笔下读到很多当时的故事……”

尤其让森泽印象深刻的档案内容,是关于1997年香港主权移交,用户可以在Gale的资料库中搜索到不同的报道和纪录,看到从1980年代谈判开始起,不同的英国报纸有大量讨论。这些各种意见不仅来自记者,也来自读者来信反馈,各种意见的交锋,当中涉及大量关于民主、民主化的香港、是否应该帮助香港民主化、帮助应该到何种程度的讨论,以及大量关于中国、中国想要什么的思考。“甚至连建一个机场,都能变成非常政治化的大讨论,因为中国对英国在主权移交前建机场感到不愉快。”森泽说,“这让你有种重新生活在历史中的感觉。”

对于研究香港和中国历史学者和学生来说,未来寻找相关档案,可以不用亲身飞到外国的档案馆作现场研究,而且Gale更有全文搜寻功能,方便线上索引。

在一些逐渐变得可见的小众议题上,Gale也有先人一步的收藏。Gale拥有关于性与性别的两个大系列收藏,包括LGBTQ群体的历史,甚至存有不少禁忌话题的历史资料。Gale保存了很多18、19世纪的情色书籍,描绘非常禁忌的性话题,此前他们往往被主流的历史研究忽视了。而在上述中国现代史系列中,Gale也收藏了关于香港“妹仔”丫鬟制度被英政府认为是奴隶制,而在1920-1930年间引发的巨大丑闻时的大量新闻报道和内部官方讨论文件。在一份份的档案记录中,可以看到性别、东西方价值如何互相冲击等多元话题。

把内容做到极致,所有纪录都重要

森泽认为,对于研究者和学生的需求而言,Gale平台与其他同类相比有着大量优势。首先,从历史资料的数量而言,Gale有量级上的优势。“如果你算上微缩菲林的时代,我们做这件事情半个世纪了。我们现在有60个档案系系列和400个分支,说到数量我们肯定是有最大的,最多样的档案纪录。”

“第二点, 我们出版这些内容的时候就做到极致。”森泽解释,有一些出版商可能会做出选择,他们可能会看看整个本身的偏好,然后考虑其中哪一些档案更为“重要”。

“一些(档案)价值最高,就只先做那些有亮点的、最有名的,设一个小的档案,来突出那些最引人注目的。有一些出版商会这么做,而且他们很擅长市场营销,”森泽说。“但我们不太同意这个做法。”

“因为『重要性』可以是很主观的。一份文件对于某个用户来说,可能是毫不重要的,但是对于另外一个研究者来说,可能是关键发现。我们作为出版商,并没有资格去决定哪一份文件是重要的,哪一份是垃圾。所以当我们把东西数字化的时候,我们做到极致,把一切我们接触得到的东西都数字化。这就是为什么我们把整份CO129文件都数字化了,也就是整份英国国家档案中的香港殖民纪录。我们不会去选择关于香港的纪录里面,哪一份是重要、哪一份是不重要的。研究者们对这一点很认可。”

此外,Gale同样也会花费资源,用于维护、修复一些太易碎的文件上。“我们会支付这些材料的修复费用。我们是希望那些纪录的拥有者能够拥有这些纪录的完整的数字备份,万一发生了什么事情他们丢失了原始的档案,那还是有完整的数字备份。”

新技术活化旧档案

森泽认为Gale值得被选择的第三个原因,是Gale会主动革新,去迎合用户的需要。“当我们在开始将18世纪的书籍数字化时,这个行业里面的人想到的,主要都是要以图像形式保存它们,没有人想到去让他们变得可以搜索。因为他们都已经是非常老的书了,有什么必要呢?但我们引入了光学字元辨识(OCR,optical character recognition)这个技术通常比较少用在非常老旧的书籍上,至少在那个时候人们么没有想到这么做。但是我们将所有的书籍都这样数字化了,而这革新了学术研究本身。”

他举例道,一个教授或学生只需要搜索“茶”或“咖啡”,就能在可能题目毫不相关、浩如烟海的书籍中找到提到茶或咖啡的句子。

而如今,Gale更进一步,开始引用手写文本识别技术(Handwritten Text Recognition,HTR)。“比如在香港档案中有很多跟文件都是潦草手写的,这个可能连现代人本身都很难阅读。但是你可以使用搜索功能,因为我们已经把这项技术应用到了每一页。”

与此同时,Gale现在也在推广数字人文(digital humanities)的概念。这个想法来自于用户反馈,森泽提到,最初用户表示希望获得某一些已归档文件的文本数据,希望能够把所有文本放在电脑里面运行,看看某一个词语在当中被提及的次数。

“哇,我们想,这是一个非常不同的尝试。我们通常(对使用档案)的理解,是我们搜索这些文档,并且阅读之,但近年来的很多研究者是采用大数据的方式去研究这些材料,他们在分析整份历史资料的文本。”因此,Gale以十分不同的切入方式创造了新平台,Gale数字学术实验室(Gale Digital Scholar Lab)。

用户可以做各种分析,可以计算词汇,可以自动对比功能对比相似度,可以在内容中自动提取地址和名称,可以计算文件的情绪,这个平台允许用户无需学会编程也能使用那些功能。“你可以分析,比如说所有的香港殖民地的文件,甚至不用阅读它们。我们为了满足用户的需要而革新,力求赶上时代,我相信我们是走在革新的的尖端。”

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。