圆桌

中国首个互联网“记忆库”诞生,以千亿计的微博数据应如何储存及使用?

早前Twitter就曾向美国国会图书馆捐赠所有公开推文数据,作为“信息提供方”之一,你怎么看?碎片化的信息储存意义在于什么?

中国国家图书馆。

中国国家图书馆。摄:Wang Zhao/AFP via Getty Images

端小二2019-04-26 发起

中国国家图书馆宣布保存超2000亿条公开发布的微博,作为“信息提供方”之一,你怎么看?是对当下的存档还是进一步压缩异议者空间?

早前Twitter就曾向美国国会图书馆捐赠所有公开推文数据,这些数据应如何储存及使用?碎片化的信息储存意义在于什么?

有数据专家将“可能面临信息存储丢失的时代”称为“数字黑暗时代”,“数字黑暗时代”会到来吗?你怎么看电子信息的遗失?

4月19日,新浪政务微博运营官方帐号@微博政务 宣布,中国国家图书馆互联网信息战略保存项目启动,首个互联网信息战略保存基地将落户新浪。

继加入国际互联网保存联盟、成立互联网信息保存保护中心后,中国国家图书馆已初步构建起覆盖全国的网络信息保存体系。此举意味着网民在新浪网和微博上公开发布过的所有文字、图片、视频,都将被国家图书馆保存。此外,2019年往后新发布的内容,也将持续被保存。

据人民日报,截至2018年12月,微博全站发布博文超过2000亿条、图片500亿张、视频4亿个、评论和赞总量近5000亿。2018年微博用户发展报告显示,在4.62亿月活用户中,22岁以下年轻群体超过40%,来自三四线城市的活跃用户超过56%。

IT之家作者认为,不同年龄、不同地域、不同教育和文化背景的用户发布的内容,可以为政策决策和学术研究提供多元参考,也为国家从公众视角开展历史和社会研究提供了宝贵资料。

关于侵权问题,每位微博用户注册时所签订的“微博服务使用协议”已对此进行了一些预先说明:“用户同意:1.3.1微博运营方对微博内容(微博内容即指用户在微博上已发布的信息,例如文字、图片、视频、音频等)享有使用权。”

此外,中国大陆的《著作权法》第二十二条也规定,“图书馆、档案馆、纪念馆、博物馆、美术馆等为陈列或者保存版本的需要,复制本馆收藏的作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名、作品名称”。

尽管如此,此项目还是引发网友激烈争论。有网友表示支持该战略保存项目,认为这是对国内信息管理划时代意义的大事,能“让微博正式成为当下历史和中国记忆的一部分”;但也有网友担忧自己在微博中的言行日后会与诚信纪录等指标挂钩,使得异议者生存空间进一步缩小,并质疑存档大量无用碎片言论的意义。

用数字科技留存时代文明

新浪称,该项目旨在通过数字技术留存互联网时代记忆,专注于非商业用途,引发网友对于互联网记忆留存期限的担忧。

国际上早就有建设“互联网信息保存基地”的先例。据界面新闻,2010年,Twitter向美国国会图书馆捐赠推文数据的消息就引起了业界的广泛关注。根据美国国会图书馆与 Twitter当时发布的协议约定,Twitter将捐赠从其成立到协议日期的所有公开推文。美国国会图书馆表示,“Twitter是通讯,新闻报导和社会趋势的历史记录的一部分,这些可以作为国会图书馆现有文化遗产的补充”。

成立于1996年的互联网档案馆(Internet Archive)也是一个非营利性的互联网信息保护地。此网站提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。其数据由自带的网络爬虫自动搜集,总共抓取了超过1500亿的网页,迄至2012年10月,其信息储量已达到10PB。除此之外,该档案馆也是网络开放与自由化的倡议者之一。

早前,数据专家将“可能面临信息存储丢失的时代”称为“数字黑暗时代”。据kknews,当今时代的所有电子信息数据都面临消失风险。从前人们用物理存储(如光盘)进行数据记录,至少可以让存储的信息保留几十年甚至更久。但如今,没有实物介质的电子存储一旦消失或无法读取便无凭无据。

谷歌公司负责管理数据的工作人员Rick West曾表示,“也许未来某日,我们对于21世纪的了解,会远远少于20世纪,至少那个年代的记录方式是纸张或者胶卷等未来可能依然能够读取的形式,而现在我们用的更多的是云存储。”

中国国家图书馆宣布保存超2000亿条公开发布的微博,作为“信息提供方”之一,你怎么看中国首个互联网“记忆库”?

文:端传媒实习记者徐涵

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。