圓桌

中國首個互聯網「記憶庫」誕生,以千億計的微博數據應如何儲存及使用?

早前Twitter就曾向美國國會圖書館捐贈所有公開推文數據,作為「信息提供方」之一,你怎麼看?碎片化的信息儲存意義在於什麼?

中國國家圖書館。

中國國家圖書館。攝:Wang Zhao/AFP via Getty Images

端小二2019-04-26 發起

中國國家圖書館宣布保存超2000億條公開發布的微博,作為「信息提供方」之一,你怎麼看?是對當下的存檔還是進一步壓縮異議者空間?

早前Twitter就曾向美國國會圖書館捐贈所有公開推文數據,這些數據應如何儲存及使用?碎片化的信息儲存意義在於什麼?

有數據專家將「可能面臨信息存儲丟失的時代」稱為「數字黑暗時代」,「數字黑暗時代」會到來嗎?你怎麼看電子信息的遺失?

4月19日,新浪政務微博運營官方帳號@微博政務 宣布,中國國家圖書館互聯網信息戰略保存項目啟動,首個互聯網信息戰略保存基地將落戶新浪。

繼加入國際互聯網保存聯盟、成立互聯網信息保存保護中心後,中國國家圖書館已初步構建起覆蓋全國的網絡信息保存體系。此舉意味着網民在新浪網和微博上公開發布過的所有文字、圖片、視頻,都將被國家圖書館保存。此外,2019年往後新發布的內容,也將持續被保存。

據人民日報,截至2018年12月,微博全站發布博文超過2000億條、圖片500億張、視頻4億個、評論和贊總量近5000億。2018年微博用戶發展報告顯示,在4.62億月活用戶中,22歲以下年輕群體超過40%,來自三四線城市的活躍用戶超過56%。

IT之家作者認為,不同年齡、不同地域、不同教育和文化背景的用戶發布的內容,可以為政策決策和學術研究提供多元參考,也為國家從公眾視角開展歷史和社會研究提供了寶貴資料。

關於侵權問題,每位微博用戶註冊時所簽訂的「微博服務使用協議」已對此進行了一些預先說明:「用戶同意:1.3.1微博運營方對微博內容(微博內容即指用戶在微博上已發布的信息,例如文字、圖片、視頻、音頻等)享有使用權。」

此外,中國大陸的《著作權法》第二十二條也規定,「圖書館、檔案館、紀念館、博物館、美術館等為陳列或者保存版本的需要,複製本館收藏的作品,可以不經著作權人許可,不向其支付報酬,但應當指明作者姓名、作品名稱」。

儘管如此,此項目還是引發網友激烈爭論。有網友表示支持該戰略保存項目,認為這是對國內信息管理劃時代意義的大事,能「讓微博正式成為當下歷史和中國記憶的一部分」;但也有網友擔憂自己在微博中的言行日後會與誠信紀錄等指標掛鈎,使得異議者生存空間進一步縮小,並質疑存檔大量無用碎片言論的意義。

用數字科技留存時代文明

新浪稱,該項目旨在通過數字技術留存互聯網時代記憶,專注於非商業用途,引發網友對於互聯網記憶留存期限的擔憂。

國際上早就有建設「互聯網信息保存基地」的先例。據界面新聞,2010年,Twitter向美國國會圖書館捐贈推文數據的消息就引起了業界的廣泛關注。根據美國國會圖書館與 Twitter當時發布的協議約定,Twitter將捐贈從其成立到協議日期的所有公開推文。美國國會圖書館表示,「Twitter是通訊,新聞報導和社會趨勢的歷史記錄的一部分,這些可以作為國會圖書館現有文化遺產的補充」。

成立於1996年的互聯網檔案館(Internet Archive)也是一個非營利性的互聯網信息保護地。此網站提供數字數據如網站、音樂、動態圖像、和數百萬書籍的永久性免費存儲及獲取。其數據由自帶的網絡爬蟲自動蒐集,總共抓取了超過1500億的網頁,迄至2012年10月,其信息儲量已達到10PB。除此之外,該檔案館也是網絡開放與自由化的倡議者之一。

早前,數據專家將「可能面臨信息存儲丟失的時代」稱為「數字黑暗時代」。據kknews,當今時代的所有電子信息數據都面臨消失風險。從前人們用物理存儲(如光盤)進行數據記錄,至少可以讓存儲的信息保留幾十年甚至更久。但如今,沒有實物介質的電子存儲一旦消失或無法讀取便無憑無據。

谷歌公司負責管理數據的工作人員Rick West曾表示,「也許未來某日,我們對於21世紀的了解,會遠遠少於20世紀,至少那個年代的記錄方式是紙張或者膠捲等未來可能依然能夠讀取的形式,而現在我們用的更多的是雲存儲。」

中國國家圖書館宣布保存超2000億條公開發布的微博,作為「信息提供方」之一,你怎麼看中國首個互聯網「記憶庫」?

文:端傳媒實習記者徐涵

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。