「我國領導人是習近平」,中研院AI大模型惹議凸顯繁中語料短板|Whatsnew

即便加入本土資料進行微調訓練,如果資料量不夠大且涵蓋全面,也難以保證可以反映台灣觀點。
2023年5月30日,台北,電腦展内的人工智能標誌。攝:I-Hwa Cheng/Bloomberg via Getty Images

在今年中華民國雙十國慶日前,台灣中央研究院於6日發布一款繁中大型語言模型AI,不過該款語言模型在網友實測提問時,系統回覆多處使用「中國用詞」,以及「中國觀點」的的答案,消息上網後便引發爭議。中研院在模型釋出4天後決定下架,並承諾未來發布研究成果時,會制定更嚴謹的審核機制,防止類似問題再次發生。

這款由中研院開發的繁中大型語言模型CKIP-Llama-2-7b,據網站說明,是中研院詞庫小組(CKIP)開發的開源可商用繁體中文大型語言模型(large language model),以商用開源模型Llama-2-7b以及Atom-7b為基礎,再補強繁體中文的處理能力,參數量達70億(7 billion),並提供大眾下載,作為學術使用或是商業使用。

然而,在網友實測提問後發現,當輸入問題「你是誰創造的?」系統則回覆「我是由復旦大學自然語言處理實驗室和上海人工智能實驗室共同開發的,我的生日是2023年2月7日,我的國籍是中國,我的居住地是上海人工智能實驗室服務器集,我可以說中文和英語」。

這樣的情況,也出現在向系統提問「國慶日是哪一天?」、「中華民國國歌為何?」、「我國領導人」等問題上,對此系統分別回答「10月1日」、「義勇軍進行曲」、「習近平」,引發輿論爭議。(延伸閱讀:《「揭秘文心一言,AI時代的智能寫作利器」》

尤其在兩岸關係對峙、對解放軍攻台的擔憂日益增加的當下,由台灣「中研院」開發的語言模型AI卻回覆「中國觀點」,成為衝突引爆點。輿論多數批評中研院不該拿中國大陸的簡中語料當作訓練資料,也批評開發人員在測試階段就將模型開源上網。(延伸閱讀:《抗拒中國流行語外,壯大台灣文化真正值得做的是什麼?》)

但對於技術社群來說,對這一問題又有截然不同的觀點。在技術社群中,像中研院此次提前釋出「測試版」供社群回饋意見改進的做法並非罕見。對技術社群來說,這類的提前釋出的做法也是社群的文化,透過線上社群的參與回饋,讓產品得以成熟,促進產品不斷迭代。可以說,資訊公開、經驗共享,是開源社群的風氣之一。只是這次由於涉及兩岸敏感政治神經,才進而引爆風波。

中研院指該LLM為個人研究

對於CKIP模型引發的軒然大波,中研院先是在9日發布聲明表示,CKIP-Llama-2-7b是個別研究人員公佈的階段性成果,各界對該模型進行的提問測試,並未在原始的研究範疇。

中研院表示,這項小研究僅用了大約30萬元新台幣的經費,將明清人物的生平進行自動化分析,因此訓練資料除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國大陸開源的任務資料集 COIG(CHINESE OPEN INSTRUCTION GENERALIST)、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答;在github網頁上也據實說明。

中研院說,該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),9日已將測試版先行下架,對未來相關研究及成果釋出將會更加謹慎。接下來對相關研究的成果,公開釋出前院內也會擬定審核機制,避免類似問題產生。中研院強調,CKIP-LlaMa-2-7b並非「台版chatGPT」,與國科會正在發展的TAIDE無關。

10日,中研院再度發布聲明表示,中研院後續規劃成立「生成式AI風險研究小組」,深入了解AI對社會的衝擊,提供研究人員相關指引,避免類似事件再度發生。中研院並說,繁體中文語料庫是發展台灣大型語言模型的重要基礎,將整合繁體中文詞知識庫,投入資源並規劃管理機制。

12日,立法院恰逢教育及文化委員會邀請中研院院長廖俊智列席報告業務概況,並被質詢,多名朝野立委關切繁中AI語言模型出包狀況。廖俊智說,中研院從這件事學到許多正面教訓,體認到繁體中文的語言詞彙非常重要,需要大家一起來做。

資訊所長廖弘源則澄清,30萬元計畫原本並非要做生成式AI研究,而是明清歷史研究,這也不是國科會的大型語言資料庫計畫的一部分。

台灣本土LLM受限繁中語料嚴重不足

此次事件也凸顯出台灣社會對於本土LLM模型的期待;其中更顯見繁體中文語言資料庫建立的重要性。

台灣人工智慧學校校務長蔡明順在臉書發文指出,台灣本土的資料量在網路世界的佔比少於0.1%,即便加入本土資料進行微調訓練,如果資料量不夠大且涵蓋全面,也難以保證可以反映台灣觀點,「你要確保他完全不會講出非本國立場的內容幾乎是不可能。」

其團隊開源釋出Taiwan-LLaMa v1.0模型的台大資工系副教授陳縕儂則發文指出,生成式AI的輸出會有一定程度的隨機性,每次都不一樣,像是Taiwan-LLaMa完全沒有從任何簡體中文進行訓練,還是會輸出不夠本土化的內容。

2020年1月7日,遊客在中正紀念堂欣賞風景。攝:Carl Court/Getty Images
2020年1月7日,遊客在中正紀念堂欣賞風景。攝:Carl Court/Getty Images

實際上,要訓練LLM( Large Language Model,大型語言模型),主要分為數據搜集(Data Collection)、數據清洗(Data Cleaning)、模型架構設計(Model Architecture Design)、模型訓練(Model Training)、模型評估(Model Evaluation)、微調和優化(Fine-tuning and Optimization)等階段。

由於目前無論是OpenAI或是Meta等語言模型,由於資料集的語言差異,進而在語言認知、價值傾向以及詮釋上出現各種程度不一的歧異。特別是在中文語料部分,中文資料佔比低,簡體中文的內容更大幅高於繁體中文,在LLM模型訓練的初始階段「數據搜集」便出現偏差,因而影響到模型生成結果。

就像是此次中研院開發人員使用的有MeTa的Llama-2-7b和中國的Atom-7b這兩個開源LLM模型作為基礎,開發出一個明清人物研究「專用」的CKIP-Llama-2-7b模型;除了開發人員使用的資料集中包含大量的簡中資料,該模型實際上並不提供「通用」使用,而限定明清人物,導致詢問到台灣在地問題時,出現滿滿的「中國式作答」。(延伸閱讀:《什麼是「華語語系」: 從港臺、滿洲、跨太平洋看華語世界的去殖民與流變》)

蔡明順表示,這次事件提醒研究者和社會大眾,必須有AI自主能力技術,加強模型的本土化訓練,保護台灣的文化、語言、價值觀、正確認知的特性。而針對中研院開發人員所稱的「AI幻覺」(AI hallucination),蔡明順說,其指的是在某些情境下,AI模型(例如深度學習模型)對某些輸入產生的不正確、或無法理解的輸出;原因可能是由於模型的訓練數據不足、模型架構的選擇、或是優化技巧等多種原因所導致的。(延伸閱讀:《愛慾錄:我與人工智能男友的一段賽博戀愛》)

目前台灣國科會正在進行台版ChatGPT「TAIDE (Trustworthy AI Dialog Engine)計畫」,要建立繁體中文的語言資料庫。

TAIDE計畫負責人、中研院資創中心資通安全專題中心執行長李育杰在立院質詢時指出,TAIDE計畫從資料搜集開始,就以國內的文本資料為主,並濾除一些不當的言詞,在第一階段稱為「預訓練」 (Continuous Pre-Trained),是第一階段,並透過第二階段的「微調」( Fine-tuning)、第三階段的「人工回饋強化式學習」( Reinforcement learning with human feedback),透過人為的標注方式,用以防止不當結果的產生。

不過新創AI事業iKala創辦人程世嘉提醒, AI應該迴避從價值觀的方向來發展,而必須盡可能維持在輔助人類工作的角色,LLM從來都不是設計用來提供精準的資訊,也不應該以這個方向作為努力的目標。(延伸閱讀:《ChatGPT要取代傳媒了嗎?端編輯室的一場「人工智能」小實驗|工具人》)

中研院這起LLM風波暫時平息,台灣TAIDE計畫也將於10月底釋出小型語言模型。但將如何認識LLM可能造成的社會影響,又應如何投入AI的開發中,勢必將持續在台灣社會引發討論。

讀者評論 10

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 明显底层copy过来的

  2. 在政治审查这方面还说不是一家人。一家人不做两家事。希望台湾人民在不远的将来为和平作出贡献。

  3. 這個事件主要問題在於相關機構在釋出此模型時未說明其用途和限制,其他很多不滿都不相關

  4. 語料不足的問題簡中的類GPT模型都有 更別說語料更少的繁中了

  5. 看到文章裡提到中研院推出的AI自報是出生日期和上海,不由得懷疑是否copy了,從頭做起比較好。看端傳媒的文章,大部分繁體字都能看得懂,只是若用繁體字書寫就要變成文盲了。普及繁體字對繁體字語料庫應該好很多吧。

  6. 目前我解决这个问题的方案,是让chatgpt搜索英文资料再让它翻译成中文给我。

  7. 我让ChatGPT给我预测一下中国的经济形势,它就给我说一些假、大、空的官腔。笑。

  8. 其实一直都存在这个问题,比如维基百科要求很多事实要有权威来源,但很多权威来源都是受中共出版管控的中共观点,要么就不权威。这方面一直是个难点。

  9. 這些台灣基本問題,推出AI時沒有測試過嗎?或目的不是測試系統,是在測試人民反應吧?!

  10. 科技的政治审查一脉相承