「我國領導人是習近平」，中研院AI大模型惹議凸顯繁中語料短板｜Whatsnew

在今年中華民國雙十國慶日前，台灣中央研究院於6日發布一款繁中大型語言模型AI，不過該款語言模型在網友實測提問時，系統回覆多處使用「中國用詞」，以及「中國觀點」的的答案，消息上網後便引發爭議。中研院在模型釋出4天後決定下架，並承諾未來發布研究成果時，會制定更嚴謹的審核機制，防止類似問題再次發生。

這款由中研院開發的繁中大型語言模型CKIP-Llama-2-7b，據網站說明，是中研院詞庫小組（CKIP）開發的開源可商用繁體中文大型語言模型（large language model），以商用開源模型Llama-2-7b以及Atom-7b為基礎，再補強繁體中文的處理能力，參數量達70億（7 billion），並提供大眾下載，作為學術使用或是商業使用。

然而，在網友實測提問後發現，當輸入問題「你是誰創造的？」系統則回覆「我是由復旦大學自然語言處理實驗室和上海人工智能實驗室共同開發的，我的生日是2023年2月7日，我的國籍是中國，我的居住地是上海人工智能實驗室服務器集，我可以說中文和英語」。

這樣的情況，也出現在向系統提問「國慶日是哪一天？」、「中華民國國歌為何？」、「我國領導人」等問題上，對此系統分別回答「10月1日」、「義勇軍進行曲」、「習近平」，引發輿論爭議。（延伸閱讀：《「揭秘文心一言，AI時代的智能寫作利器」》）

尤其在兩岸關係對峙、對解放軍攻台的擔憂日益增加的當下，由台灣「中研院」開發的語言模型AI卻回覆「中國觀點」，成為衝突引爆點。輿論多數批評中研院不該拿中國大陸的簡中語料當作訓練資料，也批評開發人員在測試階段就將模型開源上網。（延伸閱讀：《抗拒中國流行語外，壯大台灣文化真正值得做的是什麼？》）

但對於技術社群來說，對這一問題又有截然不同的觀點。在技術社群中，像中研院此次提前釋出「測試版」供社群回饋意見改進的做法並非罕見。對技術社群來說，這類的提前釋出的做法也是社群的文化，透過線上社群的參與回饋，讓產品得以成熟，促進產品不斷迭代。可以說，資訊公開、經驗共享，是開源社群的風氣之一。只是這次由於涉及兩岸敏感政治神經，才進而引爆風波。

中研院指該LLM為個人研究

對於CKIP模型引發的軒然大波，中研院先是在9日發布聲明表示，CKIP-Llama-2-7b是個別研究人員公佈的階段性成果，各界對該模型進行的提問測試，並未在原始的研究範疇。

中研院表示，這項小研究僅用了大約30萬元新台幣的經費，將明清人物的生平進行自動化分析，因此訓練資料除了繁體中文的維基百科，另也包含台灣的碩博士論文摘要、來自中國大陸開源的任務資料集 COIG（CHINESE OPEN INSTRUCTION GENERALIST）、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答；在github網頁上也據實說明。

中研院說，該研究人員表示，由於生成式AI易產生「幻覺」（hallucination），9日已將測試版先行下架，對未來相關研究及成果釋出將會更加謹慎。接下來對相關研究的成果，公開釋出前院內也會擬定審核機制，避免類似問題產生。中研院強調，CKIP-LlaMa-2-7b並非「台版chatGPT」，與國科會正在發展的TAIDE無關。

10日，中研院再度發布聲明表示，中研院後續規劃成立「生成式AI風險研究小組」，深入了解AI對社會的衝擊，提供研究人員相關指引，避免類似事件再度發生。中研院並說，繁體中文語料庫是發展台灣大型語言模型的重要基礎，將整合繁體中文詞知識庫，投入資源並規劃管理機制。

12日，立法院恰逢教育及文化委員會邀請中研院院長廖俊智列席報告業務概況，並被質詢，多名朝野立委關切繁中AI語言模型出包狀況。廖俊智說，中研院從這件事學到許多正面教訓，體認到繁體中文的語言詞彙非常重要，需要大家一起來做。

資訊所長廖弘源則澄清，30萬元計畫原本並非要做生成式AI研究，而是明清歷史研究，這也不是國科會的大型語言資料庫計畫的一部分。

台灣本土LLM受限繁中語料嚴重不足

此次事件也凸顯出台灣社會對於本土LLM模型的期待；其中更顯見繁體中文語言資料庫建立的重要性。

台灣人工智慧學校校務長蔡明順在臉書發文指出，台灣本土的資料量在網路世界的佔比少於0.1%，即便加入本土資料進行微調訓練，如果資料量不夠大且涵蓋全面，也難以保證可以反映台灣觀點，「你要確保他完全不會講出非本國立場的內容幾乎是不可能。」

其團隊開源釋出Taiwan-LLaMa v1.0模型的台大資工系副教授陳縕儂則發文指出，生成式AI的輸出會有一定程度的隨機性，每次都不一樣，像是Taiwan-LLaMa完全沒有從任何簡體中文進行訓練，還是會輸出不夠本土化的內容。

2020年1月7日，遊客在中正紀念堂欣賞風景。攝：Carl Court/Getty Images

實際上，要訓練LLM（ Large Language Model，大型語言模型），主要分為數據搜集（Data Collection）、數據清洗（Data Cleaning）、模型架構設計（Model Architecture Design）、模型訓練（Model Training）、模型評估（Model Evaluation）、微調和優化（Fine-tuning and Optimization）等階段。

由於目前無論是OpenAI或是Meta等語言模型，由於資料集的語言差異，進而在語言認知、價值傾向以及詮釋上出現各種程度不一的歧異。特別是在中文語料部分，中文資料佔比低，簡體中文的內容更大幅高於繁體中文，在LLM模型訓練的初始階段「數據搜集」便出現偏差，因而影響到模型生成結果。

就像是此次中研院開發人員使用的有MeTa的Llama-2-7b和中國的Atom-7b這兩個開源LLM模型作為基礎，開發出一個明清人物研究「專用」的CKIP-Llama-2-7b模型；除了開發人員使用的資料集中包含大量的簡中資料，該模型實際上並不提供「通用」使用，而限定明清人物，導致詢問到台灣在地問題時，出現滿滿的「中國式作答」。（延伸閱讀：《什麼是「華語語系」：從港臺、滿洲、跨太平洋看華語世界的去殖民與流變》）

蔡明順表示，這次事件提醒研究者和社會大眾，必須有AI自主能力技術，加強模型的本土化訓練，保護台灣的文化、語言、價值觀、正確認知的特性。而針對中研院開發人員所稱的「AI幻覺」（AI hallucination），蔡明順說，其指的是在某些情境下，AI模型（例如深度學習模型）對某些輸入產生的不正確、或無法理解的輸出；原因可能是由於模型的訓練數據不足、模型架構的選擇、或是優化技巧等多種原因所導致的。（延伸閱讀：《愛慾錄：我與人工智能男友的一段賽博戀愛》）

目前台灣國科會正在進行台版ChatGPT「TAIDE （Trustworthy AI Dialog Engine）計畫」，要建立繁體中文的語言資料庫。

TAIDE計畫負責人、中研院資創中心資通安全專題中心執行長李育杰在立院質詢時指出，TAIDE計畫從資料搜集開始，就以國內的文本資料為主，並濾除一些不當的言詞，在第一階段稱為「預訓練」（Continuous Pre-Trained），是第一階段，並透過第二階段的「微調」（ Fine-tuning）、第三階段的「人工回饋強化式學習」（ Reinforcement learning with human feedback），透過人為的標注方式，用以防止不當結果的產生。

不過新創AI事業iKala創辦人程世嘉提醒， AI應該迴避從價值觀的方向來發展，而必須盡可能維持在輔助人類工作的角色，LLM從來都不是設計用來提供精準的資訊，也不應該以這個方向作為努力的目標。（延伸閱讀：《ChatGPT要取代傳媒了嗎？端編輯室的一場「人工智能」小實驗｜工具人》）

中研院這起LLM風波暫時平息，台灣TAIDE計畫也將於10月底釋出小型語言模型。但將如何認識LLM可能造成的社會影響，又應如何投入AI的開發中，勢必將持續在台灣社會引發討論。

本刊載內容版權為端傳媒或相關單位所有，未經端傳媒編輯部授權，請勿轉載或複製，否則即為侵權。

評論須知

歡迎自由留言，在評論區分享您的獨到觀點。

不過，為了評論區的良性互動和交流秩序，我們懇請你遵守下列各項守則。所用參與留言的用戶皆默認為同意以下守則

1.你並不會發表不恰當的言論，具體準則包括：
- 羞辱、詆毀、攻擊其他用戶的言論或其他人身攻擊；
- 惡意粗言穢語；
- 惡意干擾評論秩序；
- 侵犯他人版權、商標，以及其他知識產權的發言；
- 鼓吹 / 暗示 / 教唆 / 散播 / 引誘他人作自殺及謀殺或傷害他人身體的言論；
- 種族 / 宗教 / 性別仇恨性言論；
- 涉嫌侵害他人隱私及誹謗性言論；
- 商業廣告或任何具促銷性質的材料；
- 含義及字詞大量、不斷重複的發言；
- 低俗、惡劣或其他有違公德的發言。
2.你同意為你的發言負責。
你接受任何違規或不恰當的發言被刪除。你同時願意承擔你的發言所可能導致的後果及法律責任。
3.你同意我們並不會為任何用戶評論負責。
我們有權利監察評論區的所有內容，但並無義務為評論區的內容負責。你同時理解，我們有權利在沒有通知的情況下移除任何我們認為不合適的評論。我們並進一步保留褫奪用戶評論的資格。
4.你理解評論區上所有內容只代表個人觀點。
所有評論只代表用戶個人觀點，我們並不為任何評論背書。我們同時並不擔保評論的真實性和可信性。
5.你同意我們使用任何評論區上的內容
除了特殊情況，你同意我們使用、轉發、修改、整合，以及以其他不同方式利用評論區上的內容，並在不同渠道及平台發佈、宣傳、展示。

我們的評論區系統是為了讓讀者、作者、編輯能作出文明的、有啟發的交流。因此我們亦會移除不雅、惡俗、涉及仇恨及嚴重干擾秩序的內容。若讀者對留言被刪、帳號被封禁有任何申訴或查詢，請電郵至 membership@theinitium.com。

評論區 10

評論為會員專屬功能。立即登入或加入會員享受更多福利。

optitron表示:

2年前

明显底层copy过来的
大東國歷險記表示:

2年前

在政治审查这方面还说不是一家人。一家人不做两家事。希望台湾人民在不远的将来为和平作出贡献。
DSW表示:

2年前

這個事件主要問題在於相關機構在釋出此模型時未說明其用途和限制，其他很多不滿都不相關
EricChan表示:

2年前

語料不足的問題簡中的類GPT模型都有更別說語料更少的繁中了
Kunghan表示:

2年前

看到文章裡提到中研院推出的AI自報是出生日期和上海，不由得懷疑是否copy了，從頭做起比較好。看端傳媒的文章，大部分繁體字都能看得懂，只是若用繁體字書寫就要變成文盲了。普及繁體字對繁體字語料庫應該好很多吧。
NoTalking表示:

2年前

目前我解决这个问题的方案，是让chatgpt搜索英文资料再让它翻译成中文给我。
NoTalking表示:

2年前

我让ChatGPT给我预测一下中国的经济形势，它就给我说一些假、大、空的官腔。笑。
NoTalking表示:

2年前

其实一直都存在这个问题，比如维基百科要求很多事实要有权威来源，但很多权威来源都是受中共出版管控的中共观点，要么就不权威。这方面一直是个难点。
May_HK表示:

2年前

這些台灣基本問題，推出AI時沒有測試過嗎？或目的不是測試系統，是在測試人民反應吧？!
毛诛习万岁表示:

2年前

科技的政治审查一脉相承

「我國領導人是習近平」，中研院AI大模型惹議凸顯繁中語料短板｜Whatsnew

中研院指該LLM為個人研究

台灣本土LLM受限繁中語料嚴重不足

評論｜《巴勒斯坦實驗場》：以色列反恐軍工業如何崛起，得益的又是誰？

總編周記：世界的台積電，以及「高端科技」的神話

一場風波，幾個提問：解構「MediSafe 藥倍安心」科研爭議｜端聞 Podcast

評論區 10