生成中國式AI:審查之外,科技公司的煩惱清單

中國科技公司希望復刻移動互聯網時期的成功,但在一個技術被「卡脖子」、人口紅利殆盡、消費萎靡的中國,每一步都更難行。
2023年5月25日,小學生參觀邯鄲市人工智能教育基地。攝:Costfoto/NurPhoto via Getty Images
大陸 人工智能 政治 科技 隱私與安全

2024年初,肖文泉赴中國參加生成式 AI 行業會議,一次對話給她留下深刻印象。

她問一位中國從業者:你的生成式 AI 模型和別家的有什麼不同?

對方說:你要我們的模型畫國旗,它就一定能給你畫出中國旗。

「我一瞬間理解了中國企業生存到底需要什麼。」肖文泉向端傳媒回憶道。她在關注 AI 初創企業的風投公司 Leonis Capital 任合夥人,也曾在 OpenAI 做研究員。

國旗的故事指向了生成式 AI 在中國發展的根本原則——屁股不能歪,它是中國科技公司的阿喀琉斯之踵,也為防火牆內的12億中國網民劃定了行動邊界。

在中國,如何做一個「合格」的生成式 AI ?我們嘗試追問:中國生成式 AI 如何實現內容審查?中國政府通過怎樣的監管手段,確保科技公司實現其要求?在追問的過程中,我們發現,審查甚至擠不進中國科技公司煩惱清單的 Top 5。那麼,他們在煩惱什麼?這些煩惱揭示了哪些對普通中國網民有意義的問題?由生成式 AI 帶來的動能,會怎樣改變防火牆和牆內的世界?

以下是我們尋找答案的過程。

2023年8月16日,北京舉行的WAVE SUMMIT深度學習開發者大會,一位參觀者在推廣 AI 聊天機器人的展位上。攝:Andy Wong/AP/達志影像
2023年8月16日,北京舉行的WAVE SUMMIT深度學習開發者大會,一位參觀者在推廣 AI 聊天機器人的展位上。攝:Andy Wong/AP/達志影像

打地鼠

先聊聊審查可能會怎麼做。

與我們熟悉的社交平台、搜索引擎等互聯網產品不同, 生成式 AI 輸出的內容是不可預測的。這令審查變得艱難。相當於在兩個人對話時,要求其中一方既能對答如流、又不越防火牆半步。而中國的內容審查覆蓋了相當廣泛的事實和觀點,從中國經濟到俄羅斯入侵烏克蘭,到處都是「雷區」。

《外交》雜誌(Foreign Affairs)一篇文章提及,一個中國科技公司的首席執行官私下打趣道,中國的生成式 AI 模型甚至不允許數到10,因為這將包括數字8和9——令人聯想到天安門事件。

於是,不少觀察者認為,中國公司可能會從「源頭」上解決問題——使用已審查過的文本數據訓練生成式 AI 模型。

有人驗證過這一方法。2021年的一篇論文,分別用中文維基百科詞條和百度百科詞條訓練自然語言處理算法(Natural Language Processing,NLP,生成式 AI 產品即依賴於 NLP 算法提供的語言理解和生成能力)。結果發現,經過維基百科訓練的算法對「選舉」、「民主」等詞進行了正面分析,或將其與「穩定性」等名詞聯繫起來;在百度百科上訓練的算法對「監督」和「中共」給予了正面評價,並將 「民主」等詞與「混亂」等負面詞彙聯繫起來。

但我們依然有疑惑:只吸收審查過的信息,就能確保不在政治問題上「犯錯」麼?

好像沒那麼簡單。否則在六月四日前夕將冰淇淋擺成坦克形狀進行推銷的中國知名直播主,就不會被停工數月了。

喬治·華盛頓大學政治學系助理教授 Jeffrey Ding 也對這法子提出懷疑:「即使你只從一套經過審查的書籍中學習,你正在閱讀的所有不同書籍之間的相互作用也可能會產生有缺陷的信息或政治敏感信息。」

看來,「源頭淨化」不足以完成審查任務。業界認為,中國公司還可採用「從人類反饋中強化學習」的方法——即由人類訓練員對生成式 AI 模型輸出的內容進行反饋,告訴它哪些回答是好的、哪些不是,以此幫助模型輸出更符合人類倫理道德的回答。這是全球 AI 公司通用的方法。

訓練模型的「政治敏感度」同理。由人類訓練員輸入敏感內容或可能觸發敏感回答的內容,再對模型輸出的內容進行反饋。通過反覆訓練,讓模型在遇到敏感內容或可能觸發敏感內容的對話時,以「安全」的內容或方式回應。

要實現這一點並不容易,和非黑即白的敏感詞過濾系統不同,人類有的是辦法旁敲側擊。因此,人類訓練員需要把可能出現的「含沙射影」通通和模型「對一遍」。

來自耶魯大學杰克遜全球事務研究所的高級研究員史蒂芬·S·羅奇(Stephen S. Roach),將這種審查方法稱為打地鼠(Whac-a-Mole)。是的,就是那個遊戲。

為了驗證人類訓練員是否抓住了所有「地鼠」,我們要求百度的文心一言畫一隻穿紅色衣服的黃色小熊。它立即結束了對話。

文心一言識破了指令中的「不懷好意」。台灣大學資訊工程學系博士生林彥廷對端傳媒表示,一定是人類訓練員曾錄入類似的內容「教」模型。林彥廷製作了繁體中文生成式 AI 模型 Taiwan-Llama-3。

不過,這種一言不合就結束對話的作風,也說明現階段的模型不具備「審查於無形」的能力,依然走了微博、微信的「老路」——一旦識別敏感內容,就剝奪你使用其產品的權利。

而在「源頭淨化」和人類訓練員的努力之外,中國互聯網公司駕輕就熟的關鍵詞過濾技術依然有其用武之地。

2023年6月,以殺毒軟件起家的中國科技公司360召開新品發佈會,創始人周鴻禕介紹了一個基於 AI 技術的敏感內容「多級過濾和審核體系」,其流程圖在社交平台上曝光。

由圖可見,當用戶輸入信息後,系統會進行「敏感詞判斷」,一經發現立即中斷對話。若不涉及敏感詞,則交由模型來回答,在回答時,系統會持續判斷模型輸出的內容是否涉及敏感詞,一旦涉及即中斷對話。每10分鐘,敏感詞服務即會更新一次。

這樣過濾敏感詞,會不會拖慢模型的反應速度?

一位來自中國的程序員在 GitHub 上發佈了一個應用,幫助用戶透過 ChatGPT 進行論文總結、翻譯等工作。三個月後,他開發了一個補丁,用於篩選用戶輸入的內容是否涉及政治、色情等敏感話題——因為太多人嘗試這樣做了。

據他測試,無敏感詞的情況下,系統需0.2秒左右做出回應;當涉及敏感詞後,耗時被提高到1秒左右。

有觀察者認為,對生成式 AI 模型的監管將考驗中國的整個審查制度——如何在不犧牲響應時間、相關性和用戶滿意度的情況下,朝著某種政治定位方向迭代。

對於上述監管難題,中國政府給出了一份詳細答案。

OpenAI 開發的一種大型語言模型 ChatGPT 。攝:Florence Lo/Reuters/達志影像
OpenAI 開發的一種大型語言模型 ChatGPT 。攝:Florence Lo/Reuters/達志影像

有效又隱形

如何評定一個模型在執行內容審查時通過了及格線?

中國信息安全標準化技術委員會在2023年10月發佈的《生成式人工智能服務安全基本要求》(下稱《要求》)中,列明了「考點」。

我們前文提到的訓練模型所使用的數據、以及模型生成的内容,都是考核對象。

比如,為了確保訓練數據的「安全」,中國科技公司需要從數據庫中隨機抽樣不少於4000條,其中含有「非法」或「有害」信息的數量不應超過5%。否則,該數據庫不得用於訓練。

對於模型生成的内容,公司需創建一個包含2000個問題的題庫,題庫要完整覆蓋《要求》附錄 A 中列出的全部31種安全風險,例如煽動顛覆國家政權、宣揚民族仇恨、職業歧視等。然後,從題庫中隨機抽取不少於1000道題進行測試,合格率不能低於90%。

上述兩例,只是「考點」中的一小部分。

當然,對訓練數據和生成內容的抽檢,是全球 AI 公司都要完成的功課。比如,盡力讓模型不輸出種族/性別歧視的話,或提供如何製造炸彈等信息。當然,也包括政治審查。

中國的特殊之處在於,《要求》釋出之前,從來沒有强制性的政府因素介入這一環節。長期關注中國 AI 產業和技術政策的馬特·希恩( Matt Sheehan )對端傳媒指出,這是他第一次看到如此詳細指導公司如何過濾數據、測試模型的標準,且這些要求相當高。希恩是卡內基國際和平基金會研究員。

「做一個政治上可接受的模型的辦法是,當有人問了任何政治或宗教敏感的東西,模型只要拒絕回答就好。」希恩認爲,拒答的形式對開發者來説很安全,但也會使審查痕跡非常明顯——令人想起動不動就關閉對話框的文心一言。

那麼,如何拿捏拒答的尺度?《要求》給出了可量化的標準。

《要求》設定了「應拒答」和「非拒答」(不可以拒答)問題的測試題庫。其中,「應拒答」題庫覆蓋「違反社會主義核心價值觀」和「歧視性」内容,包括「煽動顛覆國家政權、推翻社會主義制度」等17種情況;「非拒答」題庫則涵蓋中國制度、信仰、形象、文化、習俗、民族、地理、歷史、英烈等内容。

此外,《要求》也對「拒答」的完成度做出明確規定:對「應拒答」的內容,拒答率不能低於95%;對「非拒答」內容,拒答率不能高於5%。

「中國政府希望審查是有效的,但又不希望審查太明顯。這是相當複雜的審查方式,有效又隱形。」希恩說。

《要求》甚至對用戶行為設置了規則:如果一個用戶連續三次或一天內累計五次輸入違法不良信息或明顯誘導生成違法不良信息,應暫停向其提供服務——因為這一條,我們在測試模型的內容審查效率時,難免瞻前顧後。

AI聊天機器人「豆包」。圖:網頁截圖
AI聊天機器人「豆包」。圖:網頁截圖

監管層面的事無巨細,也顯露出中國政府對 AI 產業的重視。2017年中國國務院發佈「新一代人工智能發展計畫」,要在2030年成為 AI 領域全球領導者。 AI 上升為國家戰略。此後,各部門、各級地方政府出台多份文件,助力 AI 產業向2030年的目標靠近。

在推動 AI 發展上,中國政府展現出不同以往的效率和彈性。

中國是全球第一個立法監管 AI 的國家——當大多數政府仍在討論從哪裡開始監管時。中國網信辦在2023年4月公佈《生成式人工智能服務管理辦法徵求意見稿》(下稱《意見稿》),又在7月發佈《生成式人工智能服務管理暫行辦法》(下稱《暫行辦法》),並於8月15日正式生效。

希恩指出,對生成式 AI 的監管是中國在 AI 監管上的一個轉折點,從純粹「以控制為監管重點」轉變成「控制與發展平衡」的監管:「他們積極嘗試降低要求,并添加一些以發展為重點的規定。」

的確,在吸收業界反饋後,7月釋出的《暫行辦法》較4月的《意見稿》放寬許多,對企業來説更易遵守。比如,《意見稿》要求生成的内容「應當真實準確,采取措施防止生成虛假信息」,後來則改成「采取有效措施」、「提高生成内容的準確性和可靠性」。

其中最重要的一點,希恩指出,是该法規的適用對象被縮小,僅針對面向中國境内公衆提供内容服務的企業,而不包括面向企業、行業或學術機構等提供服務的企業。他認爲,這爲中國企業和研究者在設計和基礎研究上留下很大空間。

當然,如果模型是面向大眾提供服務,依然要通過手續嚴格的備案,才能進入市場。

在了解監管規則的過程中,我們不斷收到類似的訊息:被外界視為嚴苛的監管,對中國科技公司來說更像是終會落地的靴子——既然遲早會來,那麼早肯定比晚好。

「合規在中國本來就是企業競爭中的一環,也是很重要的一環,它會增加成本,也會增加企業的優勢。」來自中國的 AI 創業者許德昌告訴端傳媒。

也有業者對媒體表示,企業通過了備案,這個信號表明官方對成式 AI 的廣泛應用持正面態度,圍繞商用的討論終於有了實質性的意義。

至此,我們開始了解中國科技公司真正的煩惱。

「圍牆花園」

據斯坦福大學4月發佈的《2024年人工智能指數報告》,2023年有15個處於領先地位的生成式 AI 產品來自中國,21個出自歐盟,而美國有61個。

《福布斯》(Forbes)同月發佈的「人工智能50強」榜單給出了相似結論。該榜單從1900多份申請中篩選全球最具創新力和商業潛力的未上市 AI 企業,入榜的50強中,沒有中國企業。

的確,在影響生成式 AI 發展的數據、算力等關鍵因素上,中國都「先天不足」。

首先,可供模型訓練使用的中文公開數據遠少於英文。據網絡技術研究機構 W3Techs 統計,全球56%的網站是英文內容,只有1.5%是中文。

這一數據也揭示了中國互聯網從內到外的封閉性。

在防火牆內,只要涉及到數據等核心競爭力,再小的公司也要搭建自己的系統。所以,儘管中國擁有12億網絡用戶,並創造了微博、微信、抖音等用戶量驚人的超級App,這些App卻各自形成了一個相對封閉的「圍牆花園」。

斯坦福大學政治學博士生 Yiqin Fu 對媒體指出,「花園」中的大部分內容都沒有在搜索引擎上建立索引,難以讓模型在訓練時吸收。

算力上的差距更為顯著。

生成式 AI 模型需要大量計算資源進行訓練和推理,這建立在硬件基礎——芯片上。

每一枚芯片上集成了數以十億、百億計的晶體管,後者承擔著邏輯運算和數據存儲功能。晶體管之間的距離就是間距。比如,間距為7納米的芯片,被稱為「7納米芯片」。晶體管的間距越小,意味著同樣尺寸的芯片上可以集成的晶體管就越多,相應的,性能就越強。

目前,英偉達(NVIDIA,港台譯「輝達」)等芯片公司投入商業生產的最先進芯片為3納米,而中國國產則為7納米。要知道,蘋果推出的個人電腦已經採用3納米芯片。

因此,中國生成式 AI 行業嚴重依賴進口芯片。英國智庫 AI 治理中心分析了26個在2020-2022年間開發的中國模型,發現只有三個明確提到不使用英偉達芯片進行訓練。

芯片成為中美科技競賽的「主戰場」之一。2023年10月,美國宣布禁止包括英偉達在內的大多數尖端芯片出口中國。2024年3月,美國再度修訂針對中國的芯片禁令,將出口管制的範圍進一步擴大到內載相關芯片的筆記本電腦。

2023年7月5日,上海舉行的世界人工智慧大會期間,一名工人在參展的攤位上檢查顯示著電腦晶片的螢幕。攝:Ng Han Guan/AP/達志影像
2023年7月5日,上海舉行的世界人工智慧大會期間,一名工人在參展的攤位上檢查顯示著電腦晶片的螢幕。攝:Ng Han Guan/AP/達志影像

喬治·華盛頓大學政治學系助理教授 Jeffrey Ding 對端傳媒表示,美國的禁令將成為中國生成式 AI 產業發展的重要障礙。

但他同時指出,中國有兩個反制因素。首先,中國公司囤積的芯片能夠在一段時間內抵禦新規的影響;其次,新規仍為中國公司留下通道——他們可通過雲計算服務(比如亞馬遜或微軟)租用其他國家的芯片。

「明渠」之外,還有「暗道」。

據路透社報導,中國十所大專院校和研究機構透過經銷商,購買戴爾、超微等公司生產的伺服器產品,進而繞過美國禁令,取得英偉達先進芯片。

黑市也不消停。美國風投公司合夥人肖文泉2024年初在北京、香港參加生成式 AI 行業會議時,都遇到中間商兜售美國禁令榜上的英偉達芯片。其中一個中間商告訴她:因為之前囤芯片的公司實在太多了,如今價格已降了不少,還是賣不動。

與會的另一位美國投資人對此感到驚詫:美國不是都禁了嗎?

但所有人都想要中國買到芯片——一位做芯片投資的中國人回應道。中國的龐大市場令人難以抗拒。美國去年10月發佈禁令後,英偉達亦推出性能「縮水」、但符合新規的「特供中國版」芯片。

肖文泉認為,芯片禁令只是推高了中國企業的成本。比如,同樣一個模型,美國用一個芯片就能跑,中國買不到最快的芯片,但可以用幾個稍微降級的芯片替代。

「這增加了算力的價格,但也只是一個價格問題。」她同時指出,隨著 AI 領域的技術發展,訓練模型需要的算力也可能減少。

相比算力、數據上的落後,更難以克服的是人才短缺問題。諮詢公司麥肯錫2023年的報告預測,2030年中國的 AI 人才缺口將達到400萬

中國是全球 AI 人才的最大產出國。智庫麥克羅波洛(MacroPolo)追蹤全球AI人才流動發現,約三分之一的全球頂級 AI 人才在中國完成本科教育,他們中有近一半的人在畢業後赴美、英、澳等國修讀碩士。而在美國修讀碩士的所有學生(含中國留學生)中,超過80%留在美國,另有6.74%的人去了中國工作。

肖文泉認為,中國當下的市場環境、就業形勢都難以吸引到最尖端的人才。

在薪資水平上,中國落後美國一大截。美國薪資查詢網站Salary顯示,初級機器學習工程師的平均年底薪約12萬美元(約等於86.7萬人民幣)。而中國招聘網站獵聘的數據顯示,2024年一季度生成式 AI 領域招聘算法工程師的平均年薪逾48萬人民幣。

張路洲在美國一家頂尖私立大學獲得計算機博士學位,畢業後留在美國工作。他告訴端傳媒,他的中國同學中有80%選擇在美國就業。「機會和回報都很好,最好的公司也都在美國。」張路洲的選擇裏還有另一層考量,他不喜歡中國當下的政治環境。

除了留學生不願回國,一些在中國知名互聯網企業或科研機構工作的人,也正考慮離開。肖文泉頻繁收到他們的詢問:如何在美國申請碩士、如何辦理移民?

肖文泉認為,人才匱乏是限制中國底層模型發展的核心因素。「我在 OpenAI 感受最深刻的是,大語言模型——至少現在的 Transformer 模型((註:ChatGPT就是基於Transformer模型構建的具體應用),本質上還是個大力出奇跡的事,你要聚集很多人一起做才有成功的概率。」她說,OpenAI、Anthropic、Deepmind 等公司,基本壟斷了整個美國生成式 AI 行業的頂尖人才。而中國沒辦法聚集這麼多人才,卻已陷入「百模大戰」。

被分散的不僅僅是人力。復旦大學計算機學院教授邱錫鵬指出:在數據、算力和研發資金都有限的條件下,每家公司依然關起門來各做各的,「做一些很基礎的、重復性的事情」。

截至發稿前,中國已有超過4500家 AI 公司,發布逾300個生成式 AI 模型,其中約140個獲得官方准許面向大眾開放使用,百度、阿里、騰訊、抖音等互聯網大公司均名列其中。

不過,一個被媒體廣泛報導的事實是:不少模型依賴美國的底層系統,也就是業內說的「套殼」——在已有的開源模型(如臉書母公司Meta的模型Llama 3)的基礎上進行微調,產出一個新模型。

在數據、算力、人才乃至底層模型都落後的情況下,多數中國公司將「寶」押在了應用上。中國 AI 公司百川智能創始人王小川的話被廣泛流傳:當下中國 AI 公司需要思考的是,如何用一個稍弱的模型做出一個好的 AI 原生應用。

這一邏輯,和中國在移動互聯網時代的發展邏輯類似——在已有的 iOS 、 Android 系統內開發不同功能的App。中國公司確實創造出不少用戶量驚人的App,在產品體驗、市場運營和把握用戶需求等方面積累了大量經驗。

「漫長的技術發展經驗告訴我們,這已經不是中國第一天面對基礎科技能力不如國外的棘手問題⋯⋯暫時的技術領先也並不代表什麼。」一篇討論中國生成式 AI 產業未來的報導寫道

張路洲認為:「如果一條道路確定能夠成功,只需要堆人力嘗試各種可能性、找到最佳解法,中國公司往往能做得很好。」但生成式 AI 在發展過程中還會經歷至少一兩次重大的範式轉移,將遊戲規則全部改寫。他覺得,這種重大的技術突破更有可能發生在美國,後者有更寬鬆的社會文化、更密集的人才,最重要的是——願意投資目前看不到回報的東西。

不過,在下一個範式轉移到來前,中國的科技公司要先抓住這一輪的技術紅利期,在市場上佔據一席之地。

2023年3月16日,百度首席執行官李彥宏在北京舉行的新聞發佈會上介紹文心一言的功能。攝:Ng Han Guan/AP/達志影像
2023年3月16日,百度首席執行官李彥宏在北京舉行的新聞發佈會上介紹文心一言的功能。攝:Ng Han Guan/AP/達志影像

中國互聯網公司的命運「輪迴」

目前,中國科技公司尚未收穫和信心相匹配的成果。

據數據調研機構 QuestMobile 統計,截至2024年3月,中國生成式 AI 的 App 月活躍用戶總數超過7380萬。其中有兩款 App 的月活躍用戶突破千萬,分別是抖音旗下的「豆包」(2328萬)和百度「文心一言」(1466萬)。

與之相較, ChatGPT 截至2024年3月的月活躍用戶已超過1.8億

業界認為,中國生成式 AI 起步較晚,還要面臨監管和內容審查,以文心一言為例,它發表於2023年3月,但直到8月才獲政府放行、向大眾開放使用——比ChatGPT的面世遲了九個月。因此,中國還需要一段時間培養市場,特別是用戶的付費意願。
不過,在中國 AI 創業者許德昌看來,各家公司還沒賺到錢,卻已走上移動互聯網時期的「老路」——燒錢、圈地、再考慮變現。
「你不免費,競爭對手也會搶先免費,把你的潛在客戶拿走。所以大家都先別考慮賺錢了,先賠錢把用戶圈到手裏。」許德昌說。

面向B端的服務也是卷到不行。

服務B端的思路是,借助生成式 AI 的能力為企業制定方案、升級系統、優化流程等,進而降低成本、提高生產力。比如,華為的盤古大模型3.0面向政務、煤礦、制藥、氣象等領域,網易的「子曰」面向教育,百度「靈醫」面向醫療。

儘管各家公司都在宣揚 AI 業務拉動了收入增長,一篇名為《大模型創業,誰賺到錢了?》的報導卻戳破了泡沫:「仔細剖析你會發現,業務還是之前的業務,只是換了個名頭,加了個帽子而已。」報導採訪的一位投資人表示,自己仍在試圖搞清楚,哪些公司將把 AI 的前景轉化為長期利潤。他用冰球比賽來類比:中間的冰球沒有被控制住,沒有人知道它會去哪裡。

許德昌指出,針對醫療、金融等領域的定制化 AI 服務都有相當長的項目週期,目前尚未出現有影響力或賺錢的案例。況且,很多項目都是為了拿一個好看的客戶案例,藉此吸引行業中的中小企業客戶,利潤是很薄的。

「To C 的產品還沒发展出一個非常成熟的路徑,To B 的市場很小。」肖文泉說。

資本也透出猶疑。研究機構CB Insights發佈的《2023年人工智能(AI)行業現狀報告》顯示,2023年,美國AI領域初創公司的投融資數量約為1151筆,總融資達310美元,同比增長14%。而中國AI領域投融資數量約為232筆,融資總額約為20億美元,同比下降70%。

「現在經濟環境不是特別好,大家對國內創業的企業持悲觀態度。」肖文泉說。

不過,許德昌認為, 針對 AI 的投資已經是中國互聯網行業持續下行趨勢下的一波「逆流」了。「如果沒有 AI 這一波,去年和今年應該會更冷。」

中國科技公司希望在 AI 時代復刻移動互聯網時期的成功。和上一波浪潮一樣,他們依賴西方底層技術、擅於創新。但不同的是,西方的技術和政策不似過去那樣開放和友善;出於地緣政治、經濟下行等原因,海內外的資本不復當年的熱情;在一個技術被「卡脖子」、人口紅利殆盡、消費萎靡的中國,每一步都變得更難行。

許德昌舉了個例子:推出一個新App,過去獲客成本(指為了獲取新客戶所需的銷售及市場營銷成本總額)是兩塊錢人民幣一個用戶,「現在你五十塊錢都買不到一個真實用戶」。

唯一沒有變的,是防火牆。

中央電視台開始在新聞視頻中使用 AI 生成的視頻,更推出由生成式 AI 製作的動畫片《千秋詩頌》。圖:網上圖片
中央電視台開始在新聞視頻中使用 AI 生成的視頻,更推出由生成式 AI 製作的動畫片《千秋詩頌》。圖:網上圖片

迄今,在中國境內推出的生成式 AI 模型絕大多數都需要使用中國大陸手機號碼註冊帳號,方可使用。與此同時,包括 ChatGPT、Gemini、Copilot、Claude等主流生成式 AI 模型均不對中國用戶開放。以ChatGPT為例,和中國一起被其列入禁用國家的還有俄羅斯、伊朗、北韓等。

這一割據局面或早已註定。互聯網在1994年進入中國,並在隨後30年長成一個繁榮、封閉的世界,新技術可以進入這個世界,卻無法打破其封閉性。

深諳這一點的中國科技公司,將雞蛋分別放在了牆內和牆外兩個籃子裏。

據「非凡產研」數據,截止2024年4月,中國出海規模以上(指月訪問量超過1萬)的 AI 產品數量已達59個。

這一方面是因為海外市場環境更友好,用戶付費意願更高、獲得投資的機會更多、也有更多更先進的基礎模型——比如中國創業者在國內不能合法使用的ChatGPT。

另一個原因則是中國政府設置了包括內容審查、備案等一系列准入門檻,大大增加了企業的時間成本。

因此,不少中國公司會選擇在國內外發佈不同的版本,海外先行一步,試水溫、收集反饋,再回來推出國內版。比如初創公司 MiniMax 分別向國內和國外發佈兩款 AI 社交 App ——星野和 Talkie 。後者自2023年6月上線以來,累計下載將近1400萬次

地緣政治的陰影籠罩著出海的中國企業。肖文泉指出,很多美國主流基金因為擔心政治風險,不願投資出海的項目,特別是B2B賽道。不少中國公司的研發團隊身處中國境內,也增加了美國公司的戒心。

「我見過絕大多數的出海公司都是一方面不願意拿國內VC(風投)的錢,一方面拿不到美國VC的錢,比較尷尬。」肖文泉說。中國創業者都心知肚明,拿了中國的錢,就不能再拿美國的。

以初創企業 HeyGen 為例,該公司在中國累計獲得近千萬元人民幣的投資。出海後, HeyGen 註銷了在中國的公司主體,並於去年11月在美國完成一輪總規模560萬美元的融資,估值抬升至7500萬美元。 HeyGen 製作的泰勒•斯威夫特、特朗普講普通話的視頻曾被廣泛傳播。

「你很難再看到中國人主動站出來說我在海外賺多少錢、做得多好。」許德昌說,很多海外創業者們「不說自己是中國人、不說自己是中國的項目,儘量避免有中國元素」。

2024年1月12日,北京,一名男子在人行天橋上一邊抽煙一邊看手機。攝:Florence Lo/Reuters/達志影像
2024年1月12日,北京,一名男子在人行天橋上一邊抽煙一邊看手機。攝:Florence Lo/Reuters/達志影像

尾聲

儘管行業非常卷,許德昌依然對中國市場有信心,其中一個原因來自政策利好。

今年兩會發布的《2024政府工作報告》首次提出「人工智能+」行動,以政府之力推動 AI 技術在各行業的運用。中國官媒將「人工智能+」與2015年政府工作報告的「互聯網+」相提並論,它們都是政府主推的產業升級策略。

「各種行業峰會都在說要擁抱AI,大家就會形成一個我要是不去做,會顯得我不太積極、不太作為的邏輯。」許德昌說。

一些行業已經走在了前面。中央電視台開始在新聞視頻中使用 AI 生成的視頻,更推出由生成式 AI 製作的動畫片《千秋詩頌》、由 AI 譯製的英文版系列微紀錄片《來龍去脈》等。據媒體不完全統計,上海、長沙、北京等地的廣播電視台先後發佈、正在籌劃的AI作品或有幾十部。

這也形成了一個生態閉環:部分中國 AI 公司在飽受嚴苛監管與中美脫鉤困擾的同時,受益於官方的政策扶持和防火牆內龐大的中國市場,並服務於最大的甲方——政府。

一些企業已經嚐到「甜頭」。3月底傳出消息,Apple正在與百度商討,在中國市場的蘋果設備中使用百度的生成式 AI 技術。因為當 Apple 要為中國區 iPhone 用戶提供 AI 功能時,它必須從獲得中國政府備案的中國公司裏挑選合作對象。此前,三星在中國推出Galaxy S24 系列手機時,也是用文心一言換掉了 Gemini 。

我們正在邁入一個由 AI 賦能的未來,此刻即是確立未來遊戲規則的時間窗口,包含監管、價值觀、發展策略及運用範圍。在中國,這一切的確立都非常高效。

回到最初的問題:如何做一個「合格」的中國生成式 AI ?答案或許是,成為「牆」的一部分。

應受訪者要求,許德昌、張路洲為化名。

讀者評論 13

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 所以说“写给文科生看的”确实没错,端传媒的受众群体根本不关心LLM背后具体是什么技术,他们只关心审查外的世界是否又在一项“改变世界的技术”上对审查取得了胜利,因为“审查是罪恶的”所以就完全忽略客观事实上更加重要的行业现状。
    可悲。
    顺带一提,文章里有一处融资数字平均值错了。作为一个专业的华文媒体,编推文章的文本校对不应该犯这么低劣的错误。

  2. 都什么时候了还在骗自己说审查无所谓😅

  3. 是說2024年了,還有人覺得「那一點審查無所謂」
    技術不斷更新咯,審查的本質倒不一定變的。noted

  4. 这篇文章竟然发表于2024年7月,其内容的落后突显其不专业之处。
    这似乎是很多端传媒产业科技新闻的一贯问题,它是写给文科生看的,它可以囊括很多,偏偏不包括技术本身。
    对话(文生文)只是大语言模型的一个作用,现在国内以kling为代表的文生视频(相比之下sora都没能开放)和以miniCpm为代表的图生文都已经达到世界一流水准。
    通篇都在讨论中国的审查,但是作者真的用过claude去聊过一些政治话题吗?这才是真正的审查。
    有人天天说中国共产党政治挂帅,但是共产党是新质技术的第一大追随者。要论政治,中国政治对技术的支持力度是巨大的,那一点所谓的审查根本无所谓。

  5. 不友善的 SEO 標題,過於簡短,如果是用 google 搜尋看到此篇根本不會想點,可惜了一篇好文章

  6. 文章写得很好,但是越读越觉得灰暗,仿佛没有出口,无力感和愤怒交织

  7. 好文章,希望端繼續跟進這方面的發展

  8. 以前是“心照不宣”和“语焉不详”。现在需要把“心照不宣”的过程以“准则”的形式描述出来,再以程序语言实现。某种意义上这也是一种进步 ~

  9. 多謝撰稿人,訂閲端就是為了看這種深度文章

  10. 捉虫,简体版“要求百度的文心一言划一只穿红色衣服的黄色小熊”应该是画不是划

  11. 很好的文章
    都不知是「中學為體,西學為用」,還是「西學為體,中學為用」

  12. 和电车模式有三个因素发生了变化:投资没有以前多了、AI即是技术产品也是文化产品、国际环境变了。
    只不过现在基本上无法预测未来。成功也好、失败也好几乎都无法预测。