在剛剛過去的這個春節,DeepSeek的橫空出世是一個典型的「超級明星事件」,在技術之外,這一事件同時引爆了全球層面的政治和經濟的大量討論。
考慮到春節前後通常是一個中國市場和行業傳統上較為淡靜的時段,新聞和數據點較少,DeepSeek幾乎佔據了全部輿論,並以一己之力攪動中美經濟。DeepSeek R1推理模型發布後,常常被市場人士笑稱「一家公司獨自支撐着美股」的英偉達股價一度暴跌17%(約6000億美元),原因是有分析認為DeepSeek僅560萬美元的訓練成本證明了未來的人工智能大模型訓練並不需要那麼多的英偉達GPU;相應的,DeepSeek這家中國本土的團隊,因為其意外爭氣的表現,拉動了市場對於「中國AI」想象,恆生科技指數連日上漲,相應的中國科技公司也都是「與有榮焉」,努力以各種各樣的方式趕上這波流量。
政治上,DeepSeek R1大規模獲得媒體關注的時間,正好是2025年1月20日特朗普就職當日,很多人將這個時間點,與華為在美國商務部長雷蒙多2023年8月訪問中國期間發布其7納米工藝芯片的手機相提並論。DeepSeek一夜之間成為了中國反抗美國科技霸權的象徵,創始人梁文鋒也成為了中國總理座談會的座上賓,並在《新聞聯播》上獲得了單獨的鏡頭,也與馬雲、馬化騰等人一起出現在2月17日習近平出席的民營企業家座談會——這些在中國政治語境中是非常高的認可。
Deepseek與出口管制間的關係
而在這一波由DeepSeek所帶動的政治、經濟話題當中,出口管制政策又是一個非常有代表性的題目。在中美科技戰的大背景下,美國試圖通過出口管制政策手段,限制中國企業獲取先進芯片和相應的製造能力,以限制中國人工智能技術的發展,從美國第一次將華為放上「實體清單」開始算,已經持續了將近六年的時間。
從特朗普第一任期到現在,有超過400家中國企業遭到「實體清單」制裁,美國政府幾乎一年一改出口管制指標,將中國企業能夠合規獲取的芯片算力性能越限越低。中國企業在台積電等先進晶圓廠,能夠合規獲得的先進製程製造能力,也從一開始的「只有個別企業不能做」的黑名單形式,演進到了今天「只有個別企業可以做」的白名單形式。
可以說,和特朗普第一次進白宮時的情形相比,今天的美國出口管制政策已經發生了「海變」級別的變化——先進算力方面的指標全部對應着業界最新的發展方向,而且一年一更新;為了不讓中國鑽空子從第三國繞道獲取先進芯片,美國商務部已經事實上給全世界所有國家都建立了「算力配額」制度,東南亞、中東這樣傳統上有可能成為「第三國」渠道的地區,在2024年12月拜登政府的最後一波出口管制大修政策之後,已經受到「五萬張等效英偉達H100算力卡」的約束,要想再轉口賣到中國將會非常困難。
![](https://theinitium.com/wp-content/uploads/2025/02/227A5438-copy-1.jpg?w=1024)
但是DeepSeek還是誕生了。如果在美國如此嚴厲的出口管制下,一家中國本土企業仍然能夠做出世界級的人工智能大模型,是不是說明美國政策失敗了呢?
要回答DeepSeek和出口管制的關係,我們先來看看DeepSeek的創新到底來自哪裏。首先,DeepSeek這次最引起轟動的部分,也是直接導致英偉達暴跌的部分,是其在技術文件中宣稱的「訓練成本560萬美元」,而今天美國公司的前沿大模型公司,如OpenAI,Google,Anthropic,Meta,開發一代大模型的成本大約在10億美元級別。如果真的是用幾百分之一的成本做到了相同甚至是更好的表現,那衝擊的不僅僅是英偉達的估值,而基本上是所有美國科技公司的估值。考慮到美國科技公司今天在美國資本市場上的超大權重,如果真的是這樣整個美國經濟都可能要震動。
但這一部分也是最容易被澄清的——DeepSeek宣稱的560萬美元僅僅是最後一輪訓練的成本,並不包括其前期開發的投入。其與美國公司「蘋果對蘋果」的成本核算目前無從得知,但是根據多種推算,同樣口徑的成本大概率和美國公司是在一個數量級上的,絕不是兩百分之一。
另外很重要的一點,就是幻方量化(孵化了DeepSeek的量化基金公司)作為主打「AI交易」的金融公司,早在2021年就購入了一萬張英偉達A100 GPU用於內部科研。翻看幻方早期的公開資料不難發現,這一萬張卡給了他們很多的探索空間,相信也為他們吸引到了不少國內的頂尖人才(招聘廣告裏會有「如果有一萬張A100你會怎麼用」這樣的亮點)。
美國政府收緊出口管制,將A100級別的計算芯片加入禁運之列,是2022的事情。而在幻方開始囤英偉達卡的時候,OpenAI還沒有發布ChatGPT。從這個角度來說,DeepSeek相對其他中國公司有更加充裕的算力準備,很大程度上是創始團隊當時的前瞻性和遠見(或許也有一些巧合和運氣)。如果不是這一萬張卡打底,這家金融公司的技術團隊可能不會有上到產業牌桌的機會。這也意味着DeepSeek的成功經驗恐怕是獨特且難以複製的。
DeepSeek的創新之處並不是「用更少的英偉達卡」,而是「將英偉達卡的效率發揮到極致」。隨着美國出口管制的升級,DeepSeek和其他的中國公司一樣,都面臨着算力差距越來越大的問題,和美國公司比算力自然是死路一條。因此,DeepSeek從V2版本開始就選擇了改算法、改架構。其創造性的「混合專家模型「(Mixture of Expertise, MOE),通過把「大」模型拆成「小」模型,再結合token預測(Multi-Token Prediction, MTP)的方法,再加上大量的底層硬件調優(巨大的工程投入和創新),大幅提高了GPU的使用效率,運用了這些創新的DeepSeek V3版本在2024年12月發布時其實已經引起了業界的廣泛關注和高度的評價。而最後佔據了新聞頭條的DeepSeek R1採取了訓練方法(Reinforced Learning,RL)的創新,因為其近乎於人類的推理能力取得了爆炸性的輿論效果。
被算力缺口「逼」到去下大力氣改架構、改算法、磨工程。如果類似的想法在一家美國公司裏被提出來,大概會被質疑「為什麼要費力氣走一條沒有走過的路」?如果算力不是問題,那麼堆算力、加參數仍然是一條行之有效且路徑明確的大模型提升之路(Scaling Laws)。DeepSeek的創新,很好地說明了什麼叫「需求是創造之母」,即便帶有一些無奈的色彩。DeepSeek在算法、架構、工程方案的創新方案,根本上是因為算力本身被卡死的迫不得已。這樣的方案几乎只有可能在中國公司出現,因為只有中國公司才會同時面臨「巨大需求和巨大限制」這兩個問題。因此,DeepSeek的創新在中國以外也是很難複製的,因為別的國家要不是沒有中國這樣大的需求,要不就是算力充裕,沒有動力走這條路。
![](https://theinitium.com/wp-content/uploads/2025/02/GettyImages-2195972271.jpg?w=1024)
那麼這是「彎道超車」嗎?DeepSeek的創新意味着在算力仍然非常「卡脖子」的大前提下,中國公司的大模型沒有在全球競爭中掉隊落伍。這當然是了不起的成就,但平心而論,要說已經領先顯然也為時過早。
DeepSeek的發展速度,仍然走在OpenAI等巨頭所驗證的AI發展曲線上:DeepSeek對標的OpenAI GPT-4o發布於2024年5月。而在DeepSeek R1推出後不久,OpenAI也馬上以GPT o3-mini進行了回應。DeepSeek顯然處於全世界AI競爭的第一梯隊,在一些細項上有領先,但要說實質性的領先也還為時過早。
DeepSeek證明了在當前階段,「算力優化」可以取得相當於「算力增加「的效果。但後者顯然還有很大的增長空間,DeepSeek這樣的「極致優化」方案能夠一直跟上嗎?再或者,如果那些算力充裕的競爭對手有朝一日意識到堆算力的邊際價值太低,也掉過頭來在算力優化上下功夫,DeepSeek在絕對算力上的先天劣勢是否會變成其發展的天花板?這當然都是一些假設性的問題,今天沒有人能夠真正回答。但我想強調的是,DeepSeek無論從現狀還是潛力,顯然都還沒有到「遙遙領先「的程度。
出口管制的悖論
可以說沒有美國的出口管制,就不會有DeepSeek今天的橫空出世。DeepSeek既是出口管制的成功,也是出口管制的失敗。
DeepSeek V3作為今天中國最好的人工智能大模型,最重要的創新都來自於架構和算法,反過來說明了絕對算力的瓶頸仍然難以突破。畢竟,用更大規模的算力集群訓練參數更大的模型,是一條被驗證了的大模型推進路線。而沒有一家中國公司在這一點上能夠比肩產業前沿,無聲地說明了這條路在中國很難走通。
經典的出口管制政策邏輯,是首先識別對象國家產業和科技體系上的核心一點或者幾點,再結合自身的管控能力以及可以接受的政治、經濟成本,對這些關鍵節點進行管控。而管控的目標常常是減少和延緩。從這一點上來說,美國的出口管制政策是能夠自圓其說的。美國的確大幅減少了中國的算力供給,拖延了中國人工智能的發展速度。只不過和所有政策一樣,出口管制也有其「無心插柳」之處——對算力的限制鼓勵了中國公司去走算力優化的道路。
有些人認為這就是政策的失敗,並認為出口管制的問題在於「執行不力」。這些人往往認為今天美國的出口管制政策漏洞太多,執行不夠嚴格,因而沒能真正卡住中國的脖子。這類意見有一種「政府全能」的傾向,通常高估了華盛頓(或者是任何國家的政府)在制定政策時對於最新前沿科技的理解能力,或者政策發布的及時性,又或者是政府對於業界遊說的免疫能力。
美國很多科技鷹派抱怨華盛頓遭到英偉達說客的影響,對中國的禁運總是網開一面。一些人相信合法出口到中國的英偉達H20算力卡(H100的降規格版本)是DeepSeek成功的重要一環,因此如果美國限制了H20就不會有DeepSeek的成功。
這些人常常忽視的一點是,美國之所以今日有能力去限制中國的科技發展,正是因為有英偉達這樣全球經營的超級科技公司。如果英偉達沒有盈利衝動,沒有業績壓力,沒有遊說能力,惟華盛頓馬首是瞻,那美國大約也不會有今時今日制裁中國的籌碼。這些人第二個常見的問題是喜歡放馬後炮——事後來說某些漏洞如此明顯為什麼不早點堵上。而人工智能的發展速度是如此之快,從ChatGPT問世到今天模型能夠像人一樣展現推理過程,其實才過去24個月。讓一些平時並不與前沿科技打交道的政府官員坐在辦公室裏,就預測到中國下一代大模型的完整技術路線,並且找到相應的政策手段來進行全面封堵,難度不亞於坐在時速300公里的高鐵上對外射移動箭靶。
![](https://theinitium.com/wp-content/uploads/2025/02/GettyImages-2195697316_b6a1c9.jpg?w=1024)
最後,這類論點的一個問題,是出於各種原因不願意承認中國企業的創新能力——早期的一萬張A100和後期的H20對於DeepSeek當然非常重要,但有這樣條件的公司也不是隻有這一家,一些中國團隊手裏的條件比這個好的多也沒有做出類似的成果,DeepSeek的技術原創性是毫無疑問的。
美國的出口管制會改變中國創新的方向,但不會消滅中國的創新。DeepSeek讓美國的政策圈產生某種「恐慌」,並且由此衍生出對當前出口管制的批評,深層次的原因是美國對華政策的持份者們,無論是政府官僚、立法者,還是行業領袖,都在「美國對華科技限制的目標是什麼」這個問題各說各話。
拜登政府在時任國家安全事務顧問傑克·沙利文的主導下,提出了著名的「沙利文主義」:美國對中國的科技壓制目標,要從此前的保持1-2代優勢,往「無限優勢」方向轉變。這是一份很重的賭注,如果以此為目標,那麼中國在人工智能方向上的任何技術突破和創新,都是美國政策的無法承受之重。這也是特朗普政府面臨的一個難題:如果本屆政府要繼續延續沙利文主義的思路,不接受中國在人工智能方面的突破和創新,那相關決策者可能會不斷地被拷問「為何失敗」。反之,如果在這個目標上鬆口或者變得有彈性,那麼將面臨的可能是「為何軟弱」的攻擊。
特朗普本人第一時間對DeepSeek的點評(「a positive development」)是高度商人式的,也令人唏噓:用開源的方法把大模型的成本降下來是一件好事,因為這意味着美國公司也可以從中獲得收益。在昨日的世界裏,我們會更加毫無保留地慶祝這樣的創新。如果把DeepSeek的方法應用在美國企業的超級算力集群上,將會加速人工智能的發展,而今日的世界是如此不同,今天我們更關心誰贏了。
讀者評論 0