評論|在「算力即國力」的今天,美國最新的技術封鎖給中國帶來怎樣的壓力?

美國選擇在「習拜會」之前發布這個重磅炸彈,完全不考慮中國可能的反彈,就是釋放出「別的都可以談,芯片免談」的信號。
華為Mate 60 Pro手機芯片由中國製造,以突破美國的芯片管制。攝:James Park/Bloomberg via Getty Images

今年10月16日公布的美國先進計算出口管制更新規則(全稱是Advanced Computing/Supercomputing Interim Final Rule,AC/S IFR),以及相應的半導體制造設備出口管制更新規則(Semiconductor Manufacturing Equipment Interim Final Rule, SME IFR),絕對是中美關係史上,乃至當代科技史上的一個「重要里程碑」

與2022年10月7日發布的上一個版本相比,這一版本的技術封鎖在設計上嚴密了許多。雖然英偉達(台譯:輝達)仍然找到了一絲縫隙,又推出了H20這個新的中國特供版,但美國政府已經用實際行動宣示了,未來的管制紅線,會頻繁地移動,企業可以操作的空間只會越來越小。這意味着中國用戶能夠買到的英偉達芯片總體性能未來只會越來越差。

在算力戰場,中國未來只有自主研發一條路可走,這當然不一定能成功,但一定會產生大量的贏家和輸家。

大模型算力之爭:我們這個時代的核軍備競賽

如果「軍用級」人工智能(雖然具體形態當前仍然模糊)是核武器,那麼算力芯片就相當於濃縮鈾。

以ChatGPT問世為分水嶺,未來的人工智能發展將分為兩種道路:有算力的(the GPU rich),和沒有算力的(the GPU poor)。

如果你有足夠算力,比如一萬張英偉達H100(2023年發布,台積電4納米工藝,單卡算力900 TFLOPS)AI加速卡,那麼你可以用3個月的時間訓練出一個類似於Open AI GPT4(1.8萬億參數)的基礎大模型;反之,如果你沒有足夠的算力,比如你手上只有一萬張英偉達 V100(2017年發布,台積電12納米工藝,單卡算力130 TFLOPS),那麼你就需要2年的時間才能「煉」出一個GPT4——基礎大模型正在以差不多半年一代的速度瘋狂發展,兩年訓練一個大模型在現實應用中幾乎沒有任何價值。所以你只能用別人的大模型,去搞一些細分賽道和應用領域的「小模型」。對於企業來說,小模型也可以有自己的商業模式。但在國家層面,特別是以當前中國的戰略取向來說,無法研發「自主可控」的人工智能大模型幾乎是無法接受的。

用地緣政治視角,人工智能大模型競爭就是我們這個時代的核競賽。如果「軍用級」人工智能(雖然具體形態當前仍然模糊)是核武器,那麼算力芯片就相當於濃縮鈾,而半導體制造設備則相當於離心機。

A800「漏洞」

「中國」和「Big Tech」在今天美國公衆輿論中幾乎是兩匹死馬,人人皆想踢上一腳。

在2022年10月第一版先進計算出口管制規則中,美國政府將先進計算芯片的紅線設定在「單卡算力超過4800 TOPS,且雙向傳輸速率超過600 GB/s」。 「4800 TOPS + 600GB/s」這一指標顯然是來自當時市場上最先進的英偉達A100加速卡。我記得當時政策出台之後,各路分析師的一個爭論就是這條性能紅線未來會進一步收緊嗎?我當時的看法是不會。

從結果來看,我顯然是判斷錯誤了。在2022年新規發布之後,英偉達非常「機智」地推出了算力與A100相同,但傳輸速率略低(400GB/s)的A800芯片。A800是一款「中國特供」芯片,這是一款純粹為了繞過出口管制而存在的產品。其設計性能只是剛剛低於管制紅線,因而得以合法供應中國市場,併成為中國用戶能夠大量買到的最優性能產品。英偉達也通過這個辦法,儘可能補償了A100無法銷往中國的收入損失。

NVIDIA A800 顯示卡。圖:NVIDIA官網
NVIDIA A800 顯示卡。圖:NVIDIA官網

放在一個其他時空下,英偉達這樣的操作恐怕不會引發太大關注,畢竟這個行為本身合法合規。這樣的做法在跨國企業中也很有代表性,在法律紅線之內追求最大的利潤空間在全球化高歌猛進的年代裏再正常不過。

但今天不同。英偉達的算力卡在今天幾乎是「算力」的代名詞,是人工智能開發者眼中的「硬通貨」。A800雖然傳輸速率低於A100,但其中的帶寬差異在某些情況下並不會明顯影響工作結果。更重要的是,「中國」和「Big Tech」在今天美國公衆輿論中幾乎是兩匹死馬,人人皆想踢上一腳。英偉達作為一家全球業務四分之一來自中國的大型科技巨頭,自然又是輿論重點關注的對象。A800這樣的「小聰明」在這樣的語境下就引來了大量美國輿論的撻伐。對於許多意見領袖來說,A800就是美國出口管制漏洞的寫照。而這個漏洞,必須要堵上。

新指標的引入:出口管制交叉火力

可以想象這次新規背後的政策團隊,在這一年時間裏,花了很大功夫做研究,所調動的資源也超過了美國非軍情部門常見的標準。

在此次規則更新中,美國商務部通過一個相對技術性的手段來解決了A800問題。簡單來說就是,它將此前的「算力4800 TOPS且傳輸速率600GB每秒」這兩個需要同時成立的條件,換成了一個單一的「總處理性能」(Total Processing Performance,TPP)指標。

TPP即算力與位寬的乘積。舉例來說,如果一款芯片的設計性能是「INT8精度下算力600 TOPS」,則其TPP = 600 x 8 = 4800。與上一版本不同,這一指標只與算力有關,而與傳輸速率無關。也就是說,A800和A100的TPP是完全一樣的。這也就達到了堵住A800漏洞的目的。當然,取消傳輸速率指標也為英偉達尋求新的中國特供產品空間留下了伏筆,這一點下面會討論。

本次出口管制紅線調整的另一特色是引入一個新的指標:算力密度(Performance Density, PD)。算力密度的定義是一顆芯片單位物理面積所對應的算力。以英偉達A100芯片為例,其算力為4989 TPP,裸片(die)面積為826平方毫米,對應的算力密度即為4989 / 826 = 6.04。

對於電子芯片來說,決定算力密度的最大變量來自於單位面積上的晶體管數量,簡單來說就是製程。因此引入算力密度作為紅線,實際上是在管控制程技術。此次規則按照「總算力—算力密度」組合的方式設置了三檔閾值(5.92、3.2、1.6),大體上對應的是7納米、12納米以及28納米制程。這與美國在政策規劃中將28納米視為「先進製程」分水嶺的做法是一致的,確保了不同規則之間的技術一致性。

2021年2月24日,美國華盛頓,總統拜登手拿著半導體晶片。攝:Doug Mills/Pool/Getty Images
2021年2月24日,美國華盛頓,總統拜登手拿著半導體晶片。攝:Doug Mills/Pool/Getty Images

引入算力密度指標的另一個政策意圖很有可能是封堵中國利用芯粒(chiplet)技術方案繞過出口管制建設大規模算力集群的可能性。在芯粒技術中,開發者可能利用die-to-die封裝方式,提高每個芯片能夠承載的處理器單元數量,從而提高實際算力。壁仞科技(此次同時被加入實體清單制裁)2022年8月發布的BR100芯片,即採用了芯粒技術達到了高算力。芯粒技術此前一直在國內被寄予厚望,被很多人視為突破「英偉達—台積電」技術霸權的一個機會。而此次的規則改變,將大大提高中國企業繼續開發芯粒產品的難度。

在算力和製程出口管制兩重「交叉火力」限制之下,此前市場上所有主流的人工智能算力芯片都將成為出口管制對象。在老產品中,紅線之外的只有英偉達V100和谷歌TPUv3,兩款芯片分別發布於2017年和2018年。如前所述,大模型幾乎半年更新一代的速度面前,用五年前的芯片訓練最新的大模型耗時將以年計,幾乎沒有實際價值。

與去年發布的「1.0版本」相比,這次的先進計算出口管制「2.0版本」在技術細節上的考量和設計,有極大的提升。可見背後的政策團隊,在這一年時間裏,花了很大功夫做研究,所調動的資源也超過了美國非軍情部門常見的標準。需知,2022年第一版芯片出口管制出台的時候,ChatGPT還沒有發布。過去這12個月,全世界的人工智能研究,正在以史上最快的速度演進。而今天這個版本的出口管制在技術層面基本上反映了最新的技術進展。對於一個政府官僚機構來說,相當驚人。而美國選擇在「習拜會」之前發布這個重磅炸彈,完全不考慮中國可能的反彈,就是釋放出「別的都可以談,芯片免談」的信號。

英偉達和美國政府的打地鼠遊戲

當前的「芯片戰爭」的大背景自然是中美博弈。但在這個大故事下面還有一層英偉達,以及其他類似情況的跨國企業和美國政府之間的博弈。

然而英偉達還沒有放棄。正當大部分人——包括我在內,以為新規出台之後英偉達的中國算力卡業務即將全面斷絕的時候,英偉達展現了極強的供應鏈管理能力,在新規發布一個月不到的時間內(去年推出A800也是在新規之後極短的時間內,應該是有備而來,可見英偉達政府關係部門的預算也不是完全沒有效果)推出了一款新產品:H20。

H20基於英偉達的H200卡——也就是旗艦級別的數據中心芯片H100的同系列產品進行了完全針對出口管制的修改。簡單來說就是,雖然新的出口管制規則限制了總算力(TPP)和算力密度,但是放過了傳輸速率這個指標。而今天的人工智能大模型訓練,和一張GPU就可以居家操作的比特幣挖礦不一樣,動輒需要上千卡規模的算力集群,最終的訓練速度往往取決於硬件性能「木桶」中最短的那一塊。這個短板在一些情況下可能是算力,在另一些情況下可能是其他條件:比如存儲、帶寬,或者算法。

總算力和算力密度只是這個「木桶」衆多組成材料中的兩塊木板,現在確實受制於出口管制無法繼續加長,但這並不是唯一的兩塊木板。在今天的很多實際應用中,另一常見的短板就是傳輸帶寬。大型的算力集群往往受制於卡與卡之間的數據傳輸通量,而無法發揮單卡最的算力效能。

H20的峰值算力是2368 TPP,對應的出口管制算力密度上限是3.2。而這款產品目前公布的算力密度是2.9,因此如果按照法規字面解讀,是不受出口管制限制可以合法銷售給中國客戶的(美國商務部還沒有回應)。H20大幅提高了存儲容量和傳輸帶寬。雖然其算力遠不如H100,但其存儲容量超過了H100的80GB達到96GB,傳輸速率通過英偉達獨有的NVlink技術達到了900GB/s,這就與H100相同。

整體來說,H20的產品策略是通過提高傳輸速率性能短板,彌補算力不足的缺陷。在推理場景下,H20可能比H100效果更好。但在政府層面更關注的訓練場景下,H20的性能比H100肯定還是要差一些(目前定價不明,所以實際性價比很難說)。但絕對性能在這裏不是最重要的事情,新規發布之後H20仍然是中國用戶能夠合法並且成批量買到的最佳產品。其意義類似於去年的A800和H800—大家都知道這是「閹割」版,但仍然是最優選擇。

2023年5月29日,台灣,一名男子拿著NVIDIA執行長黃仁勳簽名的顯示卡。攝:Ann Wang/Reuters/達志影像
2023年5月29日,台灣,一名男子拿著NVIDIA執行長黃仁勳簽名的顯示卡。攝:Ann Wang/Reuters/達志影像

這一情節轉折令人驚歎。英偉達展現了無與倫比的「見縫插針」能力,幾乎從規則的一道小小縫隙中開出了一輛卡車。並且在這麼短的時間內重新組合了供應鏈,準確拿捏了中國客戶的需求,推出了幾乎無法拒絕的產品,其產品和市場能力也完全配得上這家「世一芯」企業的聲譽。這也再次說明了,用政策工具來管控前沿技術是多麼的困難。

當前的「芯片戰爭」的大背景自然是中美博弈。但在這個大故事下面還有一層英偉達,以及其他類似情況的跨國企業和美國政府之間的博弈。目前看來英偉達們雖然明顯處在下風,畢竟個人奮鬥在時代進程面前往往無力,但是英偉達們很有可能會堅持到最後一個回合,這個拉鋸可能還會持續很長時間。

H20和A800類似,本質上是一個權宜之計。可以預見的是,在下一個版本的出口管制更新中——不要忘了,美國商務部長雷蒙多此前可是說過 「每年至少都會更新一次」,很有可能出現針對帶寬的限制,來堵上H20這個新漏洞。但在那一天之前,可能是六個月,可能是一年,英偉達一定會盡量賣,中國用戶也會大量的買。因為雙方都知道這個生意的保質期不太長,能買(賣)多少是多少。

都在和時間賽跑,中國買家等的是國產芯片什麼時候能夠趕上來,在那之前一定還是盡力採購英偉達,確保現有的需求不斷檔;而英偉達,一方面是能做一天生意就做一天(下一個季度的營收目標現在看來是保住了),另一方面肯定現在也在琢磨下一個可以利用的「短板」在哪裏。

贏家和輸家

算力即國力,誰手上有卡誰發財。

基本上美國每更新一次科技制裁,中國的相關行業就會產生新的嬴家和輸家。

輸家自然很容易找,這次「上榜」(被實體清單制裁)的一家企業最近幾日已經宣布裁員。被實體清單直接制裁不僅僅意味着不能夠獲得美國技術,更會影響聲譽,失去供應商和合作夥伴,提高融資成本。

而對於那些在2022年規則之後,戰略上下注A100性能標準紅線不會移動,繼而推出了性能無限接近紅線的國產GPU公司來說。紅線此次實質上收緊,就把最近這12月內問世的許多款採用台積電工藝的12納米芯片(有不少)擺到一個十分尷尬的位置。

2021年9月29日,美國喬治亞州薩凡納港。攝:Stephen B. Morton/AP/達志影像
2021年9月29日,美國喬治亞州薩凡納港。攝:Stephen B. Morton/AP/達志影像

對於高性能芯片,美國採取的是「外國直接產品規則」(Foreign Direct Product, FDP)。也就是說,即使這些芯片完全是由中國公司裏的中國籍工程師在中國境內設計完成,只要在設計過程中用到了任何「美國技術」(最常見的就是EDA軟件,這個是幾乎所有設計公司都無法避免的,而且當前三款主流EDA軟件都屬於法律意義上的「美國技術」),那麼其產品就受到美國出口管制約束。也就是說,這家中國公司如果要到台積電去流片,必須獲得美國商務部許可。而這個許可,大概率是拿不到的。而拿不到許可,台積電就不會接受其設計文件,因此也就不會為其流片。因此,自家產品性能超過美國設定的紅線,對於中國芯片設計公司來說,最直接也是最大的後果,就是失去了台積電的流片渠道。

而所有性能接近A100的國產芯片,無一例外為7納米設計。沒有了台積電還能去哪裏?大家自然會想到中芯國際的7納米。此前華為的Mate 60(傳說中)採用中芯國際7納米的消息對於國產芯片來說自然是一個重大的發展。但中國芯片公司今天面臨的不是一個「有沒有」的問題,而是一個「什麼時間能有」的問題。從消費級的手機芯片到工業級的算力芯片,良率會是一個巨大的挑戰(GPU芯片的面積可能上百倍於手機芯片,這意味着同等條件下良率會大大降低)。等到中芯國際工藝跑通,良率穩定,產能提上來,國產芯片終於能夠實現接近英偉達A100性能產品本土量產了,英偉達是不是已經發布了傳說中的「X100」(傳聞中B100之後一代的算力芯片)呢?在大模型一年出兩代的世界裏,慢,相當於沒有。

最後說說贏家。現在手裏有足夠A800現貨(A100更佳)的中國企業,無論是轉賣還是自己開發,都是奇貨可居,處於極有利的位置。次之,如果現在能夠大量囤到H20,也不失為一種可行的過渡方案。從供應端來說,那些早早在中芯國際有7納米研發優先級甚至是產能預定的國產GPU公司,未來將坐擁一個沒有英偉達競爭壓力的國內巨大溢價市場,其中暴利難以想象。

因為中國無論如何不可以接受在人工智能發展水平上落後世界前沿兩代以上。未來幾年很有可能出現各種玩家在「國家戰略」支持下,掃盡市場上一切「勉強能用」算力芯片的情況。

算力即國力,誰手上有卡誰發財。

讀者評論 10

會員專屬評論功能升級中,稍後上線。加入會員可閱讀全站內容,享受更多會員福利。
  1. 好文,赞赞赞

  2. 這篇政治角力和技術分析文,深入淺出,真長知識!

  3. 把這麼專業的領域講得如此生動且淺顯易懂,真是佩服。好文!

  4. 看到美国这么流氓,我就放心了!

  5. 老黃的刀法果然名不虛傳,當年中國的遊戲玩家怒斥老黃的精準刀法事,恐怕也想不到老黃刀法用在大國科技戰中吧。P.S. 美國的右翼會拿老黃的華裔身份説事嗎🤔

  6. 技术封锁这种词本身就是偏颇,GPU的发展离不开游戏图形行业发展,AI和大数据没起来的时候国内把游戏看成毒草,甚至还搞什么游戏机禁令,让中国几乎失去发展自有架构GPU的经济学动力,超算也偏向于CPU方向,现在大数据AI起来了又急着指责人家封锁你,可是要不是AI崛起,国内这种娱乐压根不必要的功利大家长环境本来就不可能有自研GPU的土壤,没土壤、没动力、没传承,啥都没有,发展不起来不是意料之中吗,还赖别人封锁你也是挺好笑的。

  7. 很好的评论分析,感谢作者!

  8. 这样下去,中国的政府财政迟早要被习近平耗死,医疗、基础教育和养老首当其冲。(习近平是不会削减他的泳池舰队预算的)

  9. 看看华为还能支撑多久。