在刚刚过去的这个春节,DeepSeek的横空出世是一个典型的“超级明星事件”,在技术之外,这一事件同时引爆了全球层面的政治和经济的大量讨论。
考虑到春节前后通常是一个中国市场和行业传统上较为淡静的时段,新闻和数据点较少,DeepSeek几乎占据了全部舆论,并以一己之力搅动中美经济。DeepSeek R1推理模型发布后,常常被市场人士笑称“一家公司独自支撑着美股”的英伟达股价一度暴跌17%(约6000亿美元),原因是有分析认为DeepSeek仅560万美元的训练成本证明了未来的人工智能大模型训练并不需要那么多的英伟达GPU;相应的,DeepSeek这家中国本土的团队,因为其意外争气的表现,拉动了市场对于“中国AI”想象,恒生科技指数连日上涨,相应的中国科技公司也都是“与有荣焉”,努力以各种各样的方式赶上这波流量。
政治上,DeepSeek R1大规模获得媒体关注的时间,正好是2025年1月20日特朗普就职当日,很多人将这个时间点,与华为在美国商务部长雷蒙多2023年8月访问中国期间发布其7纳米工艺芯片的手机相提并论。DeepSeek一夜之间成为了中国反抗美国科技霸权的象征,创始人梁文锋也成为了中国总理座谈会的座上宾,并在《新闻联播》上获得了单独的镜头,也与马云、马化腾等人一起出现在2月17日习近平出席的民营企业家座谈会——这些在中国政治语境中是非常高的认可。
Deepseek与出口管制间的关系
而在这一波由DeepSeek所带动的政治、经济话题当中,出口管制政策又是一个非常有代表性的题目。在中美科技战的大背景下,美国试图通过出口管制政策手段,限制中国企业获取先进芯片和相应的制造能力,以限制中国人工智能技术的发展,从美国第一次将华为放上“实体清单”开始算,已经持续了将近六年的时间。
从特朗普第一任期到现在,有超过400家中国企业遭到“实体清单”制裁,美国政府几乎一年一改出口管制指标,将中国企业能够合规获取的芯片算力性能越限越低。中国企业在台积电等先进晶圆厂,能够合规获得的先进制程制造能力,也从一开始的“只有个别企业不能做”的黑名单形式,演进到了今天“只有个别企业可以做”的白名单形式。
可以说,和特朗普第一次进白宫时的情形相比,今天的美国出口管制政策已经发生了“海变”级别的变化——先进算力方面的指标全部对应着业界最新的发展方向,而且一年一更新;为了不让中国钻空子从第三国绕道获取先进芯片,美国商务部已经事实上给全世界所有国家都建立了“算力配额”制度,东南亚、中东这样传统上有可能成为“第三国”渠道的地区,在2024年12月拜登政府的最后一波出口管制大修政策之后,已经受到“五万张等效英伟达H100算力卡”的约束,要想再转口卖到中国将会非常困难。

但是DeepSeek还是诞生了。如果在美国如此严厉的出口管制下,一家中国本土企业仍然能够做出世界级的人工智能大模型,是不是说明美国政策失败了呢?
要回答DeepSeek和出口管制的关系,我们先来看看DeepSeek的创新到底来自哪里。首先,DeepSeek这次最引起轰动的部分,也是直接导致英伟达暴跌的部分,是其在技术文件中宣称的“训练成本560万美元”,而今天美国公司的前沿大模型公司,如OpenAI,Google,Anthropic,Meta,开发一代大模型的成本大约在10亿美元级别。如果真的是用几百分之一的成本做到了相同甚至是更好的表现,那冲击的不仅仅是英伟达的估值,而基本上是所有美国科技公司的估值。考虑到美国科技公司今天在美国资本市场上的超大权重,如果真的是这样整个美国经济都可能要震动。
但这一部分也是最容易被澄清的——DeepSeek宣称的560万美元仅仅是最后一轮训练的成本,并不包括其前期开发的投入。其与美国公司“苹果对苹果”的成本核算目前无从得知,但是根据多种推算,同样口径的成本大概率和美国公司是在一个数量级上的,绝不是两百分之一。
另外很重要的一点,就是幻方量化(孵化了DeepSeek的量化基金公司)作为主打“AI交易”的金融公司,早在2021年就购入了一万张英伟达A100 GPU用于内部科研。翻看幻方早期的公开资料不难发现,这一万张卡给了他们很多的探索空间,相信也为他们吸引到了不少国内的顶尖人才(招聘广告里会有“如果有一万张A100你会怎么用”这样的亮点)。
美国政府收紧出口管制,将A100级别的计算芯片加入禁运之列,是2022的事情。而在幻方开始囤英伟达卡的时候,OpenAI还没有发布ChatGPT。从这个角度来说,DeepSeek相对其他中国公司有更加充裕的算力准备,很大程度上是创始团队当时的前瞻性和远见(或许也有一些巧合和运气)。如果不是这一万张卡打底,这家金融公司的技术团队可能不会有上到产业牌桌的机会。这也意味着DeepSeek的成功经验恐怕是独特且难以复制的。
DeepSeek的创新之处并不是“用更少的英伟达卡”,而是“将英伟达卡的效率发挥到极致”。随着美国出口管制的升级,DeepSeek和其他的中国公司一样,都面临着算力差距越来越大的问题,和美国公司比算力自然是死路一条。因此,DeepSeek从V2版本开始就选择了改算法、改架构。其创造性的“混合专家模型“(Mixture of Expertise, MOE),通过把“大”模型拆成“小”模型,再结合token预测(Multi-Token Prediction, MTP)的方法,再加上大量的底层硬件调优(巨大的工程投入和创新),大幅提高了GPU的使用效率,运用了这些创新的DeepSeek V3版本在2024年12月发布时其实已经引起了业界的广泛关注和高度的评价。而最后占据了新闻头条的DeepSeek R1采取了训练方法(Reinforced Learning,RL)的创新,因为其近乎于人类的推理能力取得了爆炸性的舆论效果。
被算力缺口“逼”到去下大力气改架构、改算法、磨工程。如果类似的想法在一家美国公司里被提出来,大概会被质疑“为什么要费力气走一条没有走过的路”?如果算力不是问题,那么堆算力、加参数仍然是一条行之有效且路径明确的大模型提升之路(Scaling Laws)。DeepSeek的创新,很好地说明了什么叫“需求是创造之母”,即便带有一些无奈的色彩。DeepSeek在算法、架构、工程方案的创新方案,根本上是因为算力本身被卡死的迫不得已。这样的方案几乎只有可能在中国公司出现,因为只有中国公司才会同时面临“巨大需求和巨大限制”这两个问题。因此,DeepSeek的创新在中国以外也是很难复制的,因为别的国家要不是没有中国这样大的需求,要不就是算力充裕,没有动力走这条路。

那么这是“弯道超车”吗?DeepSeek的创新意味着在算力仍然非常“卡脖子”的大前提下,中国公司的大模型没有在全球竞争中掉队落伍。这当然是了不起的成就,但平心而论,要说已经领先显然也为时过早。
DeepSeek的发展速度,仍然走在OpenAI等巨头所验证的AI发展曲线上:DeepSeek对标的OpenAI GPT-4o发布于2024年5月。而在DeepSeek R1推出后不久,OpenAI也马上以GPT o3-mini进行了回应。DeepSeek显然处于全世界AI竞争的第一梯队,在一些细项上有领先,但要说实质性的领先也还为时过早。
DeepSeek证明了在当前阶段,“算力优化”可以取得相当于“算力增加“的效果。但后者显然还有很大的增长空间,DeepSeek这样的“极致优化”方案能够一直跟上吗?再或者,如果那些算力充裕的竞争对手有朝一日意识到堆算力的边际价值太低,也掉过头来在算力优化上下功夫,DeepSeek在绝对算力上的先天劣势是否会变成其发展的天花板?这当然都是一些假设性的问题,今天没有人能够真正回答。但我想强调的是,DeepSeek无论从现状还是潜力,显然都还没有到“遥遥领先“的程度。
出口管制的悖论
可以说没有美国的出口管制,就不会有DeepSeek今天的横空出世。DeepSeek既是出口管制的成功,也是出口管制的失败。
DeepSeek V3作为今天中国最好的人工智能大模型,最重要的创新都来自于架构和算法,反过来说明了绝对算力的瓶颈仍然难以突破。毕竟,用更大规模的算力集群训练参数更大的模型,是一条被验证了的大模型推进路线。而没有一家中国公司在这一点上能够比肩产业前沿,无声地说明了这条路在中国很难走通。
经典的出口管制政策逻辑,是首先识别对象国家产业和科技体系上的核心一点或者几点,再结合自身的管控能力以及可以接受的政治、经济成本,对这些关键节点进行管控。而管控的目标常常是减少和延缓。从这一点上来说,美国的出口管制政策是能够自圆其说的。美国的确大幅减少了中国的算力供给,拖延了中国人工智能的发展速度。只不过和所有政策一样,出口管制也有其“无心插柳”之处——对算力的限制鼓励了中国公司去走算力优化的道路。
有些人认为这就是政策的失败,并认为出口管制的问题在于“执行不力”。这些人往往认为今天美国的出口管制政策漏洞太多,执行不够严格,因而没能真正卡住中国的脖子。这类意见有一种“政府全能”的倾向,通常高估了华盛顿(或者是任何国家的政府)在制定政策时对于最新前沿科技的理解能力,或者政策发布的及时性,又或者是政府对于业界游说的免疫能力。
美国很多科技鹰派抱怨华盛顿遭到英伟达说客的影响,对中国的禁运总是网开一面。一些人相信合法出口到中国的英伟达H20算力卡(H100的降规格版本)是DeepSeek成功的重要一环,因此如果美国限制了H20就不会有DeepSeek的成功。
这些人常常忽视的一点是,美国之所以今日有能力去限制中国的科技发展,正是因为有英伟达这样全球经营的超级科技公司。如果英伟达没有盈利冲动,没有业绩压力,没有游说能力,惟华盛顿马首是瞻,那美国大约也不会有今时今日制裁中国的筹码。这些人第二个常见的问题是喜欢放马后炮——事后来说某些漏洞如此明显为什么不早点堵上。而人工智能的发展速度是如此之快,从ChatGPT问世到今天模型能够像人一样展现推理过程,其实才过去24个月。让一些平时并不与前沿科技打交道的政府官员坐在办公室里,就预测到中国下一代大模型的完整技术路线,并且找到相应的政策手段来进行全面封堵,难度不亚于坐在时速300公里的高铁上对外射移动箭靶。

最后,这类论点的一个问题,是出于各种原因不愿意承认中国企业的创新能力——早期的一万张A100和后期的H20对于DeepSeek当然非常重要,但有这样条件的公司也不是只有这一家,一些中国团队手里的条件比这个好的多也没有做出类似的成果,DeepSeek的技术原创性是毫无疑问的。
美国的出口管制会改变中国创新的方向,但不会消灭中国的创新。DeepSeek让美国的政策圈产生某种“恐慌”,并且由此衍生出对当前出口管制的批评,深层次的原因是美国对华政策的持份者们,无论是政府官僚、立法者,还是行业领袖,都在“美国对华科技限制的目标是什么”这个问题各说各话。
拜登政府在时任国家安全事务顾问杰克·沙利文的主导下,提出了著名的“沙利文主义”:美国对中国的科技压制目标,要从此前的保持1-2代优势,往“无限优势”方向转变。这是一份很重的赌注,如果以此为目标,那么中国在人工智能方向上的任何技术突破和创新,都是美国政策的无法承受之重。这也是特朗普政府面临的一个难题:如果本届政府要继续延续沙利文主义的思路,不接受中国在人工智能方面的突破和创新,那相关决策者可能会不断地被拷问“为何失败”。反之,如果在这个目标上松口或者变得有弹性,那么将面临的可能是“为何软弱”的攻击。
特朗普本人第一时间对DeepSeek的点评(“a positive development”)是高度商人式的,也令人唏嘘:用开源的方法把大模型的成本降下来是一件好事,因为这意味着美国公司也可以从中获得收益。在昨日的世界里,我们会更加毫无保留地庆祝这样的创新。如果把DeepSeek的方法应用在美国企业的超级算力集群上,将会加速人工智能的发展,而今日的世界是如此不同,今天我们更关心谁赢了。
读者评论 0