当前位置：首页 > Deepseek应用场景 > 正文内容

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡

8个月前 (03-20)Deepseek应用场景443

一身皮衣黄仁勋，GTC 2025上意气风发。

虽然最近英伟达的股票跌得比较狠，甚至来到了10年来的最低点，但这不影响老黄，对最新的GPU们信心满满。

时间回拨到2月初，DeepSeek的发布在AI领域掀起巨浪。一个中国团队的产品，仅用了少量的低端GPU（以A100为主）蒸馏现有超大模型就实现了高端GPU（以H100为代表）才有的性能。

高端GPU并非刚需，谁还成吨地采购你老黄的Hopper、Blackwell 核弹？过去在AI行业被奉为金科玉律的“Scaling Law”（规模定律），也就是“模型参数量、数据集、训练成本越多越好”的观念也被严重冲击。

这几年谷歌、Meta、微软等互联网大厂成吨地采购H100芯片以维持规模，正是想以算力分胜负、定生死。现在根本不需要如此恐怖的规模，也能让大模型拥有媲美 OpenAI o1的性能。

一时间，宣称DeepSeek能让英伟达走上末路的声音此起彼伏，特别是海外的社媒平台发酵最快、传播最凶。有X网友更坦言“英伟达的一切都将开始瓦解”，这段时间里英伟达的股票一天下跌13%、17%都成了常态。

不过，也有另一种声音称，从长期来看DeepSeek的成功反而利好英伟达。

DeepSeek揭示了可以通过“蒸馏现有超大模型”的方法训练性能出色的大模型，但只是不需要用到H100芯片这等性能怪兽而已，并非完全不依赖计算卡。A100计算卡，也是英伟达家的产品。

玩家的门槛降低了，入场的玩家自然会越来越多，从市场总量来说，对算力的需求还是会上升的。英伟达又是全世界最大的卡贩子，总会卖出更多的计算卡。

再说了要蒸馏现有的超大模型，也得先有性能出色的超大模型存在才行，到底还是需要H100这样的计算卡集群来训练超大模型，这似乎是个“先有鸡还是有蛋”的问题。

只能说两种声音都有道理，不过大家最想知道的还是老黄本人的声音。

这次GTC 2025，我们终于等到老黄的亲自回应。

还是那个GPU霸主

按照惯例，我们先来回顾一下这场光门票就要价1万美元的“科技盛宴”。

简单来说，英伟达主要发布了四款芯片架构、两款AI电脑、一款AI训练底层软件和展示了具身机器人相关的进展，其他内容就不赘述了。

4款AI芯片架构，分别是将在2025下半年发布的Blackwell Ultra、2026下半年发布的Vera Rubin、2027下半年发布的Vera Rubin Ultra，和2028年的Feynman。

全新的超级芯片产品方面，基于Blackwell Ultra架构的GB300 NVL72芯片是上代最强芯片GB200的继任者，推理是GB200 NVL72的1.5倍，提升幅度不算大，甚至在大会上GB300的直接对比对象还是2年前的H100。

从市场的反应来看大部分人对GB300不太买账，它没有上一代GB200的那种“横空出世”的惊喜感，要说最大的升级点，可能是HBMe内存提升至288GB，就是有点“苹果今年发布的新机是2TB版本的iPhone 16 Pro Max”的味道了。

重头戏是英伟达未来的芯片架构规划，下代超级芯片Rubin NVL144，比GB300 NVL72 强了3.3倍；下下代的Rubin Ultra NVL576性能是GB300 NVL72的14倍，从画饼给出的性能来看，未来大概率还是会由英伟达掌握GPU算力王座。

两款全新的AI电脑，分别是搭载了GB10 Grace Blackwell超级芯片的DGX Spark，每秒可提供高达 1000 万亿次 AI 运算；搭载了GB300Grace Blackwell Ultra的DGX Station，可以提供每秒可提供高达2000 万亿次 AI 运算。目前DGXSpark已经开始预售，要价3000美元。

开源软件NVIDIA Dyamo，可以简单理解为一款AI工厂（数据中心）的操作系统，英伟达说在NVIDIA Blackwell上使用Dynamo优化推理，能让DeepSeek-R1的吞吐量提升30倍。

具身机器人的技术储备，包括机器人通用基础模型Isaac GR00T N1、一款配备了GR00T N1模型的机器人：Blue，和Google Mind、迪士尼合作的最新成果。

从发布的产品来看，英伟达还是那个GPU领域的霸主，甚至领导地位已经开始向AI拓展。它们不仅将产品技术路线图更新至一年一更，未来三年的产品堪称“超级大饼”，围绕AI相关的软件建设也在飞速推进，NVIDIA Dyamo很可能会是未来数据中心的标配。

对于DeepSeek的冲击，英伟达似乎也有了解决的办法。

进入“token时代”

终于，黄仁勋首次在公开场合，正面回应了DeepSeek诞生以来对公司造成的冲击。

首先他把DeepSeek从头到脚吹了一遍，说DeepSeek R1模型是“卓越的创新”和“世界级的开源推理模型”，而且他淡定地表示，不理解为什么大家会把DeepSeek当成英伟达的末日。

至于因DeepSeek而起的关于ScalingLaw撞墙的讨论，老黄在会上给出了自己的理解。

首先，他在大会上对Scaling Law进行了一次迭代更新：

现在他将Scaling Law细化为PRE-TRAININGSCALING、POST-TRAINING SCALING、TEST-TIMESCALING三个部分。老黄的意思是，随着AI进入到不同阶段，对Scaling的需求是不断提高的。

这里要提一下，老黄认为AI的发展分为四个阶段：感知人工智能（Perception AI）、生成式人工智能（Generative AI）、代理人工智能（Agentic AI）和未来的物理 AI（Physical AI）。而现在我们正处于代理人工智能阶段。

现阶段由于推理模型、AI代理的爆发，实际上更加需要Scaling，更加需要算力。

其背后的关键是token。

以推理模型为例子，模型进行推理时，token的消耗猛涨。用老黄的话，我们不仅需要让token的吞吐量提升十倍，还需要过去10倍的算力来提升token的输出速度，最终，需要的算力是之前的100倍。

从技术上来说，这不无道理。相比传统的生成式模型，比如ChatGPT，我们观察到它没有列举推理步骤。输入问题 → 提供答案，没中间商差价，答案所呈现的就是最终消耗的token数。

而拥有思维链的推理式模型，比如大家熟知的DeepSeek R1，会有一连串的推理过程，有些时候可能推理过程的字数比答案还要多。

R1模型能够实现推理，是因为会将输出的token返回上级重新思考、推理，正如比喻大师老黄所说的“每个token都会自我怀疑”，在不断的怀疑-论证中，形成了推理的过程。但这也会更多地消耗算力和token，推理模型要比传统生成式模型多消耗的token不是2倍，而是20倍。

所以，我们用推理模型时，一大串的思考、推理过程要在前台展示出来，不仅因为用户可以从大模型的推理过程介入修正答案，还因为它们不是白送的，不是免费的，而是在消耗一个个token，都是真金白银，花了钱的地方肯定得让你看到。

而且市面上的推理模型越来越多，更多的传统模型也陆续开始加入推理过程，比如谷歌的Gemini，最终token的消耗会呈指数级增长。

这就是老黄坚信Scaling Law没有失效的底气。在会上，老黄用传统模型Llama 3.3 70B与DeepSeek R1 671B进行了对比，统一回答一个复杂问题。最终前者消耗了400多个token但结果不可用，后者的结果堪称完美，但足足消耗了8559个token。

或许从蒸馏大模型的点子中节约的算力，又会消耗到推理的过程中，说不准这就是AI算力中的能量守恒呢。

DeepSeek让英伟达GPU卖得更好

除了黄仁勋的激情论证，一个事实是，在这个高token消耗时代，英伟达的GPU的确卖得更猛了。

彭博社报道，OpenAI 预计在“星际之门”首期计划中，建立一个可以容纳40万个英伟达的 AI 芯片的数据中心综合体。全部装满的话，这会是世界最大的AI算力集群之一。

还有对算力推崇至极的马斯克，旗下的 xAI 已与戴尔达成 50 亿美元协议，用于在孟菲斯建设超级计算机的 AI 服务器；Meta也宣布计划要拥有相当于 600，000 块英伟达 H100 芯片的算力。

还有国内的阿里、小米、腾讯等公司，也将部署海量算力作为主要目标。这背后的显卡供应商，毫无疑问都主要来自英伟达。推理模型铺开后大公司们对计算卡、算力的热情丝毫不减，看来至少大公司们仍相信未来是算力的时代。

在个人本地部署领域，DeepSeek R1也没有真正地减轻个人用户的算力负担。

2月中，全网掀起了一阵本地部署DeepSeekR1蒸馏模型的热潮，但从个人的经验来看，想要得到较好的模型性能，对电脑配置，也就是算力的要求一点都不低。

以RTX 4080 16GB显卡为例，拥有9728个CUDA核心，16GBGDDR6X的显存带宽为736 GB/s，在显卡中已经算高端。

但用它在本地部署14B的DeepSeekR1蒸馏模型时，大部分的推理速度只有20-30 tokens/s，需要分析深度问题往往需要等待超过10分钟。

如果更进一步用它来部署32B的蒸馏模型，推理速度会进一步下降到5-15 tokens/s，生成同样的回答，就需要等待超过30分钟。

这样的效率显然是不行的。如果想要提高推理速度，有两个办法：

选择更小参数的蒸馏模型部署，但推理的精度、答案的可靠性会明显下降；

选择更高配置的硬件，比如RTX 5080/5090，用5090部署32B的蒸馏模型，推理速度也能达到50-60 tokens/s，效率明显提升，但又让老黄卖卡的计划通了。

也许大多数人的算力条件，本地部署的大模型还不如直接打开腾讯元宝高效。

因此，从DeepSeek R1引申出来的“蒸馏模型节省训练算力”已经被“推理模型消耗算力”抵消，这给了英伟达全新的机遇，可以说DeepSeek的出现为英伟达关上了一扇门，又打开了一扇窗。

最终，我们不得不承认长远来看算力的需求还会不断增加，还是利好英伟达。虽说今年Blackwell Ultra挤牙膏，但后面几年的芯片架构都会有明显的算力提升。当各大厂的算力吃紧时，老黄的核弹们，又有大展拳脚的机会了。

贩卖token焦虑？

纵观GTC 2025，只要是涉及AI、GPU、算力的部分，老黄都离不开token，甚至有好事的媒体专门统计了他在会上提到“token”的次数，还怪幽默的。

在新Scaling Law时代，token仿佛成了英伟达的救命稻草。虽然从逻辑上看老黄的观点说得通，但如此频繁地重复一种逻辑，就像我们在文章中连续写100次“token”，多少会有人觉得，英伟达有点歇斯底里。

自农历新年以来，英伟达的市值已经跌去了将近30%，这次发布会的黄仁勋不再像一个技术大拿，不像是那个“全世界最聪明的科学家”、“全球最牛公司的CEO”，而像一个絮絮叨叨的金牌销售，通过贩卖token焦虑的方式，让大家坚信英伟达仍掌握着未来。

不过投资者的信心不来自推销和布道，而来自产品。事实就是今年下半年面世的GB300确实没有太多亮点，画的大饼又比较遥远。反映到股价上，发布会结束后英伟达的股价依然下跌了3.4%。

其实更令我哭笑不得的是价值3000美元的DGX Spark，根据官网披露的信息这款产品的128GB内存，带宽只有273GB/s。

尽管老黄将它定义为“可用于本地部署”的AI电脑，但这性能真不敢恭维。不说满血版671B的DeepSeek R1，跑大部分32B的模型可能也只能实现2-5 tokens/s的输出效率。用它来跑传统的模型应该还不赖，但推理模型估计是很困难了。

或许它存在的意义，停留在“让大家买更强的DGX Station”上罢了。只是如果你一直在贩卖token焦虑，最好能拿出更多能解决token焦虑的产品来。

英伟达现在缺乏的不是技术和产品，在GPU领域一骑绝尘，第二名都看不到车尾灯；真正缺乏的，是对消费者的诚意。

标签: DeepSeek 数据分析人工智能

返回列表

上一篇：神州信息通过接入DeepSeek研发出“智能综合信贷系统”

下一篇：更安全更智能，智慧眼携手华为推出 DeepSeek一体机

“英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡” 的相关文章

“财透”上半年·科技篇｜DeepSeek概念股“冰火两重天”，9只翻倍牛股业绩大幅分化

英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡

“英伟达新GPU再王炸，也得靠蹭DeepSeek卖卡” 的相关文章

“财透”上半年·科技篇｜DeepSeek概念股“冰火两重天”，9只翻倍牛股业绩大幅分化

OpenAI打小报告，要求禁用DeepSeek

运营商全面接入DeepSeek意味着什么？

DeepSeek本地部署，谁借“信息差”割韭菜？“解决”服务器繁忙从一分到百万元

文心一言：Deepseek在金融证券行业应用有哪些？

DeepSeek崛起对重庆市智能产业发展的影响及应对

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.