当前位置:首页 > Deepseek应用场景 > 正文内容

英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡

16小时前Deepseek应用场景6

一身皮衣黄仁勋,GTC 2025上意气风发。


虽然最近英伟达的股票跌得比较狠,甚至来到了10年来的最低点,但这不影响老黄,对最新的GPU们信心满满。


时间回拨到2月初,DeepSeek的发布在AI领域掀起巨浪。一个中国团队的产品,仅用了少量的低端GPU(以A100为主)蒸馏现有超大模型就实现了高端GPU(以H100为代表)才有的性能。


高端GPU并非刚需,谁还成吨地采购你老黄的Hopper、Blackwell 核弹?过去在AI行业被奉为金科玉律的“Scaling Law”(规模定律),也就是“模型参数量、数据集、训练成本越多越好”的观念也被严重冲击。


这几年谷歌、Meta、微软等互联网大厂成吨地采购H100芯片以维持规模,正是想以算力分胜负、定生死。现在根本不需要如此恐怖的规模,也能让大模型拥有媲美 OpenAI o1的性能。


一时间,宣称DeepSeek能让英伟达走上末路的声音此起彼伏,特别是海外的社媒平台发酵最快、传播最凶。有X网友更坦言“英伟达的一切都将开始瓦解”,这段时间里英伟达的股票一天下跌13%、17%都成了常态。


不过,也有另一种声音称,从长期来看DeepSeek的成功反而利好英伟达。


DeepSeek揭示了可以通过“蒸馏现有超大模型”的方法训练性能出色的大模型,但只是不需要用到H100芯片这等性能怪兽而已,并非完全不依赖计算卡。A100计算卡,也是英伟达家的产品。


玩家的门槛降低了,入场的玩家自然会越来越多,从市场总量来说,对算力的需求还是会上升的。英伟达又是全世界最大的卡贩子,总会卖出更多的计算卡。


再说了要蒸馏现有的超大模型,也得先有性能出色的超大模型存在才行,到底还是需要H100这样的计算卡集群来训练超大模型,这似乎是个“先有鸡还是有蛋”的问题。


只能说两种声音都有道理,不过大家最想知道的还是老黄本人的声音。


这次GTC 2025,我们终于等到老黄的亲自回应。


还是那个GPU霸主


按照惯例,我们先来回顾一下这场光门票就要价1万美元的“科技盛宴”。


简单来说,英伟达主要发布了四款芯片架构、两款AI电脑、一款AI训练底层软件和展示了具身机器人相关的进展,其他内容就不赘述了。


4款AI芯片架构,分别是将在2025下半年发布的Blackwell Ultra、2026下半年发布的Vera Rubin、2027下半年发布的Vera Rubin Ultra,和2028年的Feynman。


全新的超级芯片产品方面,基于Blackwell Ultra架构的GB300 NVL72芯片是上代最强芯片GB200的继任者,推理是GB200 NVL72的1.5倍,提升幅度不算大,甚至在大会上GB300的直接对比对象还是2年前的H100。



从市场的反应来看大部分人对GB300不太买账,它没有上一代GB200的那种“横空出世”的惊喜感,要说最大的升级点,可能是HBMe内存提升至288GB,就是有点“苹果今年发布的新机是2TB版本的iPhone 16 Pro Max”的味道了。


重头戏是英伟达未来的芯片架构规划,下代超级芯片Rubin NVL144,比GB300 NVL72 强了3.3倍;下下代的Rubin Ultra NVL576性能是GB300 NVL72的14倍,从画饼给出的性能来看,未来大概率还是会由英伟达掌握GPU算力王座。



两款全新的AI电脑,分别是搭载了GB10 Grace Blackwell超级芯片的DGX Spark,每秒可提供高达 1000 万亿次 AI 运算;搭载了GB300Grace Blackwell Ultra的DGX Station,可以提供每秒可提供高达2000 万亿次 AI 运算。目前DGXSpark已经开始预售,要价3000美元。


开源软件NVIDIA Dyamo,可以简单理解为一款AI工厂(数据中心)的操作系统,英伟达说在NVIDIA Blackwell上使用Dynamo优化推理,能让DeepSeek-R1的吞吐量提升30倍。


具身机器人的技术储备,包括机器人通用基础模型Isaac GR00T N1、一款配备了GR00T N1模型的机器人:Blue,和Google Mind、迪士尼合作的最新成果。



从发布的产品来看,英伟达还是那个GPU领域的霸主,甚至领导地位已经开始向AI拓展。它们不仅将产品技术路线图更新至一年一更,未来三年的产品堪称“超级大饼”,围绕AI相关的软件建设也在飞速推进,NVIDIA Dyamo很可能会是未来数据中心的标配。


对于DeepSeek的冲击,英伟达似乎也有了解决的办法。


进入“token时代”


终于,黄仁勋首次在公开场合,正面回应了DeepSeek诞生以来对公司造成的冲击。


首先他把DeepSeek从头到脚吹了一遍,说DeepSeek R1模型是“卓越的创新”和“世界级的开源推理模型”,而且他淡定地表示,不理解为什么大家会把DeepSeek当成英伟达的末日。


至于因DeepSeek而起的关于ScalingLaw撞墙的讨论,老黄在会上给出了自己的理解。


首先,他在大会上对Scaling Law进行了一次迭代更新:



现在他将Scaling Law细化为PRE-TRAININGSCALING、POST-TRAINING SCALING、TEST-TIMESCALING三个部分。老黄的意思是,随着AI进入到不同阶段,对Scaling的需求是不断提高的。


这里要提一下,老黄认为AI的发展分为四个阶段:感知人工智能(Perception AI)、生成式人工智能(Generative AI)、代理人工智能(Agentic AI)和未来的物理 AI(Physical AI)。而现在我们正处于代理人工智能阶段。



现阶段由于推理模型、AI代理的爆发,实际上更加需要Scaling,更加需要算力。


其背后的关键是token。


以推理模型为例子,模型进行推理时,token的消耗猛涨。用老黄的话,我们不仅需要让token的吞吐量提升十倍,还需要过去10倍的算力来提升token的输出速度,最终,需要的算力是之前的100倍。


从技术上来说,这不无道理。相比传统的生成式模型,比如ChatGPT,我们观察到它没有列举推理步骤。输入问题 → 提供答案,没中间商差价,答案所呈现的就是最终消耗的token数。


而拥有思维链的推理式模型,比如大家熟知的DeepSeek R1,会有一连串的推理过程,有些时候可能推理过程的字数比答案还要多。


R1模型能够实现推理,是因为会将输出的token返回上级重新思考、推理,正如比喻大师老黄所说的“每个token都会自我怀疑”,在不断的怀疑-论证中,形成了推理的过程。但这也会更多地消耗算力和token,推理模型要比传统生成式模型多消耗的token不是2倍,而是20倍。


所以,我们用推理模型时,一大串的思考、推理过程要在前台展示出来,不仅因为用户可以从大模型的推理过程介入修正答案,还因为它们不是白送的,不是免费的,而是在消耗一个个token,都是真金白银,花了钱的地方肯定得让你看到。


而且市面上的推理模型越来越多,更多的传统模型也陆续开始加入推理过程,比如谷歌的Gemini,最终token的消耗会呈指数级增长。


这就是老黄坚信Scaling Law没有失效的底气。在会上,老黄用传统模型Llama 3.3 70B与DeepSeek R1 671B进行了对比,统一回答一个复杂问题。最终前者消耗了400多个token但结果不可用,后者的结果堪称完美,但足足消耗了8559个token。



或许从蒸馏大模型的点子中节约的算力,又会消耗到推理的过程中,说不准这就是AI算力中的能量守恒呢。


DeepSeek让英伟达GPU卖得更好


除了黄仁勋的激情论证,一个事实是,在这个高token消耗时代,英伟达的GPU的确卖得更猛了。


彭博社报道,OpenAI 预计在“星际之门”首期计划中,建立一个可以容纳40万个英伟达的 AI 芯片的数据中心综合体。全部装满的话,这会是世界最大的AI算力集群之一。


还有对算力推崇至极的马斯克,旗下的 xAI 已与戴尔达成 50 亿美元协议,用于在孟菲斯建设超级计算机的 AI 服务器;Meta也宣布计划要拥有相当于 600,000 块英伟达 H100 芯片的算力。


还有国内的阿里、小米、腾讯等公司,也将部署海量算力作为主要目标。这背后的显卡供应商,毫无疑问都主要来自英伟达。推理模型铺开后大公司们对计算卡、算力的热情丝毫不减,看来至少大公司们仍相信未来是算力的时代。


在个人本地部署领域,DeepSeek R1也没有真正地减轻个人用户的算力负担。


2月中,全网掀起了一阵本地部署DeepSeekR1蒸馏模型的热潮,但从个人的经验来看,想要得到较好的模型性能,对电脑配置,也就是算力的要求一点都不低。


以RTX 4080 16GB显卡为例,拥有9728个CUDA核心,16GBGDDR6X的显存带宽为736 GB/s,在显卡中已经算高端。


但用它在本地部署14B的DeepSeekR1蒸馏模型时,大部分的推理速度只有20-30 tokens/s,需要分析深度问题往往需要等待超过10分钟。


如果更进一步用它来部署32B的蒸馏模型,推理速度会进一步下降到5-15 tokens/s,生成同样的回答,就需要等待超过30分钟。


这样的效率显然是不行的。如果想要提高推理速度,有两个办法:


选择更小参数的蒸馏模型部署,但推理的精度、答案的可靠性会明显下降;


选择更高配置的硬件,比如RTX 5080/5090,用5090部署32B的蒸馏模型,推理速度也能达到50-60 tokens/s,效率明显提升,但又让老黄卖卡的计划通了。


也许大多数人的算力条件,本地部署的大模型还不如直接打开腾讯元宝高效。


因此,从DeepSeek R1引申出来的“蒸馏模型节省训练算力”已经被“推理模型消耗算力”抵消,这给了英伟达全新的机遇,可以说DeepSeek的出现为英伟达关上了一扇门,又打开了一扇窗。


最终,我们不得不承认长远来看算力的需求还会不断增加,还是利好英伟达。虽说今年Blackwell Ultra挤牙膏,但后面几年的芯片架构都会有明显的算力提升。当各大厂的算力吃紧时,老黄的核弹们,又有大展拳脚的机会了。


贩卖token焦虑?


纵观GTC 2025,只要是涉及AI、GPU、算力的部分,老黄都离不开token,甚至有好事的媒体专门统计了他在会上提到“token”的次数,还怪幽默的。


在新Scaling Law时代,token仿佛成了英伟达的救命稻草。虽然从逻辑上看老黄的观点说得通,但如此频繁地重复一种逻辑,就像我们在文章中连续写100次“token”,多少会有人觉得,英伟达有点歇斯底里。


自农历新年以来,英伟达的市值已经跌去了将近30%,这次发布会的黄仁勋不再像一个技术大拿,不像是那个“全世界最聪明的科学家”、“全球最牛公司的CEO”,而像一个絮絮叨叨的金牌销售,通过贩卖token焦虑的方式,让大家坚信英伟达仍掌握着未来。


不过投资者的信心不来自推销和布道,而来自产品。事实就是今年下半年面世的GB300确实没有太多亮点,画的大饼又比较遥远。反映到股价上,发布会结束后英伟达的股价依然下跌了3.4%。


其实更令我哭笑不得的是价值3000美元的DGX Spark,根据官网披露的信息这款产品的128GB内存,带宽只有273GB/s。



尽管老黄将它定义为“可用于本地部署”的AI电脑,但这性能真不敢恭维。不说满血版671B的DeepSeek R1,跑大部分32B的模型可能也只能实现2-5 tokens/s的输出效率。用它来跑传统的模型应该还不赖,但推理模型估计是很困难了。


或许它存在的意义,停留在“让大家买更强的DGX Station”上罢了。只是如果你一直在贩卖token焦虑,最好能拿出更多能解决token焦虑的产品来。


英伟达现在缺乏的不是技术和产品,在GPU领域一骑绝尘,第二名都看不到车尾灯;真正缺乏的,是对消费者的诚意。


“英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡” 的相关文章

从Deepseek谈东方数理哲学与AI新文明

从Deepseek谈东方数理哲学与AI新文明

2 月 28 日下午,由北京市社会组织党建联合会与中关村超互联新基建产业创新联盟联合主办的 “从Deepseek谈东方数理哲学与AI新文明范式” 交流会在北京成功举办。此次活动汇聚了人工智能、传统文化...

中国石油大学(华东)“i石大”版满血DeepSeek正式上线

中国石油大学(华东)“i石大”版满血DeepSeek正式上线

2月26日,中国石油大学(华东)宣布,属于石大人自己的“i石大”版满血DeepSeek大模型——AI智能助手正式上线。石大师生可通过学校微信企业号或直接点击PC端链接进入使用,随时随地体验DeepSe...

DeepSeek被超载,腾讯元宝登顶苹果中国区免费APP下载排行榜

DeepSeek被超载,腾讯元宝登顶苹果中国区免费APP下载排行榜

3月3日晚间,腾讯元宝APP在中国区苹果应用商店免费App下载排行榜上升至第一,超越DeepSeek。原标题:《超越DeepSeek,腾讯元宝登顶苹果中国区免费APP下载排行榜》...

“AI公务员”来了?济南这里上线DeepSeek

“AI公务员”来了?济南这里上线DeepSeek

近日,深圳市福田区宣布已成功上线基于DeepSeek技术开发的70名“数智员工”,全面覆盖政务服务全链条。这意味着首批“AI公务员”正式上岗,政务智能化转型迈出了重要一步。近日,山东首个全国产芯“满血...

当虹科技“DeepSeek+BlackEye”大模型一体机首发

当虹科技“DeepSeek+BlackEye”大模型一体机首发

当虹科技2月21日发布全新一代“DeepSeek+BlackEye”多模态大模型一体机,为传媒行业发展再次注入新活力。当虹科技副总裁、传媒事业部总经理叶建华表示,DeepSeek+BlackEye多模...

阿加犀把DeepSeek装进终端,给机器人配个“离线军师”

阿加犀把DeepSeek装进终端,给机器人配个“离线军师”

金融投资报记者 薛蕾近日,国产AI公司深度求索发布的大模型DeepSeek引发全球关注,在各行各业掀起AI生态布局热潮。随着越来越多企业加入部署DeepSeek的行列,持观望态度的从业者不禁思考:在众...