当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

8个月前 (02-24)Deepseek最新资讯442

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

DeepSeek,重磅突发!DeepSeek官宣,今日开源代码库为DeepEP

DeepSeek,重磅突发!DeepSeek官宣,今日开源代码库为DeepEP

2月25日,DeepSeek官宣,今日开源代码库为DeepEP,它是首个用于 MoE 模型训练和推理的开源EP通信库。特点有:高效的全员沟通;节点内和节点间均支持 NVLink和RDMA;用于训练和推...

“云枢”DeepSeek大模型一体机在石家庄发布聚焦政企用户核心需求破解了算力部署复杂、技术门槛高、安全可控难等核心问题

“云枢”DeepSeek大模型一体机在石家庄发布聚焦政企用户核心需求破解了算力部署复杂、技术门槛高、安全可控难等核心问题

3月1日,“云枢”DeepSeek大模型一体机在石家庄市鹿泉区正式发布。该产品由河北神奕信息科技有限公司自主研发,旨在为党政机关及企事业单位提供集算力支撑、模型服务、安全防护与应用开发于一体的全栈式解...

腾讯理财通接入DeepSeek-R1模型满血版

腾讯理财通接入DeepSeek-R1模型满血版

2月20日,经济观察网获悉,腾讯理财通正式接入DeepSeek-R1模型满血版,同时支持腾讯混元大模型。用户下载腾讯理财通App,首页点击搜索框或股票行情入口即可体验。此前腾讯理财通已上线AI(人工智...

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开

机器之心报道机器之心编辑部关于 DeepSeek-V3,你需要了解的一切。虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技...

DeepSeek帮英特尔找到了退路

DeepSeek帮英特尔找到了退路

文源 | 源 Sight作者 | 柯基最近,全球半导体行业风云突变。3 月 18 日,英特尔官网一纸公告,如同平地惊雷,炸响全球科技界。陈立武,这位名字稍显陌生的投资教父级人物,正式接任英特尔第九任...

谁是“造物主”?关于DeepSeek的冷思考

谁是“造物主”?关于DeepSeek的冷思考

原创 小复 复旦大学出版社我们正在经历一场静默的“创世记”:AI生成媲美人类的作品基因编辑重塑生命密码元宇宙构建平行宇宙究竟谁才是这个时代的“造物主”?2025年1月20日,幻方量化旗下AI公司深度求...