当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

6个月前 (05-01)Deepseek应用场景480

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

多地政务服务便民热线相继宣布接入Deepseek 带来哪些变化?

多地政务服务便民热线相继宣布接入Deepseek 带来哪些变化?

央广网北京2月24日消息(总台记者任梦岩 晁向荣 黄东旭)据中央广播电视总台中国之声《新闻纵横》报道,大模型DeepSeek的火热扩展到了人们生活的方方面面,近日辽宁省级12345热线、广东省江门市1...

“云上加速,智启未来”——DeepSeek赋能开启磁县智慧政务新纪元

“云上加速,智启未来”——DeepSeek赋能开启磁县智慧政务新纪元

转自:邯郸新闻网DeepSeek作为一款国产AI大模型,自发布以来便以其强大的语言处理能力和卓越的知识推理能力,在众多行业领域展现出了广泛的应用前景。近日,邯郸联通与磁县行政审批局成功合作骨干云与De...

对话DeepSeek 畅想智能未来”技术峰会在昆明举行

对话DeepSeek 畅想智能未来”技术峰会在昆明举行

“对话DeepSeek 畅想智能未来”技术峰会在昆明举行3月14日,“对话DeepSeek 畅想智能未来”技术峰会在昆明举行。来自省市区政府部门、行业头部企业、大模型生态伙伴及产业上下游企业等500余...

上海数据交易所接入DeepSeek大模型

上海数据交易所接入DeepSeek大模型

观点网讯:2月27日,上海数据交易所正式接入DeepSeek大模型,标志着国内首个大型语言模型在数据交易领域的应用落地。此次合作旨在构建多维数据交易知识体系的领域模型,提升数据交易服务智能化水平。据了...

让deepseek写文章的技巧?如何使用deepseek写作?deepseek可以做海报吗?

让deepseek写文章的技巧?如何使用deepseek写作?deepseek可以做海报吗?

一、让DeepSeek写文章的技巧精准角色设定复制代码“请扮演《经济学人》专栏作家,分析全球碳中和政策对制造业的影响,要求:学术严谨但避免术语堆砌,引用至少2个2025年最新案例。”结构化框架引导复制...

刘慈欣称DeepSeek完全可能替代人类作家

刘慈欣称DeepSeek完全可能替代人类作家

本文转自【九派新闻】;3月29日,据央视财经,科幻作家、《三体》作者刘慈欣在接受采访时被问到DeepSeek未来有可能替代科幻作家吗?刘慈欣表示,暂时不太会,但是再过10年、20年,从理论上说完全可能...