当前位置:首页 > Deepseek最新资讯 > 正文内容

HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5

1个月前 (09-29)Deepseek最新资讯147

  就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的

  最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建。

  在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创新机制,实现了质的飞跃。

  当大模型在MMLU、GPQA等传统基准上纷纷“卷到90分”时,这些测试逐渐失去了区分力。为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与Scale AI联合推出了“人类最后的考试”(Humanity’s Last Exam,HLE)——

  涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼。

  而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。

  相比原始HLE数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估AI科学推理能力最可信的基准。

  正是在HLE Bio/Chem Gold子集上,Eigen-1系统首次跨越60分大关,而这背后离不开其三大创新机制。

  传统的检索增强生成(RAG)系统就像一个频繁暂停的视频播放器——每次需要外部知识时,都必须中断推理流程、构建查询、处理结果,再重新整合上下文。

  研究团队将这种开销形象地称为“工具税”(Tool Tax)——每次工具调用都会打断思考流程,导致上下文丢失。

  传统RAG系统的“工具税”问题在下图的人口遗传学案例中展现得淋漓尽致。左侧显示模型过度自信地使用错误公式,右侧则展示了即使通过显式RAG获得正确公式,推理流程的中断导致模型无法将知识重新整合到原始问题中。

  实验数据显示,与显式RAG相比,Monitor-based RAG将token消耗减少53.5%,将工作流迭代次数减少43.7%,同时保持了更高的准确率。

  见下图单倍型计数案例,Monitor检测到重组约束的不确定性,Querier生成针对性查询,Injector注入两个关键事实,使模型能够排除无效案例并得出正确的30个单倍型答案。

  而Eigen-1引入的分层解决方案精炼(HSR)打破了这种假设。HSR采用“锚点—修复”结构:一个候选作为 anchor,其余作为参考依次修正,形成层次化协作。

  在HSR框架下,每个候选解决方案轮流充当“锚点”,其他方案则作为“参考”提供针对性修正。这种设计让强方案能够吸收弱方案的有价值见解,而不是简单地进行平均。

  具体包括四种修复维度:逻辑补全(填补缺失的推理步骤)、数值修正(纠正计算错误)、方法替换(用更优策略替代较弱方法)、表达优化(提升清晰度而不改变实质)。

  面对昆虫识别和花朵计数的复合任务,锚点解决方案最初选择了ResNet(选项C)deepseek,但存在部署时间计算错误。通过引入其他解决方案作为参考,系统进行了四类针对性修正。

  质量感知迭代推理(QAIR)能根据解答质量自适应地调整迭代深度:高质量解答可提前收敛,低质量解答则触发更多探索,从而在效率与准确率之间取得平衡。

  该机制为每个方案评估三个维度:逻辑性、答案正确性、解释完整性。只有未达标的方案才会进入下一轮修正,避免在低质量候选上浪费计算资源。

  Figure 7的饼图揭示了一个关键洞察:92.78%的错误涉及推理过程问题,88.66%涉及知识应用问题,且两者存在大量重叠。

  相比之下,执行遵循错误(13.40%)和理解错误(9.28%)占比较小,说明模型在指令理解和执行层面已经相对成熟。

  基线系统在没有任何外部知识的情况下只能达到25.3%的准确率,消耗483.6K tokens。加入显式RAG后,准确率提升到41.4%,但代价是工作流步骤从43.4激增到94.8,这正是“工具税”的直观体现。

  当引入Monitor组件后,虽然准确率略降至34.5%,但token消耗骤降至218.4K,工作流步骤也降至51.3。

  随着Querier和Injector的加入,准确率恢复到40.3%。HSR的引入将准确率提升至43.7%,最后QAIR将完整系统的准确率推至48.3%,同时保持了高效的资源利用(218.9K tokens,53.4步骤)。

  消融实验从另一个角度验证了各组件的必要性。移除Monitor导致token消耗激增至461.3K,工作流步骤增至95.3,显示了隐式增强的巨大价值。

  移除HSR或QAIR分别导致准确率降至44.8%和43.7%,证明了层级精炼和质量感知迭代的重要作用。

  在信息检索任务(339个样本)中,解决方案之间的一致性与准确率呈现较弱的正相关(斜率0.369),意味着不同的检索路径和视角能带来互补信息,多样性是有益的。

  而在推理任务(392个样本)中,情况完全相反——一致性与准确率呈现强正相关(斜率0.851),表明当多个推理路径得出相同结论时,这个结论很可能是正确的。

  最后,作者通过对比准确率提升与token减少的关系,直观展示了隐式增强相对于显式RAG的巨大优势。

  传统的基线+RAG方案虽然能提升准确率,但以巨大的计算开销为代价,在图中表现为向右上方延伸(准确率提升但token增加)。

  而Eigen-1则位于左上象限,在大幅提升准确率的同时减少了53.5%的token消耗,工作流迭代次数也从94.8步降至53.4步,减少了43.7%。这种“既要又要”的成果,正是架构创新的价值所在。

  Eigen-1首次突破60分的意义远超一个基准测试:Eigen-1更预示着AI辅助科学研究的新范式。

  当AI能够真正理解和推理人类知识前沿的复杂问题时,它将成为科学家的强大助手,加速从基础研究到应用转化的全过程。

  研究团队表示,未来将继续优化架构设计,探索向其他科学领域的扩展,并研究如何将这些技术整合到更广泛的科学工作流中。随着更多研究者加入这一开源生态,我们有理由期待科学AI将迎来更快速的发展。

  正如团队所言:“HLE可能是我们需要对模型进行的一次重要的考试,但它远非AI的最后一个基准。”当开源社区携手推进,人类与AI协作探索未知的新时代正在加速到来。原文出处:HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5,感谢原作者,侵权必删!

标签: deepseek

“HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5” 的相关文章

服务行业数智化,共创AI新时代 华为中国政企用户峰会2025成功举办

服务行业数智化,共创AI新时代 华为中国政企用户峰会2025成功举办

  7月24日,以“倾听·践行 服务行业数智化 共创AI新时代”为主题的华为中国政企用户峰会2025在山东青岛举办,与会的行业智库、客户和伙伴针对智能时代ICT服务的发展趋势与行业热点发表...

Deepseek推荐全国旅游百强区第7名:广西南宁市青秀区

Deepseek推荐全国旅游百强区第7名:广西南宁市青秀区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

DeepSeek预测:布伦特福德vs切尔西!蓝军火力全开,蜜蜂主场恐遭碾压?

DeepSeek预测:布伦特福德vs切尔西!蓝军火力全开,蜜蜂主场恐遭碾压?

  英超联赛第4轮即将迎来一场焦点战,布伦特福德将在主场迎战切尔西。目前切尔西以2胜1平的战绩排名联赛第2,而布伦特福德则以1胜2负排名第15。本场比赛对于双方来说都至关重要,尤其是布伦特...

10月27日 DeepSeek预测 步行者vs森林狼:爱德华兹率队主场复仇,西亚

10月27日 DeepSeek预测 步行者vs森林狼:爱德华兹率队主场复仇,西亚

  北京时间10月27日07:00,明尼苏达森林狼将在标靶中心迎战印第安纳步行者。这是两队新赛季首次交锋,也是森林狼在西部排名第11(1胜1负)与东部垫底的步行者(0胜2负)之间的较量。森...

讲个鬼故事:霍伊伦加盟曼联就进过1粒头球,而塞斯科同期进了8粒!

讲个鬼故事:霍伊伦加盟曼联就进过1粒头球,而塞斯科同期进了8粒!

  除了几个很抽象的单刀 我觉得抢点还可以 射门有时候超神有时候抽象 他有练好头球的条件 但是意愿强不强不知道   除了几个很抽象的单刀 我觉得抢点还可以 射门有时候超神...

刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有

刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有

  【新智元导读】a16z最新发布「全球Top100消费级GenAI应用榜单」,AI竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领...