当前位置:首页 > Deepseek最新资讯 > 正文内容

AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美

4周前 (10-10)Deepseek最新资讯144

  IT之家 10 月 10 日消息,科技媒体 venturebeat 于 10 月 8 日发布博文,报道称三星高级 AI 研究院发布了名为微型递归模型(TRM)的开源 AI 模型,仅包含 700 万个参数,不过在数独、迷宫等特定的结构化推理任务上,表现媲美甚至超越了参数量为其 10000 倍的谷歌 Gemini 2.5 Pro 等顶尖大模型。

  该模型仅有 700 万参数,设计理念是极致简化复杂性。在架构方面,摒弃了分层推理模型(HRM)所依赖的双网络协作架构,转而采用一个仅有两层的单一模型。

  其核心机制在于“递归推理”:模型对自身输出的预测进行反复迭代和修正deepseek,每一步都纠正前一步的潜在错误,直至答案收敛稳定。

  TRM 通过这种方式,用迭代计算的深度模拟了庞大网络的复杂推理过程,实现了“以递归替代规模”的目标,从而在不牺牲性能的前提下,大幅降低了计算和内存成本。

  然而,一个重要的前提是,TRM 是专门为解决结构化、可视化的网格类问题(如数独、迷宫和特定解谜任务)而设计的,并非通用的语言聊天模型,它擅长在有明确规则的封闭环境中进行逻辑推理,而非开放式的语言生成。

  TRM 的成功源于其刻意追求的“少即是多”极简主义设计。研究发现,增加模型层数或大小反而会导致在小数据集上出现过拟合,性能下降。其精简的双层结构与递归深度相结合,实现了最佳效果。

  TRM 的代码、训练脚本和数据集目前已在 GitHub 上根据 MIT 许可证完全开源,企业和研究人员均可免费使用、修改和部署,甚至用于商业应用。原文出处:AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美 Deepseek R1 等万倍大模型,感谢原作者,侵权必删!

标签: deepseek

“AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美” 的相关文章

行业最多!海尔3项案例入选2025年度中国轻工业数字化转型“领航者”

行业最多!海尔3项案例入选2025年度中国轻工业数字化转型“领航者”

  近日,以“AI赋能 消费焕新”为主题的第十五届中国轻工业信息化大会在北京召开,大会正式发布《2025年度轻工业数字化转型“领航者”案例名单》,为轻工行业企业深入推进新型工业化建设提供路...

康宁杰瑞制药ESMO数据惊艳亮相世界舞台,左手确定、右手创新,估值迎来“Deep

康宁杰瑞制药ESMO数据惊艳亮相世界舞台,左手确定、右手创新,估值迎来“Deep

  在2025年欧洲肿瘤内科学会(ESMO)这一全球顶级学术舞台上,康宁杰瑞(9966.HK)以其两款核心产品——HER2双抗KN026与HER2双抗ADC药物JSKN003的卓越临床数据...

DeepSeek预测:国际米兰vs乌迪内斯!蓝黑军团火力全开,劳塔罗领衔屠杀?

DeepSeek预测:国际米兰vs乌迪内斯!蓝黑军团火力全开,劳塔罗领衔屠杀?

  意甲第2轮焦点战,卫冕冠军国际米兰坐镇梅阿查迎战中游球队乌迪内斯。蓝黑军团首轮5-0血洗都灵,以净胜球优势领跑积分榜;乌迪内斯则1-1战平维罗纳,暂列第13。本场胜负将直接影响争冠与保...

与DeepSeek梁文锋并肩!佛山女企业家跻身《财富》榜单

与DeepSeek梁文锋并肩!佛山女企业家跻身《财富》榜单

  8月12日,《财富》(中文版)发布“中国40位40岁以下的商界精英”榜单,榜单包括两部分,中国40位40岁以下的商界精英榜单与中国40岁以下最具潜力的商界精英榜。来自佛山的“女二代”—...

8.13商业观察:deepseek细分行业龙头股(附股)

8.13商业观察:deepseek细分行业龙头股(附股)

  网传DeepSeek-R2(性能对标GPT-5)即将发布,可能引发用户集中测试,加剧服务器压力。   DeepSeek(深度求索)相关的细分行业及上市公司概念股梳理,...

DeepSeek开源OCR新模型!单张A100日处理可超20万页数据

DeepSeek开源OCR新模型!单张A100日处理可超20万页数据

  简单来看,团队的思路是,既然一张图就能包含大量文字信息,同时用的 Token 更少,那就可以将文本转成图像,这就是题目中提到的“光学压缩”,用视觉模态压缩文本信息。这一结果显示出该方法...