三星AI实验室上周发表了一篇文章。作者用了一个7M参数的模型,在 ARC-AGI-1 和 ARC-AGI-2 分别实现 45% 和 8% 的准确率,高于大部分商业LLM模型(Deepseek R1, o3-mini, Gemini 2.5 Pro) ,但是参数只有这些模型的0.01%。我们一起来看一下是怎么实现的。

先说一下什么是ARC-AGI-1 和 ARC-AGI-2。
2019 年,Keras 的创造者 François Chollet(就是在pytorch一统江山之前让Tensorflow变得好用的那个Keras)发表了一篇具有深远影响的论文《On the Measure of Intelligence》(《论智能的度量》),他在其中提出了用于人工通用智能(AGI)基准测试的“抽象与推理语料库”(Abstract and Reasoning Corpus,简称 ARC-AGI),以衡量流动智能。
“流动智能”(fluid intelligence)是心理学里的一个概念。它指的是:
在陌生情境下解决问题的能力
不依赖已有知识或经验,而是依靠 推理、逻辑、模式识别来找到答案
包括 抽象思维、类比、归纳、发现规律等能力
简单来说:
流动智能=学新东西、解决新问题的“脑力灵活度”
如果你解一个从未见过的谜题,靠的是流动智能。
如果你背诵乘法口诀表来算题,那靠的就是固定智能(crystallized intelligence),即通过学习和经验积累下来的知识。
“一个系统的智能,是衡量它在一系列任务上的技能学习效率,这种效率取决于它的先验知识、经验以及任务的泛化难度。” - François Chollet, "On the Measure of Intelligence"
ARC-AGI-1
训练和测试各400个任务,类似于下图那种,从左边的图上找出规律,然后完成右边的图。
ARC-AGI-2
ARC-AGI-2 是用来替代ARC-AGI-1,但是更难。其中训练集1000个任务,测试集120个任务。
Kaggle 上还有ARC的奖金不菲的竞赛,今年的比赛还有不到20天截止。
https://www.kaggle.com/competitions/arc-prize-2025/
回到主题,我们来看一下这篇论文。
首先它是对Hierarchical Reasoning Model(HRM)的一种改进。HRM 是一种递归推理模型,它采用两个协作的子网络来解决逻辑难题:一个高频更新、一个低频更新,灵感来自于“大脑”中组成部分的多层次不同频率的工作 。
HRM 虽然用了两个网络相互协作、高频低频交替更新,还有深度监督 (deep supervision)、停止机制等复杂设计,文章作者认为这其中有不少冗余。比如 HRM 在 Sudoku-Extreme 上准确率只在 ~ 55% 左右。TRM 的出发点就是“少即是多”:它剔除了 HRM 的许多复杂机制,只保留递归推理这个核心,然后用一个轻量网络来做。
TRM寻求一种更简洁的架构。只需要一个递归网络。文章中的伪代码解释的比第一页的架构图更清楚。
训练一个batch,需要更新参数16次
每一次更新y和z需要**无梯度**运行T-1次,最后再带梯度更新一次,这个梯度就用于学习
更新y和z的时候,先更新z,运行n次,然后用最新的z和原来的x, y, 更新y。
固定点假设的问题
HRM 的设计里有个关键假设:递归过程会收敛到一个固定点(fixed-point)。这样他们就可以用一种“1-step 梯度近似”的技巧:只需要对最后一步的函数更新(一次 fL 和一次 fH)做反传,就能近似整个递归过程的梯度。这在数学上听起来很优雅,训练也更省内存。
但 TRM 的作者觉得这个假设 太理想化了。现实中,递归过程并不一定真的收敛到稳定点;即便收敛,1 步梯度近似也无法严格代表整个推理链条的学习信号。换句话说,这个理论在工程上勉强能跑,但在数学上其实没有坚实的保障。
于是,TRM 干脆抛弃了“固定点 + 近似梯度”这一整套思路,转而采用显式的深度监督:每一步递归的输出都拿来对照真值进行训练。这样既不用依赖收敛假设,也不用担心梯度近似不准,整个方法更直接、更稳健。
从实际效果来看,HRM 在 Sudoku-Extreme 上准确率只有 55% 左右,而 TRM 用同样的数据集能达到 87.4%;在 Maze-Hard 上,TRM 也有 85% 的准确率。而且,TRM 也只用了 7M参数。
换句话说,TRM 抛弃“固定点 + 近似梯度”的复杂设计,不但理论上更稳健,实际效果也更好。
结果证明,少即是多。
实验测试数据
总的来说,TRM 的设计确实给我们提供了一个新鲜的视角:用极简的递归结构,也能在抽象推理任务上取得很强的表现。这是值得肯定的创新。
不过我个人觉得,在某个特定任务上比大模型性能好很多,并不能说明大模型就不能胜任这样的任务。TRM 毕竟是为特定任务量身定制的,而 LLM 本身是面向通用任务的。未来,大模型也未必只能依赖 CoT 来解题。比如数独问题,大模型完全可以通过编程实现退火算法,甚至调用 Knuth 的 Algorithm X 来解决。
换句话说,我们或许不必急着把 TRM 看成“大模型的替代方案”。它更像是一种启发:提醒我们 智能并不一定依赖于更大的参数量,也可能来自更合适的结构和方法。而随着大模型编程和调用外部工具的能力越来越强,它们也许能自己创造、甚至调用类似 TRM 的机制来应对这些任务。
本文来源于微信公众号:土人观芯