7M 参数的Tiny模型是怎么在ARC-AGI任务上击败OpenAI O3-mini的?

三星AI实验室上周发表了一篇文章。作者用了一个7M参数的模型，在 ARC-AGI-1 和 ARC-AGI-2 分别实现 45% 和 8% 的准确率，高于大部分商业LLM模型(Deepseek R1, o3-mini, Gemini 2.5 Pro) ，但是参数只有这些模型的0.01%。我们一起来看一下是怎么实现的。

先说一下什么是ARC-AGI-1 和 ARC-AGI-2。

2019 年，Keras 的创造者 François Chollet(就是在pytorch一统江山之前让Tensorflow变得好用的那个Keras)发表了一篇具有深远影响的论文《On the Measure of Intelligence》(《论智能的度量》)，他在其中提出了用于人工通用智能(AGI)基准测试的“抽象与推理语料库”(Abstract and Reasoning Corpus，简称 ARC-AGI)，以衡量流动智能。

“流动智能”(fluid intelligence)是心理学里的一个概念。它指的是：

在陌生情境下解决问题的能力

不依赖已有知识或经验，而是依靠推理、逻辑、模式识别来找到答案

包括抽象思维、类比、归纳、发现规律等能力

简单来说：

流动智能=学新东西、解决新问题的“脑力灵活度”

如果你解一个从未见过的谜题，靠的是流动智能。

如果你背诵乘法口诀表来算题，那靠的就是固定智能(crystallized intelligence)，即通过学习和经验积累下来的知识。

“一个系统的智能，是衡量它在一系列任务上的技能学习效率，这种效率取决于它的先验知识、经验以及任务的泛化难度。” – François Chollet, “On the Measure of Intelligence”

ARC-AGI-1

训练和测试各400个任务，类似于下图那种，从左边的图上找出规律，然后完成右边的图。

ARC-AGI-2

ARC-AGI-2 是用来替代ARC-AGI-1，但是更难。其中训练集1000个任务，测试集120个任务。

Kaggle 上还有ARC的奖金不菲的竞赛，今年的比赛还有不到20天截止。

https://www.kaggle.com/competitions/arc-prize-2025/

回到主题，我们来看一下这篇论文。

首先它是对Hierarchical Reasoning Model(HRM)的一种改进。HRM 是一种递归推理模型，它采用两个协作的子网络来解决逻辑难题：一个高频更新、一个低频更新，灵感来自于“大脑”中组成部分的多层次不同频率的工作。

HRM 虽然用了两个网络相互协作、高频低频交替更新，还有深度监督 (deep supervision)、停止机制等复杂设计，文章作者认为这其中有不少冗余。比如 HRM 在 Sudoku-Extreme 上准确率只在 ~ 55% 左右。TRM 的出发点就是“少即是多”：它剔除了 HRM 的许多复杂机制，只保留递归推理这个核心，然后用一个轻量网络来做。

TRM寻求一种更简洁的架构。只需要一个递归网络。文章中的伪代码解释的比第一页的架构图更清楚。

训练一个batch,需要更新参数16次

每一次更新y和z需要**无梯度**运行T-1次，最后再带梯度更新一次，这个梯度就用于学习

更新y和z的时候，先更新z，运行n次，然后用最新的z和原来的x, y, 更新y。

固定点假设的问题

HRM 的设计里有个关键假设：递归过程会收敛到一个固定点(fixed-point)。这样他们就可以用一种“1-step 梯度近似”的技巧：只需要对最后一步的函数更新(一次 fL 和一次 fH)做反传，就能近似整个递归过程的梯度。这在数学上听起来很优雅，训练也更省内存。

但 TRM 的作者觉得这个假设太理想化了。现实中，递归过程并不一定真的收敛到稳定点;即便收敛，1 步梯度近似也无法严格代表整个推理链条的学习信号。换句话说，这个理论在工程上勉强能跑，但在数学上其实没有坚实的保障。

于是，TRM 干脆抛弃了“固定点 + 近似梯度”这一整套思路，转而采用显式的深度监督：每一步递归的输出都拿来对照真值进行训练。这样既不用依赖收敛假设，也不用担心梯度近似不准，整个方法更直接、更稳健。

从实际效果来看，HRM 在 Sudoku-Extreme 上准确率只有 55% 左右，而 TRM 用同样的数据集能达到 87.4%;在 Maze-Hard 上，TRM 也有 85% 的准确率。而且，TRM 也只用了 7M参数。

换句话说，TRM 抛弃“固定点 + 近似梯度”的复杂设计，不但理论上更稳健，实际效果也更好。

结果证明，少即是多。

实验测试数据

总的来说，TRM 的设计确实给我们提供了一个新鲜的视角：用极简的递归结构，也能在抽象推理任务上取得很强的表现。这是值得肯定的创新。

不过我个人觉得，在某个特定任务上比大模型性能好很多，并不能说明大模型就不能胜任这样的任务。TRM 毕竟是为特定任务量身定制的，而 LLM 本身是面向通用任务的。未来，大模型也未必只能依赖 CoT 来解题。比如数独问题，大模型完全可以通过编程实现退火算法，甚至调用 Knuth 的 Algorithm X 来解决。

换句话说，我们或许不必急着把 TRM 看成“大模型的替代方案”。它更像是一种启发：提醒我们智能并不一定依赖于更大的参数量，也可能来自更合适的结构和方法。而随着大模型编程和调用外部工具的能力越来越强，它们也许能自己创造、甚至调用类似 TRM 的机制来应对这些任务。

本文来源于微信公众号：土人观芯

7M 参数的Tiny模型是怎么在ARC-AGI任务上击败OpenAI O3-mini的?

标签

更多推荐

AI芯片的“寒武纪大爆发”——专用处理器的多样性革命

探索AG32：当MCU遇上FPGA，遨格芯微的融合创新

国产MCU替代之路：自主创新与生态突围

MCU芯片 vs. FPGA芯片：架构之争与融合之道