AGM芯片AGM芯片
  • 首页
  • 产品中心
    • AGM MCU
    • AG32 MCU Series
    • AGM FPGA
    • AGM CPLD
    • AGM DEMO
  • 行业资讯
    • 行业新闻
    • 产品新闻
    • 技术专栏
    • 编程教程
  • 解决方案
    • 工业应用
    • 音视频应用
      • MCU用于Mini-LED背光控制应用方案
    • 按需定制
  • 服务支持
    • 软件下载
    • 帮助文档
    • AG32用户手册
  • 关于我们
    • 关于我们
    • 联系我们

最新资讯

  • 行业新闻
  • 产品新闻
  • 编程教程
  • 软件下载

产品中心

  • AGM MCU
  • AG32 MCU Series
  • AGM CPLD
  • AGM FPGA
  • AGM DEMO

解决方案

  • 工业应用
  • 按需定制
  • 音视频应用
  • 芯片初创公司的斩杀线

  • 从Palantir看B2G模式的隐忧

  • 英伟达200亿美元掏空式收购Groq,规避反垄断审查

  • 破除半导体内卷:养蛊 or 养宠?

  • FINN:FPGA AI 推理新范式 —— 定制化、高性能、量化神经网络编译器框架

热门标签

  • 芯片
  • AG32
  • MCU
  • FPGA
  • AI芯片
  • AGM
  • 芯片设计
  • 国产芯片
  • ai
  • 半导体
  • 模拟芯片
  • 加密
  • 32位车用MCU
  • 智能制造
  • CPLD

7M 参数的Tiny模型是怎么在ARC-AGI任务上击败OpenAI O3-mini的?

2025年12月29日 30

三星AI实验室上周发表了一篇文章。作者用了一个7M参数的模型,在 ARC-AGI-1 和 ARC-AGI-2 分别实现 45% 和 8% 的准确率,高于大部分商业LLM模型(Deepseek R1, o3-mini, Gemini 2.5 Pro) ,但是参数只有这些模型的0.01%。我们一起来看一下是怎么实现的。

 

 

先说一下什么是ARC-AGI-1 和 ARC-AGI-2。

2019 年,Keras 的创造者 François Chollet(就是在pytorch一统江山之前让Tensorflow变得好用的那个Keras)发表了一篇具有深远影响的论文《On the Measure of Intelligence》(《论智能的度量》),他在其中提出了用于人工通用智能(AGI)基准测试的“抽象与推理语料库”(Abstract and Reasoning Corpus,简称 ARC-AGI),以衡量流动智能。

“流动智能”(fluid intelligence)是心理学里的一个概念。它指的是:

在陌生情境下解决问题的能力

不依赖已有知识或经验,而是依靠 推理、逻辑、模式识别来找到答案

包括 抽象思维、类比、归纳、发现规律等能力

简单来说:

流动智能=学新东西、解决新问题的“脑力灵活度”

如果你解一个从未见过的谜题,靠的是流动智能。

如果你背诵乘法口诀表来算题,那靠的就是固定智能(crystallized intelligence),即通过学习和经验积累下来的知识。

“一个系统的智能,是衡量它在一系列任务上的技能学习效率,这种效率取决于它的先验知识、经验以及任务的泛化难度。” - François Chollet, "On the Measure of Intelligence"

ARC-AGI-1

训练和测试各400个任务,类似于下图那种,从左边的图上找出规律,然后完成右边的图。

ARC-AGI-2

ARC-AGI-2 是用来替代ARC-AGI-1,但是更难。其中训练集1000个任务,测试集120个任务。

Kaggle 上还有ARC的奖金不菲的竞赛,今年的比赛还有不到20天截止。

https://www.kaggle.com/competitions/arc-prize-2025/

回到主题,我们来看一下这篇论文。

首先它是对Hierarchical Reasoning Model(HRM)的一种改进。HRM 是一种递归推理模型,它采用两个协作的子网络来解决逻辑难题:一个高频更新、一个低频更新,灵感来自于“大脑”中组成部分的多层次不同频率的工作 。

HRM 虽然用了两个网络相互协作、高频低频交替更新,还有深度监督 (deep supervision)、停止机制等复杂设计,文章作者认为这其中有不少冗余。比如 HRM 在 Sudoku-Extreme 上准确率只在 ~ 55% 左右。TRM 的出发点就是“少即是多”:它剔除了 HRM 的许多复杂机制,只保留递归推理这个核心,然后用一个轻量网络来做。

TRM寻求一种更简洁的架构。只需要一个递归网络。文章中的伪代码解释的比第一页的架构图更清楚。

训练一个batch,需要更新参数16次

每一次更新y和z需要**无梯度**运行T-1次,最后再带梯度更新一次,这个梯度就用于学习

更新y和z的时候,先更新z,运行n次,然后用最新的z和原来的x, y, 更新y。

固定点假设的问题

HRM 的设计里有个关键假设:递归过程会收敛到一个固定点(fixed-point)。这样他们就可以用一种“1-step 梯度近似”的技巧:只需要对最后一步的函数更新(一次 fL 和一次 fH)做反传,就能近似整个递归过程的梯度。这在数学上听起来很优雅,训练也更省内存。

但 TRM 的作者觉得这个假设 太理想化了。现实中,递归过程并不一定真的收敛到稳定点;即便收敛,1 步梯度近似也无法严格代表整个推理链条的学习信号。换句话说,这个理论在工程上勉强能跑,但在数学上其实没有坚实的保障。

于是,TRM 干脆抛弃了“固定点 + 近似梯度”这一整套思路,转而采用显式的深度监督:每一步递归的输出都拿来对照真值进行训练。这样既不用依赖收敛假设,也不用担心梯度近似不准,整个方法更直接、更稳健。

从实际效果来看,HRM 在 Sudoku-Extreme 上准确率只有 55% 左右,而 TRM 用同样的数据集能达到 87.4%;在 Maze-Hard 上,TRM 也有 85% 的准确率。而且,TRM 也只用了 7M参数。

换句话说,TRM 抛弃“固定点 + 近似梯度”的复杂设计,不但理论上更稳健,实际效果也更好。

结果证明,少即是多。

实验测试数据

总的来说,TRM 的设计确实给我们提供了一个新鲜的视角:用极简的递归结构,也能在抽象推理任务上取得很强的表现。这是值得肯定的创新。

不过我个人觉得,在某个特定任务上比大模型性能好很多,并不能说明大模型就不能胜任这样的任务。TRM 毕竟是为特定任务量身定制的,而 LLM 本身是面向通用任务的。未来,大模型也未必只能依赖 CoT 来解题。比如数独问题,大模型完全可以通过编程实现退火算法,甚至调用 Knuth 的 Algorithm X 来解决。

换句话说,我们或许不必急着把 TRM 看成“大模型的替代方案”。它更像是一种启发:提醒我们 智能并不一定依赖于更大的参数量,也可能来自更合适的结构和方法。而随着大模型编程和调用外部工具的能力越来越强,它们也许能自己创造、甚至调用类似 TRM 的机制来应对这些任务。

本文来源于微信公众号:土人观芯

标签: 智能 · 智能制造
芯片初创公司的斩杀线
« 上一篇 2025年12月29日

相关推荐

  • 紫光帝国,天空之上才是你的极限
  • 芯片初创公司的斩杀线
  • 从Palantir看B2G模式的隐忧
  • 英伟达200亿美元掏空式收购Groq,规避反垄断审查
  • 破除半导体内卷:养蛊 or 养宠?
  • FINN:FPGA AI 推理新范式 —— 定制化、高性能、量化神经网络编译器框架
  • 制约AI应用生态的最大瓶颈在哪?
  • 科创板芯片牛的AI逻辑
  • 中芯国际遇到了什么“突发情况”?
  • 可编程系统级芯片比较:Cypress PSoC、Xilinx Zynq和AG32

AGM是领先的32位AG32芯片,MCU,AI ASIC可编程SoC、和异构(MCU)芯片和方案提供商,AGM致力于为消费电子、工控和AIoT中高量市场提供智能化的设计软件和芯片系统

产品技术

  • AGM MCU
  • AGM FPGA
  • AGM CPLD
  • AGR V2K

行业新闻

  • 行业解决方案
  • 产品新闻
  • 行业新闻
  • 关于我们

帮助文档

  • MCU入门
  • MCU驱动使用
  • 联合编程
  • 例程集合

联系我们

工程师微信
在线留言

© Copyright 2013-2025 AGM芯,国产强 All Rights Reserved. 版权所有

增值电信业务经营许可证备案号:浙ICP备18045792号-5

返回顶部

  • 首页 首页
  • 产品 产品
  • 电话 电话
  • 微信 微信