地缘之芯——芯片战争与全球供应链的重塑

今天,一枚芯片的旅程,比任何一部环球旅行记都更复杂。它的设计可能在美国,IP授权来自英国,制造设备来自荷兰和日本,生产在中国台湾或韩国,封装测试在东南亚,最终装配在中国,销往全球。这条供应链的精密与脆弱,在新冠疫情和地缘政治冲击下暴露无遗。

 

 

芯片已成为数字时代的“石油”,但比石油的分布更为集中、生产更为艰难。这种战略性地位,使其不可避免地成为大国竞争的焦点。出口管制、技术封锁、巨额补贴法案(如美国的《芯片与科学法案》)、本土制造回流……一系列举措正在撕裂过去几十年形成的全球化分工体系。

各国都在追求一种艰难的平衡:既要维护全球化带来的效率与创新,又要保障自身供应链的安全与韧性。结果是,一个“一个世界,两套(或多套)系统”的雏形正在显现。美国、欧洲、中国、日本、韩国等主要经济体都在倾注巨资,试图在本土建立更完整、更可控的芯片产业链。

这场“芯片战争”没有简单的赢家。它推高了全球成本,可能延缓技术进步,但也迫使各方重新审视技术的根本价值。未来,我们可能不会再有一个统一的全球芯片市场,而是几个既有竞争、又有必要合作的技术生态圈共存。芯片,这个全球化的产物,正在成为重塑世界格局的关键力量。

后摩尔时代,芯片的未来之路在何方?

“摩尔定律”正在放缓,物理极限和经济效益的“墙”已清晰可见。当晶体管尺寸逼近原子级别,单纯靠“更小、更密”已难以为继。芯片行业,正在开启一场波澜壮阔的架构革命。

 

 

“专用计算”成为主旋律。通用CPU一统天下的时代过去了。未来的芯片将是“异构计算”的乐园:GPU处理图形和并行计算,NPU专攻AI推理,DPU处理数据流,各种传感器集成专用处理器……就像一支高度专业化的交响乐团,每种芯片都扮演最擅长的角色,共同完成复杂的任务。

“堆叠”与“拼接”成为新范式。既然无法在平面上无限缩小,那就向立体发展。3D堆叠技术将多层芯片像三明治一样封装在一起,极大缩短了内部信号距离,提升了性能带宽。而Chiplet(芯粒)技术,则将大型芯片拆分成多个功能模块,像乐高一样用先进封装技术拼接,既能提升良率、降低成本,又能灵活组合,实现“混合制程”。

此外,新材料(如二维材料、碳纳米管)、新原理(如存算一体、量子计算)也在实验室中孕育着下一代突破。芯片的未来,不再是单一维度的冲刺,而是一场在架构、材料、封装和算法等多个维度并行的全面创新。谁能在这场系统性的革命中整合出最佳方案,谁就将定义下一个计算时代。

AI巨头的惊人数字

在上海开世界人工智能大会(WAIC),刚好看了一份小摩(JP Morgan)发布了关于OpenAI的报告,就把看到的一些基础信息分享给大家。

虽然不知道这家公司会不会上市(公司性质上有点特殊),但是它大概率会成为美股七巨头一样的科技巨无霸。

OpenAI成立于2015年,到现在刚好十年,员工数大概4500人(2025年3月24日的数据,后面提及的数字,皆是这个截止日),总用户8亿,占世界人口的10%,每周活跃用户数是5亿,支持57种语言,并在188个国家和地区提供服务。

 

 

公司目前的估值大概是3000亿美金,历史上总共募资了639亿美金,主要的投资方有微软和软银。不过成立之初的公司是以非营利为目标的,2019年改成了“有封顶的盈利型”公司,2025年又有计划改成公益公司(PBC),细节就不展开了。

大家记得之前提到订阅公司的一个关键指标叫‌年经常性收入(ARR),可以简单理解为公司可以获得的一年订阅收入。

而ChatGPT的ARR目前已经到了72亿美元:

72亿美元是516亿元人民币,远超中国一众公司,一个是产品的确好,第二个是全球性市场,公司产品一发布就是面向全球用户,所以不同视野和定位的公司,天花板很不一样。

过去中国的大部分企业在创立之初只是服务于国内市场,当国内市场卷的不行了,才想起来去海外,当然这和市场、创业人的自身情况都有关系,我相信未来会有越来越多的中国企业,在成立之初就定位全球市场。

之前的文章中也多次提及投资上的一个基础逻辑,那就是投资要投资龙头,为什么?

因为其他公司有的,龙头公司有;其他公司没有的,龙头公司也有。如果你投资非龙头公司,一定要问一个问题:为什么龙头公司做不出来,一个小公司能做出来?考虑清楚了这个问题,也可以投小公司。

当然,这不是绝对的事情,只是投资最后要落到一个成功概率的问题上,出手十次成功七次,和出手十次成功三次,那结果是不一样的。

OpenAI是大模型行业的领头羊,在过去 2 年里,该行业18%的投资流向了这一家公司:

其他还拿到比较大的一级市场投资的有xAI(马斯克的AI公司)和Anthropic。

从AI应用的下载量来看也是如此,ChatGPT一个APP下载量占比整个AI APP的70%(不过统计里面排除了中国和俄罗斯,否则豆包等也能排上名):

上次有朋友留言,提到一个问题,就是关于公司的趋势预测的问题,其实没有任何公司的发展是一帆风顺的,即便是炙手可热的OpenAI,也发生过非常狗血的事情,比如说公司的CEO奥特曼要被解雇:

这在当时也给公司带来前所未有的搜索和曝光率,真是祸福相依。

头部公司会发生,那些小的公司就更可能发生了,没人可以100%预测公司十年后、二十年后一定怎么样,但作为投资人,我们能够做的是我们大概率预测一个公司的趋势,但是如果真的发生了未预料到的事情,或者看错了,那就得认。

怕的是我们Allin一家公司,还很固执或者抱有侥幸的心态,那错了就连翻身的机会都没有了,投资还是有一套基本方法去遵循。

AI很热,市场很大,但是到底有多大市场,OpenAI一年赚了多少钱?这份报告也给了一些数据和预测。

AI的下游用户可以分为个人消费者市场和企业市场,彭博估计,到 2030 年,个人消费者市场 3000 亿美金和企业市场 4000 亿美金,总共 7000 亿美金,折合人民币约 5 万亿元。

不过,AI大模型只能说有一个非常“脆弱的护城河”,比如2023年3月发布的GPT-4模型,在当时是排名第一,但是今天再看这个模型,排名到了95名左右。

当然OpenAI最新的模型还是排名最高的,但是问题是,2年时间就有几十个模型超过了之前的模型,说明它是一个“不进则退”的行业,而且退得很快。

大家都看过跨栏比赛项目,第一名是领先别人,但是不小心被一个跨栏绊倒了,就会被其他人一批人超过。

而大模型的竞争又不是百米冲刺就完事了,而是一个若干年的跨栏比赛,这样的高强度赛跑,有一个跨栏被绊了,就出现问题了,所以说这是一个脆弱的护城河。

即便如此,市场还是给了OpenAI一个很高的收入预期,预计2030年收入到底1740亿美金左右(1.25万亿人民币),用户数达到20亿,市场还预测公司的毛利率也从当下的40%冲到70%,不过这种预测都是动态调整的,看看就好。

对应给OpenAI的估值是3000亿美金,大概是27倍PS(什么是PS?看我文章的应该是比较熟悉了)。

这个估值在非上市公司的估值里面,紧紧排在4000亿美金的SpaceX和3150亿美金的字节后面,真是妥妥的巨无霸。

报告还给出了全球科技巨头实现千亿美金收入花费的时间,最慢的微软,花了四十多年,而OpenAI预计是14年就能达到,真是坐了火箭:

OpenAI有多种模型,简单分类可以分为:GPT,推理模型“o系列”和多模态模型,做个简单解释:

GPT就是大家常用的对话框后面的那个模型,比如你问个问题它就能答复你;而 “推理模型” 则侧重于处理那些需要多重步骤的任务。

简单说,你对个话,比如问中国有哪些省份,根本不需要多重步骤。但是大家在初高中做数学题的时候,经常要做很多步骤才能解答,放在AI那里就叫推理,用到的模型就是“推理模型”,需要先拆解,然后一步一步的往下做,最后给出完整答案。

多模态就是文字、语音、图片之间的转换,大家今天输入一段文字让生成一张图片,或者给一张图片问上面是什么,然后大模型用文字形式回答出来,都是叫多模态模型,这些基本概念可以初步了解一下。

当然,市场端火热时,对供应端的拉动自然就很强劲,最近出现了Meta“亿薪挖人”真正让我震惊了,大厂愿意这么重金挖人,那对GPU的疯狂拉货就显得可以理解了.

不过这种“高强热度”可以持续多久,可能也是需要投资人需要考虑的,这也是 AI 产业链上游呈现 “涨了又跌、跌了又涨、涨了再跌” 的原因,核心在于市场分歧。

涨了之后都需要谨慎一点,但是跌了后,可以乐观起来,因为AI是一场实实在在的革命。虽然现在最热的是上游的比如通信、PCB甚至是偏代工的公司,最终会成为一个全链条受益的产业。

上面的这些数字中,虽然有部分可能会落空,但是仍然有一部分会变成真金白银的财富,所以这不仅仅是一场投资,还是一场国家和国家之间的较量。

科技公司选股构建组合的方法

我在文章中一直强调,任何投资都需要匹配个人的具体需求,因此,“如何构建组合”并没有标准答案。

这就像生病了去看医生,医生是根据我们的具体病症、个人的身体情况、是否有过敏史等因素,对症、对人开药。

哪怕是有标准答案的情况 —— 比如咳嗽吃 A 胶囊、腿酸贴 B 药膏,人们通常也会咨询医生,投资也应如此。

虽然我不能替大家去把脉每个人的自身情况,但是我们还是可以从10+家公司的角度,给大家分析一下,如果去分析一个组合应该是什么样的。

 

 

读这公众号的朋友,有老粉丝,也有新粉丝,比较早的时候,我分享过几篇信息科技的产业链,简要介绍了上、中、下游产业链,其实我的组合也包含了产业链的视角。

今天的信息科技,范畴很大,主要是因为科技的发展,产生的子方向很多,同时也使得信息科技的边界在不断扩大。

子方向很多是因为各个细分方向里面,都长出来很多很大的公司,比如说之前说的数据库,在早期就是一个很小的行业,后面慢慢才变得很大,Oracle这种公司的市值也达到了几千亿美金。

再比如说,早期的存储市场规模也小得很可怜,存储产品一开始出来的时候容量是kB级别,到后面有了硬盘存储芯片等各种新的技术,才让这个市场变成千亿美金的市场。

早期使用的存储产品中,有一款叫软盘,其功能类似于现在的U盘或移动硬盘,主要用于简单的文件存储与传输,当时这个软盘的空间是几十kB到几百kB,如下图:

几十kB和几百kB是什么概念呢?就是上面这张图片本身放进去都存不下,因为这张图已经是几百kB甚至是1MB,也就是说你想把这篇包含图片的文章存下来,也是不可能的。

而今天的存储芯片,除了做出来更大存储空间的产品,应用场景也在拓展,今天的电子烟、扫地机器人里面都有存储芯片。

否则大家的扫地机器人应用程序,以及扫描的屋子地图,怎么保存呢?这在过去都是不可想象的。

那今天的信息科技板块,是什么样的?部分老粉丝读过我关于产业链的介绍,里面多次使用过下面的内容:

210亿美金的EDA软件和IP(IP是知识产权)

1400亿美金的设备和材料市场

生产出来5730亿美金的芯片

支撑起来2.5万亿的各类电子产品

造就下游行业应用的5.5万亿美金市场

这个数字略微有一点点过时,特别是AI来之后,预期市场规模有进一步增加。

但里面的逻辑关系是一样的,那就是信息科技领域存在一条非常清晰的“上游到下游”产业链,且下游市场规模远大于上游。

这也很容易理解,就像开餐馆,每日营业额需远高于食材采购等成本,否则餐馆难以持续经营。

行业的上游是下游的成本,所以下游一定比上游大,而且至少是几倍的关系,大家也可以看看美国的科技公司市值,头部市值大公司多在下游。

当然现在的英伟达、台积电也超过了万亿,而且偏上游,这其实是罕见的,但是不会普遍性地存在,需要多个万亿市值的下游公司,才能共同“供养”出一个上游的万亿市值公司。

另外,目前时间还不足够长,英伟达能不能长期和下游应用巨头保持着同等规模市值,我们需要等等看,时间会告诉我们答案。

我们配置信息科技的时候,其实这里面的每个环节都可以选择,前面提到的10+公司,也都可以放置到这里面的特定位置。

读者自己也可以把你手中的信息科技公司,放到这里面看看是在哪个环节,也可以看看持有基金或者ETF,是侧重于产业链的哪一段。

细心的朋友可能已经发现,10+公司里面,都分布在下游的三个环节:芯片、电子产品和下游应用(蓝色部分),而EDA和材料设备都没有选择公司。

实际上EDA本身就是信息行业,它是用来设计芯片的软件,按理应该有公司入选,但是A股几家EDA公司估值都比较高。

比如华大九天、广立微、概伦电子等,公司的收入也比较小,距离“合理估值”有点距离,买入的话得咬着牙,所以想想就没有放进来了。

设备材料的公司就比较多了,市值和收入规模比较大的龙头企业有北方华创、中微公司等。

当然设备的属性和材料的属性还不太一样,设备更看订单,而且有建设周期,材料属于持续的消耗品,稳定性更高。

前者对散户来说,其实是比较难跟的,因为主要是跟订单,没有调研机会的朋友,比较难在第一时间跟踪到最新信息。

所以大家都是看到股票暴涨后,才会在网上看到小作文说订单如何如何,材料类公司则稳定性高很多。

大家知道,中国企业多是在应用端较强,比如说互联网应用很厉害,这是典型的应用层。

而在基础层领域,无论是先进制程芯片、操作系统,还是设计先进芯片的 EDA 软件、制造先进芯片的设备与材料,发展水平还落后于海外公司比较多。

买上游的公司,要忍耐比较大的波动,一是因为早期的公司,规模比较小,同时高估值里,有部分靠“梦想”和“情怀”支撑的。

当这些公司出现业绩波动,或市场对其信心不足时,股价容易出现大幅下跌,而我们也很难判断公司股价回升的概率有多大。

之前选择是10+公司里面,圣邦股份、兆易创新、顺络电子都是芯片和器件层,传音控股、海康威视则是硬件层。

而金蝶国际、金山办公、中望软件是软件,东方财富、腾讯控股是互联网和软件应用。

上次增加的三家公司,思瑞浦是芯片层,华测导航是硬件层,合合信息是软件应用,也是遵循了上中下游的思路。

然,这里面还是没有考虑到估值和市场价格,如果把这个层面考虑进来会更完整一些。

大家再结合自己的个体情况构建投资组合,就应该是一个比较符合每位读者自身需求的组合了。

总结来说,组合的构建不是东一榔头,西一棍子的乱拳,而应该是一个体系。希望以上内容,再帮大家回顾一下信息科技的产业链,也对大家构建组合有所帮助。

传统软件也变天了?

上次写的AI可能让互联网行业变天,我当时主要围绕AI对手机行业的影响,有朋友问,那是不是对传统PC(电脑)端软件的影响是一样的?

的确,都是软件,手机应用要是变天,那传统的PC端应用是不是也变天?这是非常合理的问题,而且作为投资人,也的确需要非常严谨地分析。

 

 

先说结论,我认为对移动互联网可能是利空,但是对传统的软件,是利好。

为什么是两个完全不同的结论?不过在展开之前,我们先看看移动互联网和PC应用,里面都包含什么。

首先,我们说移动互联网,基本是指那些C端用户使用的移动APP。

而传统PC应用,可以分为2大类,一类是2C的应用,比如Office软件这种,一类是企业的应用,比如ERP。

AI对移动应用和传统软件的影响,可以从两个角度来讨论。

第一方面,移动互联网更多是流量入口的逻辑,流量入口模式之所以较为稳固,其中一个原因是用户的习惯变化非常缓慢,所以过去移动互联网公司,业务还是比较稳定的。

移动互联网公司赚钱,并不是向C端直接收费,而是因为自己占据了入口,可以向后端的第三方企业收广告费、业务分成费等。

比如说百度可以收广告费,阿里可以收平台入驻费,如果在平台完成销售,还可以分成。

而传统软件的商业化是基于功能或者工具属性,软件可以帮助用户解决特定的问题,软件企业向客户直接收费。

比如WPS主要是收订阅费,ERP企业过去收软件授权,现在也是收订阅费。

我们说移动互联网可能变天,主要是因为手机AI帮我们完成一个任务的时候,带来以下变化:

首先,用户是有使用习惯的,正是这种习惯,让每个APP的用户基数非常稳定,如果变成AI操作手机的话,用户习惯就不再起作用了,使用哪个APP的选择权落到了AI手中。

第二,移动互联网应用公司之所以非常赚钱,很大一部分来源于广告,而广告之所以有价值,是因为用户的眼睛盯着屏幕。

当手机AI帮我们完成任务的时候,用户的眼睛不再看着屏幕,广告就没有价值了。

而传统软件行业就不一样,我们以ERP为例。

一个企业使用ERP,是因为ERP可以把供应链、仓库、生产、销售和财务打通,并通过一个系统管理起来。

AI来了,这些功能依旧需要,大量的数据依旧需要各个部门进行录入:

这些AI可以替代吗?目前看不到,比如仓库、生产、销售的人,依旧需要使用。

有人说如果是黑灯工厂呢?的确,生产车间没有人了,但是依旧需要系统管理车间的数据,依旧需要这个系统。

相反,AI还可以把ERP里面的数据价值挖掘出来,让ERP产生更大的价值,企业也可能因此愿意付更高的价格购买软件。

那些过去认为ERP没有那么高价值的用户,会发现有AI的ERP带来了更多的价值,从而成为ERP的用户,客户基数也会增加。

所以对于移动互联网是利空,对于传统软件反而是利好。

第二方面,手机端AI来操作软件,要比传统PC上AI操作软件更容易一些,替代难度更低一些,使用体验也更好一些。

首先,手机端的操作是“相对”标准化的,比如点餐就是输入菜名或者餐厅,然后就是找到对应的菜和主食,加入购物车,紧接着就到了下单付款的步骤。

购物也是如此,比价已经算是非常复杂的流程了,而且常用的APP就是那些。也就是手机端AI的模型训练相对标准,几个步骤做好,就可以完成一个任务。

但是电脑端的应用操作就复杂得多,当我们做一个文档的时候,一会写点内容,一会又调整下格式。

做表格的时候,一会添加个数据,一会又要画个柱状图,更不要说还有很多非标的企业应用。

相比手机端较为标准的步骤,电脑端应用在使用上五花八门,这让电脑端AI模型的训练就更复杂,那些非标的企业应用要使用AI,难度则更大。

用户会发现,手机端AI会比较早地变得好用,而电脑端AI就要慢很多,使用效果不同,替代的进度肯定就不一样。

之前的文章中也提到过,手机端会有操作系统(OS)层面的AI,也会有各个应用自己的AI,所以市场的竞争格局是手机操作系统AI和各个应用AI竞争的结果。

所以,我也并不认为手机端应用会被AI全部替代,最终更可能的情况是利益的再分配,但是这种影响我们不能完全忽视。

而在传统的PC端,有系统级的AI可能性要小一些,相反,各个应用内的会有自己的AI。

我认为传统软件不大会因为AI变天,加上前面提到的价值挖掘的逻辑,我更倾向于认为AI对于传统软件偏利好。

今天从整体的角度,讨论了AI对移动应用和传统软件的影响,具体到个股,需要结合实际情况分析,也欢迎提出不同的观点,一起迪拜(debate)一下……

7M 参数的Tiny模型是怎么在ARC-AGI任务上击败OpenAI O3-mini的?

三星AI实验室上周发表了一篇文章。作者用了一个7M参数的模型,在 ARC-AGI-1 和 ARC-AGI-2 分别实现 45% 和 8% 的准确率,高于大部分商业LLM模型(Deepseek R1, o3-mini, Gemini 2.5 Pro) ,但是参数只有这些模型的0.01%。我们一起来看一下是怎么实现的。

 

 

先说一下什么是ARC-AGI-1 和 ARC-AGI-2。

2019 年,Keras 的创造者 François Chollet(就是在pytorch一统江山之前让Tensorflow变得好用的那个Keras)发表了一篇具有深远影响的论文《On the Measure of Intelligence》(《论智能的度量》),他在其中提出了用于人工通用智能(AGI)基准测试的“抽象与推理语料库”(Abstract and Reasoning Corpus,简称 ARC-AGI),以衡量流动智能。

“流动智能”(fluid intelligence)是心理学里的一个概念。它指的是:

在陌生情境下解决问题的能力

不依赖已有知识或经验,而是依靠 推理、逻辑、模式识别来找到答案

包括 抽象思维、类比、归纳、发现规律等能力

简单来说:

流动智能=学新东西、解决新问题的“脑力灵活度”

如果你解一个从未见过的谜题,靠的是流动智能。

如果你背诵乘法口诀表来算题,那靠的就是固定智能(crystallized intelligence),即通过学习和经验积累下来的知识。

“一个系统的智能,是衡量它在一系列任务上的技能学习效率,这种效率取决于它的先验知识、经验以及任务的泛化难度。” – François Chollet, “On the Measure of Intelligence”

ARC-AGI-1

训练和测试各400个任务,类似于下图那种,从左边的图上找出规律,然后完成右边的图。

ARC-AGI-2

ARC-AGI-2 是用来替代ARC-AGI-1,但是更难。其中训练集1000个任务,测试集120个任务。

Kaggle 上还有ARC的奖金不菲的竞赛,今年的比赛还有不到20天截止。

https://www.kaggle.com/competitions/arc-prize-2025/

回到主题,我们来看一下这篇论文。

首先它是对Hierarchical Reasoning Model(HRM)的一种改进。HRM 是一种递归推理模型,它采用两个协作的子网络来解决逻辑难题:一个高频更新、一个低频更新,灵感来自于“大脑”中组成部分的多层次不同频率的工作 。

HRM 虽然用了两个网络相互协作、高频低频交替更新,还有深度监督 (deep supervision)、停止机制等复杂设计,文章作者认为这其中有不少冗余。比如 HRM 在 Sudoku-Extreme 上准确率只在 ~ 55% 左右。TRM 的出发点就是“少即是多”:它剔除了 HRM 的许多复杂机制,只保留递归推理这个核心,然后用一个轻量网络来做。

TRM寻求一种更简洁的架构。只需要一个递归网络。文章中的伪代码解释的比第一页的架构图更清楚。

训练一个batch,需要更新参数16次

每一次更新y和z需要**无梯度**运行T-1次,最后再带梯度更新一次,这个梯度就用于学习

更新y和z的时候,先更新z,运行n次,然后用最新的z和原来的x, y, 更新y。

固定点假设的问题

HRM 的设计里有个关键假设:递归过程会收敛到一个固定点(fixed-point)。这样他们就可以用一种“1-step 梯度近似”的技巧:只需要对最后一步的函数更新(一次 fL 和一次 fH)做反传,就能近似整个递归过程的梯度。这在数学上听起来很优雅,训练也更省内存。

但 TRM 的作者觉得这个假设 太理想化了。现实中,递归过程并不一定真的收敛到稳定点;即便收敛,1 步梯度近似也无法严格代表整个推理链条的学习信号。换句话说,这个理论在工程上勉强能跑,但在数学上其实没有坚实的保障。

于是,TRM 干脆抛弃了“固定点 + 近似梯度”这一整套思路,转而采用显式的深度监督:每一步递归的输出都拿来对照真值进行训练。这样既不用依赖收敛假设,也不用担心梯度近似不准,整个方法更直接、更稳健。

从实际效果来看,HRM 在 Sudoku-Extreme 上准确率只有 55% 左右,而 TRM 用同样的数据集能达到 87.4%;在 Maze-Hard 上,TRM 也有 85% 的准确率。而且,TRM 也只用了 7M参数。

换句话说,TRM 抛弃“固定点 + 近似梯度”的复杂设计,不但理论上更稳健,实际效果也更好。

结果证明,少即是多。

实验测试数据

总的来说,TRM 的设计确实给我们提供了一个新鲜的视角:用极简的递归结构,也能在抽象推理任务上取得很强的表现。这是值得肯定的创新。

不过我个人觉得,在某个特定任务上比大模型性能好很多,并不能说明大模型就不能胜任这样的任务。TRM 毕竟是为特定任务量身定制的,而 LLM 本身是面向通用任务的。未来,大模型也未必只能依赖 CoT 来解题。比如数独问题,大模型完全可以通过编程实现退火算法,甚至调用 Knuth 的 Algorithm X 来解决。

换句话说,我们或许不必急着把 TRM 看成“大模型的替代方案”。它更像是一种启发:提醒我们 智能并不一定依赖于更大的参数量,也可能来自更合适的结构和方法。而随着大模型编程和调用外部工具的能力越来越强,它们也许能自己创造、甚至调用类似 TRM 的机制来应对这些任务。

本文来源于微信公众号:土人观芯