AI芯片的“寒武纪大爆发”——专用处理器的多样性革命

“一种芯片适应所有场景”的神话已经破灭。2024年,全球出现了超过200种不同类型的AI加速芯片,每种都针对特定场景优化:

自动驾驶芯片需要:

确定性的低延迟(<100毫秒)

功能安全等级(ASIL-D)

多传感器实时融合能力

大语言模型芯片则追求:

超大规模参数支持(>万亿)

高带宽内存(>1TB/s)

分布式训练效率

开源硬件的崛起

 

 

RISC-V架构正在改变游戏规则。与x86和ARM的封闭生态不同,开源指令集允许深度定制:

阿里巴巴平头哥:添加了矩阵运算扩展

英伟达:开发了AI专用RISC-V核心

学术界:可以自由实验新颖架构

开源不仅降低了成本,更加速了创新周期。传统芯片设计需要2-3年,而基于开源生态的快速迭代可将周期缩短至12-18个月。

三维集成的垂直革命

当平面扩展遇到瓶颈,芯片开始向上生长。台积电的3D Fabric技术实现了:

顶层:逻辑芯片(CPU/GPU核心)

中间层:缓存和内存堆叠

底层:基础IO和电源管理

通过硅通孔(TSV)垂直互联

这种三维集成带来了多重好处:

互连密度提升100倍

信号延迟降低至1/10

能效提高30-50%

软硬件协同的黄金时代

芯片与算法的协同进化正在创造新的可能性。最典型的例子是稀疏计算:

算法层面:剪枝、量化、知识蒸馏

硬件层面:支持稀疏矩阵的专用单元

协同效果:某些模型效率提升10倍

Google的Pathways系统展示了未来方向——根据任务动态分配计算资源,不同芯片各司其职,形成一个有机的计算整体。

当芯片学会“思考”

2025年,全球AI芯片市场规模突破2000亿美元,但这不仅是一场算力的军备竞赛。真正的变革在于,芯片正在从“计算工具”转变为“认知伙伴”。在传统CPU与GPU之外,各类专用芯片如雨后春笋般涌现,形成百花齐放的生态格局。本文将从三个新颖视角解析这场静默的硅基革命。

 

 

一、架构创新:从“通用计算”到“场景智能”

范式转变的三重奏

神经拟态芯片正在颠覆传统计算架构。不同于冯·诺依曼结构,这类芯片模仿人脑神经元与突触的工作方式:

事件驱动计算:仅在需要时激活,能耗可降至传统芯片的1/1000

存算一体设计:突破“内存墙”瓶颈,数据处理速度提升100倍以上

时空编码:同时处理时间与空间信息,更适应动态环境

芯片类型关键创新点适用场景

神经拟态芯片事件驱动、存算一体边缘设备、实时感知

光计算芯片光子代替电子传输超大规模模型训练

量子AI芯片量子态叠加计算药物发现、材料模拟

生态系统的多样性

没有任何一种架构能通吃所有场景。英伟达的GPU仍主导数据中心训练,而自动驾驶领域则被特斯拉的D1芯片和Mobileye的EyeQ系列分割。初创公司如Graphcore的IPU专注于图形计算,Cerebras的晶圆级引擎则重新定义了尺寸边界。

二、能效革命:每瓦特算力的价值重构

绿色AI的硬件基石

“算力即权力”的时代正在向“能效即竞争力”过渡。最新研究表明,AI耗电量已占全球电力的2%,2030年可能达到10%。这一挑战催生了三大创新路径:

1. 工艺制程突破

3nm及以下工艺使晶体管密度翻倍

二维材料(如石墨烯)替代硅基材料

三维堆叠技术实现垂直集成

2. 软件定义芯片

动态重构架构:

训练模式 → 高精度浮点运算 (FP32)

推理模式 → 低精度整数运算 (INT8)

休眠模式 → 仅保持基础连接

3. 冷却技术革命

浸没式液冷将散热效率提升80%

相变材料实现被动冷却

热电转换回收废热

经济学的重新定义

芯片选择不再仅看峰值算力。企业开始计算“全生命周期能效比”——包括制造能耗、运行功耗和冷却成本。这一转变使得某些峰值算力较低但能效出众的芯片,在边缘计算场景中获得压倒性优势。

三、软硬协同:算法与芯片的共生进化

从“适配”到“共设计”

传统模式是芯片设计完成后再优化算法,而现在进入了算法-芯片协同设计时代:

双向优化案例:

Transformer专用芯片(如Google TPU v4)

算法层:稀疏注意力机制

硬件层:动态稀疏计算单元

效果:相同任务能耗降低60%

联邦学习芯片组

算法层:差分隐私保护

硬件层:本地加密计算单元

效果:隐私与效率的平衡点

开源硬件的兴起

RISC-V架构的AI扩展指令集正催生新的生态。与传统x86和ARM架构相比,开源架构提供了定制化的自由:

可针对特定神经网络优化指令

避免了授权费用的成本转嫁

促进了学术界的创新参与

“没有一种指令集是完美的,但多样性让整个生态系统更具韧性。”​ —— RISC-V国际基金会主席David Patterson

四、未来展望:超越硅基的想象

材料科学的突破

硅材料正在接近物理极限,下一代AI芯片可能基于:

碳纳米管芯片:已实现比硅芯片快10倍的实验原型

自旋电子器件:利用电子自旋而非电荷存储信息

DNA计算芯片:在生化反应中执行并行计算

分布式智能网络

未来的AI系统可能不是单一芯片,而是层级化的智能网络:

云端超算芯片 ←→ 边缘推理芯片 ←→ 终端感知芯片

(训练) (协同推理) (数据采集)

这种三级架构中,每个层级的芯片形态、精度要求和能效标准都截然不同,催生了更加细分的市场格局。

五:多样性即生命力

AI芯片的发展轨迹正在从“趋同”转向“分化”。不同的应用场景需要不同的芯片特性:自动驾驶需要极低的延迟,医疗诊断需要极高的精度,消费电子需要极佳的能效。

在这个价值万亿美元的市场中,中立地看,没有绝对的赢家架构,只有最适合场景的解决方案。CPU、GPU、FPGA、ASIC以及新兴的神经拟态芯片、光芯片和量子芯片,各自在庞大的AI生态中找到了自己的生态位。

最终,这场革命的胜出者可能不是单一芯片,而是能够整合异构计算资源、平衡算力与能效、兼顾性能与成本的完整解决方案。当芯片真正理解场景需求时,人工智能的“智能”二字,才获得了它坚实的物理基础。以上就是小编分享的全部内容,希望可以帮助到大家。

AI芯片的功耗困局与绿色突围

训练一个大型AI模型的碳排放,可能相当于五辆汽车整个生命周期的排放。当算力需求如脱缰野马般增长,AI的“智能”正站在一个能效悬崖之上。芯片,作为算力的基石,其能耗问题已从技术挑战升级为关乎行业可持续发展的生存命题。

 

 

一、困局:算力增长的“能源阴影”

摩尔定律的放缓与AI算力需求的指数级增长,形成了一道残酷的剪刀差。我们正面临三重挑战:

“内存墙”困境:数据在处理器和内存之间的搬运所消耗的能量,远高于计算本身。这如同让一位博学的学者(处理器)不断奔波于图书馆(内存)之间查资料,而非将资料放在手边,大部分精力浪费在了路上。

“散热天花板”:芯片单位面积产生的热量已逼近物理极限。再强大的芯片,如果无法有效散热,性能也会被迫“降频”,如同被套上了枷锁。

“规模不经济”:单纯堆砌晶体管和扩大芯片面积,带来的性能提升已无法抵消成本和功耗的飙升。

二、破局:多维度节能“黑科技”

行业正在从微观到宏观,发起一场全方位的能效革命。

1. 微观层面:晶体管与电路的智慧

创新器件:如环栅晶体管(GAA),通过更好的栅极控制,在更小的尺寸下实现更低的漏电和更高的性能。

近似计算:在某些对绝对精度不敏感的场景(如图像处理),允许细微的计算误差,以换取功耗的显著降低。这体现了“够好即用”的实用主义智慧。

2. 架构层面:让数据“少跑路”

稀疏化计算:利用AI模型权重本身的稀疏性(很多值为零),智能跳过无效计算。这就像读书时跳过空白页,直接阅读有内容的部分。

数据流架构:根据任务动态组织计算单元和数据流动,实现“数据在哪里,计算就在哪里”,最大限度减少冗余数据移动。

3. 系统层面:从“大力出奇迹”到“精准调配”

DSA(领域专用架构):放弃通用性的“万金油”,针对AI工作负载的特点进行从硬件到软件的垂直优化,实现“专用工具干专业活”的极致效率。

动态电压频率缩放(DVFS):让芯片像一位智慧的长跑运动员,根据任务负荷实时调整自己的“呼吸”和“心跳”(电压与频率),在闲时深度休眠。

三、衡量:超越TOPS的绿色标尺

业界正在形成共识:评价AI芯片不能只看算力峰值(TOPS),而需综合考量:

能效比:每瓦特功耗所能提供的算力(TOPS/W)。这是芯片的“智商税”。

有效算力:在实际应用负载下可持续输出的算力,而非实验室理想条件下的峰值。

全生命周期碳足迹:涵盖从制造、运行到废弃回收的所有环节。

AI芯片的能效之战,是一场没有退路的攻坚战。它驱动着从物理材料到系统设计的全面创新。未来的胜出者,未必是算力最强的芯片,但一定是能效最优的芯片。因为只有在绿色可持续的轨道上,人工智能的星辰大海才真正可及。

AI芯片如何架构“魔法”重塑计算本质?

探索与揭秘,带有一丝技术浪漫主义

当传统的CPU(中央处理器)仍在兢兢业业地扮演“全能管家”,按部就班地处理一条条指令时,AI芯片已经悄然化身“预言家”,专注于预判和加速一种特定的计算模式。这不仅是硬件的升级,更是一场从“如何计算”到“为何计算”的思维范式转变。

 

 

一、核心革命:从“流水线”到“计算画布”

传统芯片架构像一条精密的工业流水线,而现代AI芯片,尤其是神经拟态芯片和存算一体芯片,则更像一张允许信息自由流淌、并行作画的“计算画布”。

神经拟态芯片:其灵感直接来源于大脑。它用脉冲(Spike)而非连续数据来传递信息,并让“神经元”(计算单元)和“突触”(存储连接)紧密耦合。这就像用摩斯密码而非长篇大论来沟通,事件驱动的特性使得它在处理视觉、听觉等感官信号时,能效极高。英特尔的Loihi芯片便是此中先锋,它在动态场景识别上的低功耗表现,让人工智能在终端设备的长期“待机思考”成为可能。

存算一体架构:这是对“冯·诺依曼瓶颈”的正面突破。传统计算中,数据需要在处理器和内存间疲于奔命,耗费大量时间和能量。存算一体技术直接在存储单元内完成运算,如同在书架上直接对书籍进行分类整理,而非搬来搬去。这种架构能将能效比提升1-2个数量级,特别适合处理AI中常见的海量并行乘加运算。

二、百花齐放的芯片“物种”

没有一种芯片能解决所有问题,AI芯片的世界是一个多元共生的生态系统。

芯片“物种”核心特征比喻优势领域典型代表与思考

GPU(图形处理器)超级多核军团。擅长同时发动成千上万个简单计算。AI模型训练、高性能计算NVIDIA的CUDA生态已成行业基石,但其通用性也带来一定的能效妥协。

ASIC(专用集成电路)奥运专项冠军。为特定任务(如矩阵乘法)定制,追求极致能效。云端推理、特定算法固化谷歌TPU是典范,它在搜索、翻译等服务中表现卓越,但灵活性是其代价。

FPGA(现场可编程门阵列)可重构乐高大师。硬件逻辑可被反复编程定义。算法快速原型验证、边缘适配在自动驾驶、通信基站等需要快速迭代的领域不可或缺,但编程门槛较高。

NPU(神经网络处理器)AI原生思考者。从设计之初就为神经网络优化。手机、物联网等终端侧AI苹果A系列芯片、华为麒麟芯片中的NPU,让我们享受到了实时滤镜、语音助手的流畅体验。

三、未来架构:走向“群体智能”与“环境感知”

未来的AI芯片将不再是孤岛。两个关键趋势正在浮现:

Chiplet(芯粒)与异构集成:如同搭建乐高,将不同工艺、不同功能的芯片粒(如CPU、NPU、内存)通过先进封装技术集成在一起。这实现了在成本、性能和灵活性之间的黄金平衡,或许将成为后摩尔时代的主流。

感知-计算一体化:未来的传感器可能直接输出语义化的信息,而非原始数据流。想象一下,摄像头芯片直接识别“一只奔跑的猫”,并将这个结果而非数百万像素数据传递给处理器。这将从根本上减少数据冗余,实现终极能效。

AI芯片的架构演进,是一场从“模仿计算”到“模拟智能”的漫长征程。它没有唯一的终点,而是在追求效率、灵活与生物启发的多条道路上并行探索。理解这些芯片的“思考方式”,正是理解人工智能未来形态的一把钥匙。

机器人一定要做成人形吗?

人形机器人近年来引发广泛关注和热潮,尤其是春晚宇树机器人的歌舞表演轰动了全国,这也让我想探究一下,机器人有没有必要做成人形,以及这里面的方方面面。(部分内容资料AI辅助查找生成)

宇树科技在人形机器人领域快速崛起,其实他本身就是全球四足机器人市场的领军企业。宇树通过设计优化、模块化生产及供应链整合,将四足机器人价格从早期40万元降至万元级(如Go2售价不足1万元),人形机器人G1定价仅9.9万元,远低于特斯拉Optimus等竞品。宇树在全球四足机器人市场占有率近70%,年出货量超1000台,规模化生产进一步摊薄成本。宇树将四足机器人积累的运动控制算法与硬件架构直接迁移至人形机器人,缩短了研发周期,形成技术协同。

 

 

人形机器人的需求主要来自以下几个地方:

– 老龄化与劳动力短缺:日本、欧洲等地区面临严重的老龄化问题,人形机器人被视为填补护理、家政等服务领域劳动力缺口的重要工具。

– 高危场景替代人类:在救灾、核电站维护、太空探索等危险环境中,人形机器人可以替代人类执行任务,降低风险。

– 情感陪伴需求:具备拟人化交互能力的机器人(如日本Pepper、波士顿动力Atlas的社交版本)在养老、儿童教育等领域提供情感价值。

相比工业机械臂或专用机器人,人形机器人因形态接近人类,理论上能适应人类环境中的多样化任务(如开门、使用工具),具备成为“通用平台”的可能。

另一方面,我们受到科幻作品的长期影响,从《变形金刚》到《西部世界》,人形机器人承载了人类对未来的想象,科技公司通过产品强化“未来已来”的叙事。人形机器人的“火爆”本质上是技术成熟度、社会需求紧迫性和资本叙事共同作用的结果。尽管短期内可能面临商业化落地挑战,但其作为AI与物理世界交互的终极载体,长期来看有望深刻改变人类生产生活方式。

将机器人设计成人形并非绝对必要,但这一选择背后存在复杂的技术逻辑、社会心理和场景适配考量。是否“需要”取决于具体应用场景、技术可行性与人类需求之间的平衡。

 

 

为何人形可能具有优势?

1. 对人类环境的天然适配性

– 人类社会的物理环境(楼梯、门把手、工具尺寸等)是基于人体工程学设计的。人形机器人无需改造环境即可直接使用现有设施,例如:

– 使用标准工具(螺丝刀、键盘)

– 乘坐电梯、驾驶汽车(无需改造座椅和踏板)

– 在狭窄空间(如家庭走廊)灵活移动

– 案例:特斯拉Optimus演示的“工厂巡检”场景中,人形形态可直接替代人类工人操作现有设备。

2. 交互亲和力与心理接受度

– 拟人化设计符合人类社交本能,更容易建立信任感,尤其在服务、医疗、教育等需要情感连接的场景:

– 日本PARO海豹机器人(非人形但拟动物化)通过圆润外形提升老年患者的接受度;

– 人形机器人Pepper通过表情和肢体语言增强沟通效果。

3. 技术通用性的探索

– 人形是“通用机器人”的潜在载体:双足行走、多关节手臂、立体视觉等设计,理论上可覆盖更广泛的任务(从搬运到精密操作)。

– 对比:工业机械臂效率高但功能单一,人形机器人可能通过模块化设计实现“一机多用”。

人形设计也存在很多局限与争议:

1. 工程效率的妥协

– 人类身体结构并非“最优解”,而是生物演化的结果。人形机器人可能牺牲性能:

– 双足行走能耗远高于轮式或履带(波士顿动力Atlas续航仅1小时);

– 手部关节复杂度高,抓握稳定性可能不如专用夹具。

2. 过度拟人化的伦理风险

– 人形机器人可能引发“恐怖谷效应”(过于逼真但非人类时引发不适);

– 赋予类人外形可能导致情感依赖或道德争议(如性爱机器人、军事机器人的人形化)。

3. 场景错配与成本问题

– 在明确场景下,专用机器人更具性价比:

– 物流仓库中,Amazon的轮式机器人Kiva效率远超人形;

– 手术机器人达芬奇通过多臂设计实现精密操作,无需模仿人体。

因此,机器人选择人形是选项,而非必然。是否需要人形机器人,取决于“人类环境适配成本”与“工程优化成本”之间的博弈:

– 若改造环境成本高(如家庭、城市),人形是合理选择;

– 若任务高度专业化(如工厂、手术),非人形方案更优。

核心逻辑:机器人形态应服务于功能需求,而非盲目追求拟人。人形机器人的价值在于其作为“通用性载体”的潜力,但这一潜力能否兑现,仍取决于技术突破与商业落地的平衡。

说起人形机器人,有朋友聊天的时候问了个有趣的问题:

“我对人形机器人有个疑问,大学生不就是所谓的廉价又复杂的机器人?男人工作到60岁退休,而人形机器人的使用寿命能不能达到60年?”

人类劳动力成本表面上看似“廉价”(如实习生月薪数千元),但实际隐性成本极高,机器人成本初期采购费用高,但边际成本递减(规模化生产后)。不过其“廉价”仅限于重复性劳动,无法覆盖人类的多维能力。

当前AI技术迭代周期为2-3年,10年后的算法可能完全无法适配旧硬件(例如2010年的智能手机已无法运行最新APP),机器人若需持续使用60年,需不断升级软件、传感器甚至主控芯片,成本远超直接更换新机型。 技术进步带来的效率提升(如能耗降低50%、算力提升百倍)会使旧机器人迅速丧失竞争力。

人形机器人的目标不应是模仿人类的“工作时长”,而是在特定场景中创造不可替代的价值。与其追求60年使用寿命,不如关注如何让人机系统更高效地服务社会——毕竟,人类需要的不是另一个“廉价劳动力”,而是解放自身潜能的工具。

上升到哲学和道德层面,我对人形机器人也存在一些疑惑。

人和周围的非人世界共享着一些东西,比如存在。在这个世界上,人和动物可能还是最亲密的。他们共同享有生命、欲望乃至情感。人与动物是可以有某种相互交流的。尤其在感受性方面,从它们也有痛苦的感受,可以引申出许多东西。动物没有人的语言,但人可以通过它们的肢体动作和发声感觉到它们的一些情感和要求的反馈。即便如此,它们也都各有自己的感受和活动方式,人与它们的共享和沟通是很有限的。

智能机器似乎离人最近,却离人最远。它是人制造来为自己服务的,但它没有人和动物共有的碳基生命。智能机器在缺乏感受性的意义上,甚至不如动物,在有机生命方面也不如植物。它就像“石头”一样,无感受、无生命,但这又不是一块普通的“石头”,它拥有与人类似甚至可能超越人的智能,它具有行动的能力。

我们如何“为机器立心”,让其善解人意?我们与动物还有一种共同的感受性,与智能机器却没有这种感受性。我们与动物之间还可以有一种情感上的互动,人对“机器宠物”的感情却实际只是单方面的。我们与智能机器也许只能勉为其难地设规则,但这规则在它如果获得一种我们也不知晓的“自主意识”之后也将遭到无视。人们将人与人之同的围棋博弈也称作“手谈”,一个围棋国手可以与异域的对手结成一种特别的友谊,但如何能够与战胜他的机器“阿尔法”进行思想与感情上的对谈呢?

AI芯片国产替代:政策与需求双轮驱动下的破局与成长

在全球AI算力竞赛白热化的背景下,AI芯片作为核心战略资源,国产替代已成为产业发展的必然趋势。国内政策密集落地与本地化需求爆发形成双重驱动力,推动国产AI芯片企业从技术突破向商业化落地跨越,在国际巨头主导的市场中开辟突围路径。

 

 

政策扶持构建良好产业生态,为国产替代提供坚实保障。国内持续出台专项政策支持高端芯片研发与产业化,从研发资金补贴、税收优惠到产能保障,形成全链条扶持体系。中芯国际7nm产能的持续扩增,有效缓解了本土芯片设计企业的产能瓶颈,为华为、寒武纪等企业的产品量产提供支撑。同时,政策引导下的国产化替代清单落地,推动金融、政务、国企等关键领域优先采用国产AI芯片,为本土企业提供稳定的应用场景,加速技术迭代与产品成熟。

需求结构变化为国产芯片创造差异化机会。当前全球AI芯片竞争重心从模型训练环节转向推理环节,多元推理工作负载开辟新竞争领域,这一趋势与国内企业的技术优势高度契合。国产厂商无需在高端训练芯片领域与国际巨头正面抗衡,可聚焦推理场景深耕,凭借成本控制、快速响应及本地化服务优势,抢占市场份额。华为Ascend系列芯片通过优化推理性能,已在国内大模型厂商实现规模化落地;寒武纪在特定行业推理场景形成技术壁垒,通过定制化解决方案满足差异化需求;壁仞科技则聚焦通用GPU推理领域,逐步缩小与国际产品的性能差距。

技术创新与生态构建成为国产芯片突围的核心抓手。国内企业在芯片架构设计、制程工艺适配、软件生态优化等方面持续突破,华为昇腾架构通过自主研发实现核心技术自主可控,寒武纪思元系列芯片在能效比与推理性能上实现行业对标。同时,国产厂商加速生态协同,通过与国内大模型企业、云服务商、硬件厂商合作,构建适配本土需求的软件生态与解决方案体系,降低用户迁移成本。例如,国产芯片企业与百度、阿里等云厂商联合优化模型适配,与工业企业合作开发专用推理芯片,形成“芯片-算法-应用”的产业闭环。

尽管国产替代进程加速,但挑战依然存在。高端制程工艺依赖、核心软件生态话语权不足、国际供应链风险等问题,仍是制约国产芯片发展的关键因素。未来,随着国内芯片制造工艺的持续突破、生态体系的不断完善,以及政策与市场需求的持续赋能,国产AI芯片有望在推理侧实现规模化替代,并逐步向高端训练芯片领域渗透,构建起自主可控的AI算力体系,为国内AI产业发展提供核心支撑。

2026年AI芯片行业趋势:多元化应用与定制化生态共筑新增长

随着AI技术从实验室走向千行百业,AI芯片行业正迎来新一轮结构性变革。中国AI计算加速芯片市场规模持续爆发式增长,2021-2024年年均复合增长率高达67.87%,市场规模从301.28亿元增至1425.37亿元,预计2026年将攀升至3813.9亿元,在算力需求驱动下,行业正呈现应用多元化、产品定制化、生态协同化三大核心趋势。

 

 

应用领域多元化拓展成为市场增长的核心引擎。AI芯片已从传统的视觉处理、语音识别、自然语言处理领域,向医疗、金融、教育、工业制造等行业深度渗透。在医疗领域,AI芯片助力医学影像分析、疾病诊断辅助,提升诊断准确率与效率;金融领域中,其在风险评估、欺诈检测等场景的应用,强化了金融安全防线;教育领域通过个性化学习推荐、智能辅导等功能,重构教学模式。同时,随着5G、物联网技术普及,边缘计算需求激增,AI芯片在智能终端、物联网设备中的应用场景持续扩容,从手机端的实时翻译到工业边缘设备的故障预警,构建起“云端+边缘”的全场景算力网络。

定制化芯片成为破解差异化需求的关键路径。不同行业、场景对AI芯片的性能、功耗、成本诉求差异显著,通用型芯片难以兼顾所有需求,定制化设计成为行业共识。针对智能安防场景,可设计高效图像处理能力的专用芯片;面向智能穿戴设备,低功耗、小尺寸的AI芯片成为核心需求;而数据中心的大模型推理任务,则需要高吞吐量、低延迟的定制化解决方案。ASIC芯片凭借可定制化架构,在特定场景实现性能与功耗的最优平衡,市场份额逐步提升;同时,FPGA芯片以其灵活可编程特性,能够快速适配不同算法迭代需求,在原型开发、小众场景中占据优势,与ASIC、GPU形成互补。

生态协同化构建产业闭环,成为企业竞争的核心壁垒。当前AI芯片行业竞争已从单一产品性能比拼,升级为生态系统的综合较量。芯片企业通过与算法公司、系统集成商、高校科研机构的深度合作,构建完善的产业生态:与算法公司联合优化芯片与算法适配性,提升端到端性能;与系统集成商合作提供一体化解决方案,降低客户使用门槛;与科研机构共建研发平台,布局前沿技术,培养专业人才。英伟达通过Rubin平台构建软件生态,绑定上下游企业;国内厂商也在加速生态布局,依托本地化优势构建适配国内大模型与应用场景的生态体系,通过生态协同形成良性循环,巩固市场竞争力。

2026年AI芯片竞争格局:国际四巨头争霸与国产突围之路

2026年,全球AI芯片行业迎来“政策加码+需求爆发+技术迭代”三重共振,算力需求向YottaFlops级跃迁,竞争格局从单一芯片比拼升级为平台化生态对决。当前市场形成“国际巨头主导、国产厂商突围”的二元格局,CES 2026成为行业竞争的集中展示窗口,头部企业的技术路线与商业化进展直接重塑市场格局。

 

 

国际四巨头凭借技术积累与生态优势,开启平台化对决新模式。英伟达作为行业绝对龙头,通过Rubin平台巩固垄断地位,其Blackwell和Rubin架构产品2025-2026年订单总额超5000亿美元。Rubin GPU推理性能达Blackwell的5倍,搭配NVFP4技术大幅降低算力成本,同时向自动驾驶、机器人领域延伸软件生态,绑定优步、斯特兰蒂斯等大客户,高盛预测其2026年硬件销售额将增长78%至3830亿美元。AMD作为强势追赶者,通过Helios机架级平台与OpenAI 6吉瓦采购协议实现破局,打破英伟达在头部大模型厂商的垄断,其MI455X加速器采用2/3纳米混合制程,性能较上一代提升10倍,计划2027年推出MI500系列,目标四年内实现AI性能千倍提升。

高通与英特尔则聚焦细分赛道构建差异化优势。高通深耕边缘侧AI,推出Dragonwing IQ10机器人架构与Snapdragon Plus PC芯片,依托ARM架构能效优势渗透物联网、AI PC领域,已与Figure、库卡等机器人厂商达成合作,在物理AI布局中抢占先发优势。英特尔以18A制程技术破局,发布第三代酷睿Ultra处理器及工业级边缘处理器版本,瞄准AI PC与工业场景,试图凭借IDM模式优势重夺制程领先地位,2026年第二季度产品面市进度将成为其竞争力的关键验证。

国内厂商在政策支持与本地化需求驱动下加速突围,聚焦通用GPU、专用ASIC等领域形成特色竞争力。华为Ascend系列芯片性能逐步对标国际水平,依托国内大模型厂商实现规模化商业化落地;中芯国际7nm产能扩增为本土芯片设计企业提供产能支撑,加速项目推进;寒武纪、壁仞科技等企业在特定场景的推理芯片领域深耕,凭借针对性优化形成差异化优势。摩根士丹利预测,国内AI芯片自给率提升将带来持续的国产替代机会,尤其在推理侧需求爆发背景下,本土厂商更易凭借成本控制与快速响应优势抢占市场份额。

AI算力+半导体的国产替代闭环

昨天的股市属于芯片,科创50大涨3%创近三年半新高,芯片产业链集体走强,尤其是寒武纪早盘盘中大涨近14%,总市值跃居科创板头名,昨天的群里充满了寒王的欢乐段子。

背后的引爆点,一个是英伟达暂停了H20的生产。

另一个则是由于DeepDeek V3.1发布的官方留言:

这代表了国产AI的软件和硬件正在形成闭环,减少对国外算力软硬件的依赖。目前已经通过DeepSeek适配测试的国产硬件包括:

从改革开放以来,我们很多行业走过了从“Copy to China”阶段,到“Born Global”阶段,甚至达到“Rule Making”的水平。

以我国互联网的发展为借鉴,我们诞生了很多Copy to China 的典型案例,以下是一些代表公司。

 

 

从时间轴看,1998-2005 年(门户、搜索、电商、社交)是 Copy to China 的第一波高峰;2010-2015 年(网约车、团购、短视频、O2O)为第二波;2015 年后进入“Copy from China”反向输出阶段 。

现在中国互联网“反向输出”已经从单点试水变成系统性的“模式出海”,逐渐把我们的本土化创新卖到了全世界。

从以上的案例来分析,2016 年前更多是“Copy to China”,2017-2020 年开始“Born Global”(Shein、TikTok),2021 年后进入“Rule Making”——中国模式变成海外监管和竞品的参照系。从产品 → 商业模式 → 技术规范 → 产业标准,层层递进;移动支付、小程序、OTA 已上升到“标准输出”阶段。

回到半导体行业,我们现在处于什么阶段呢?

半导体行业整体上已经脱离Copy to China阶段,但并未全面进入反向输出,而是处于局部突破+加速国产替代的过渡带。

把现状拆成 4 个维度看会更清楚:

1. 技术层次——“低端已平替,高端仍卡脖子”

• 28nm 及以上成熟制程:设备国产化率 >50%,材料、封测环节基本可自主循环 。

• 7nm 及以下先进制程:EUV 光刻机、高阶 EDA、ArFi 光刻胶仍被“卡脖子”,只能“绕道”DUV + 多重曝光实现有限量产,性能和良率落后台积电 2-3 代 。

2. 产业链角色——“从代工学习者到生态共建者”

• 设计:海思、寒武纪、平头哥的 CPU/GPU/AI 芯片已能与英伟达、高通“并跑”,但制造环节被锁在 7nm 天花板 。

• 制造:中芯国际、长江存储等不再只是“学做代工”,而是牵头与设备、材料厂联合研发工艺标准,角色由“Copy”转向“Co-define” 。

3. 商业模式——“内需替代为主,出口输出刚起步”

• 成熟制程产能大规模扩张,2025 年全球 28 nm 以上新增产能 40% 以上落地中国,主要满足国产替代需求 。

• 设备、材料开始小批量出海:北方华创刻蚀机、中微 MOCVD 已进入东南亚、欧洲二线晶圆厂,但尚未形成“反向输出”的规模效应 。

4. 竞争范式——“政策-市场双轮驱动” vs “技术封锁”

• 大基金三期+地方政府基金 2025 年预计再投 3000 亿元,资本密度全球罕见 。

• 美国主导的出口管制反而加速了国产供应链闭环,“被逼出来的创新”取代了早年的“Copy”。

因此,今天的中国半导体:

• 已经摆脱“简单复制”阶段——低端环节可完全自给,高端环节用架构、封装、系统级创新“曲线救国”。

• 尚未到“反向输出”阶段——除少量设备、材料外,尚未像 TikTok/Shein 那样反向定义全球标准。

• 可以定义为“自主可控 2.0”:一边补足短板,一边把成熟产能和特色工艺向一带一路国家扩散,为下一轮“Made in China, Defined by China”打基础。

我让Kimi分析了中美在半导体和AI领域的对标公司。

中美半导体“同类打擂”清单:

(按“美国公司 → 中国公司 → 主要对标赛道”排列)

中美人工智能“同赛道对标”速览:

(按“美国公司 → 中国公司 → 主要对标方向”排列)

我国在“AI+芯片”这条赛道,已经形成了一条“可自我循环的国产替代闭环”,但高端训练算力仍被EUV 光刻机与先进 IP 掣肘,所以目前只是“结构闭环”而非“全自主闭环”。

1. 低端/推理市场已闭环

• 14nm及以上制程的推理芯片(华为昇腾、寒武纪、海光)在 2025 年拿下国内 AI 服务器约40% 市场份额。

• 中芯国际14nm 产能已突破 20 万片/年,良率 99.8%,足够喂饱推理市场。

• DeepSeek、通义千问、讯飞星火等主流大模型都完成了对昇腾、寒武纪的原生适配,“国产模型+国产算力”在政务、金融、医疗等行业批量落地。

2. 高端/训练市场半闭环

• 7nm工艺已“风险量产”,但EUV 仍缺位,需靠 DUV 多次曝光,成本比台积电高、良率低。

• 新一代昇腾、思元通过 Chiplet 把算力做到H100的80%左右,已拿到字节跳动、阿里部分订单,但单卡功耗和互联带宽仍落后一代。

• 训练框架(MindSpore、Paddle、OneFlow)已能跑通千亿级模型,但 GPU CUDA 生态迁移成本仍高。

3. 设备/材料/EDA 仍是瓶颈

• 光刻机:上海微电子DUV 待验证。

• 刻蚀/薄膜:北方华创、中微 5 nm 设备已进中芯、台积电,国产设备覆盖率 > 50 %。

• EDA:华大九天实现 7nm数字全流程,但先进工艺PDK仍依赖 Synopsys/Cadence。

总之,推理侧闭环已跑通,训练侧闭环“只差光刻机”。再给中国 2–3 年时间,如果 7nm 产能顺利爬坡、EUV 取得突破,这条 AI 芯片国产替代链就能真正“闭环成环”。

复旦微电子被列入实体清单,有何不同?

9月12日,美国商务部工业与安全局(BIS)再次挥舞制裁大棒,将 23 家中国实体列入实体清单。其中有很多公司与复旦微电子集团紧密相关,涉及FPGA、MCU、AI芯片、EDA、测试等全链条:

上海复旦微电子集团股份有限公司(FN4)

北京复旦微电子技术有限公司

深圳市复旦微电子有限公司

上海复控华龙微系统技术有限公司(MCU/SoC)

上海复微迅捷数字技术有限公司(数字IC设计)

上海华岭集成电路技术股份有限公司(IC测试)

吉姆西半导体科技(无锡)有限公司(IC设计+封测)

吉存半导体科技(上海)有限公司(存储芯片设计)

长沙楠菲微电子有限公司(网络通信芯片)

复旦微电子此次被列入实体清单,影响是多方面的,最主要的影响应该在两方面:

1、EDA工具受限后,研发受到阻碍;

2、流片代工受到影响。

有朋友问了一个有趣的问题,美国实体清单已经不是什么新鲜事了,寒武纪不也早被美国列入了实体清单了,今年不但扭亏为盈,营收大增,股价还一举超越了茅台,成为了股市中的“寒王”,美国实体清单是不是已经成了纸老虎?

话说当年美国祭出实体清单的大棒的时候,看上去确实非常可怕,但是随着这么多年这么多企业被上榜后,大家都硬扛下来,居然也都活过来甚至有的还活得更好了,证明实体清单的威力确实是越来越小了。

复旦微和寒武纪虽然都是上了实体清单,但是他们的待遇还是有些区别的,主要区别在于被标注了脚注4(Footnote 4),这个FN4意味着:不仅先进制程,成熟制程同样被切断。

– 所有受EAR(出口管理条例)管辖的物项,包括美国原产技术、设备、软件,以及外国生产的含美技术产品,均需申请许可证,且审查政策为“推定拒绝”;

– 脚注4(FN4)适用于所有外国生产的、包含美国技术的产品,无论制程节点是7nm还是180nm;

– 只要代工方使用美系设备或EDA工具(如Applied Materials、Synopsys、Cadence),即受限制,无法为复旦微电子流片;

– 成熟制程(如28nm、40nm、65nm)同样无法规避,因为全球几乎所有晶圆厂(包括中芯国际、台积电、联电、华虹)都依赖美系设备。

复旦微电子的清单级别更高,FN4 使其在任何含美技术节点上都被全球封杀,寒武纪仍可在部分去美化产线获得代工。

 

 

截至2025年9月,被美国商务部在“实体清单”中加注Footnote 4(FN4)的中国大陆 IC 设计公司(含其控股母公司及核心子公司)共 9 家/组,名单如下:

1. 上海复旦微电子集团股份有限公司(Fudan Microelectronics)

– 2025-09-12 新增,FN4 首次应用于纯商用 FPGA/MCU 企业 。

2. 北京算能科技有限公司(Sophgo)及其 11 家子公司

– 2025-01-15 新增,FN4 覆盖其 AI 大模型训推 TPU 产品线 。

3. 北京智谱华章科技有限公司(Zhipu AI)及其 10 家子公司

– 同批 2025-01-15 新增,FN4 针对其“智谱芯”AI 芯片设计业务 。

4. 壁仞科技(Biren)集团全部 7 家子公司

– 2023-10-17 新增,FN4 限制其 7 nm 通用 GPU BR100/BR104 在海外流片 。

5. 摩尔线程(Moore Threads)集团全部 3 家子公司

– 同批 2023-10-17 新增,FN4 切断其 MTT S3000/S4000 系列 GPU 海外代工 。

6. 超燃半导体(南京)有限公司

– 2023-10-17 新增,FN4 针对其高速 DSP + SerDes IP 产品 。

7. 光线云(杭州)科技有限公司

– 同批 2023-10-17 新增,FN4 限制其云原生 GPU 渲染芯片流片 。

8. 海光信息技术股份有限公司(Higon)

– 2022-12-15 新增,FN4 应用于其 x86-GPGPU 高端服务器芯片 。

9. 长沙景嘉微电子股份有限公司(Jingjia Micro)

– 2021-12-17 新增,FN4 针对其军用/民用 GPU 产品线 。

另外,我们熟知的海思半导体2019年5月首次被列入实体清单以来,目前没有被加注 Footnote 4(FN4),BIS 仅对海思适用“常规”FDPR(外国直接产品规则),并未触发 FN4 的“零美技术”长臂管辖。

 

 

即便情况不同,复旦微依然可以抄作业,有很多方法可以采纳,比如效仿海光信息(同样被FN4)的策略,具体的就不能展开了,核心是把“设计-制造-封测”全部迁移到国产可控链条,并叠加政策窗口+囤货+工艺降级三管齐下。海光信息今年的业绩也是杠杠的,似乎完全没有受到实体清单的影响。

对于上市公司来说,短期可能有点利空,但是坏消息也可以理解为好消息,考验管理层的智慧和执行力,供应链脱困战后,公司就能赢来真正的自由。

本文来源于微信公众号:土人观芯

国产GPU上市前夕,他们最担心的鲶鱼来了

7月26日,砺算科技发布了其7G100系列GPU产品,引起了业内业外一片哗然。

从发布会现场实测的三款游戏来看,基本坐实了“RTX 4060 同级”的定位。《黑神话:悟空》在1080p + 高画质跑到了平均 >70 fps,4K + 高画质平均同样 70 fps 左右。综合看,7G100 游戏帧率与跑分都略优于 RTX 4060,差距在 5-10% 左右,属于同一性能档位。

除了显卡方面的性能,令我印象深刻的是,发布会最后演示了砺算卡可以单机跑DeepSeek,完全满足AIPC侧的应用。

最难得的是,从芯片从硬件前端设计到后端设计,从指令集到构架,从软件到驱动完全由砺算科技自己独立完成,并没有像其他同行那样,使用了大量三方GPU IP。行内人都知道Imagination这家公司,就好像国产32位MCU大多数都是套壳在ARM内核之上,而我曾在一次会议上听到IMG的高管演讲中公开说,当时的国产GPU,无一例外都是买了他们的IP充当内核。

 

 

发布会后,网上迅速出现了很多质疑的声音,最核心的问题是:

砺算只募集到了3亿融资,不到百人的团队,靠着名不见经传的核心团队,居然做出全自主的性能比拼英伟达的产品,而其他企业投了几十亿下去,请了豪华团队,核心都还要买国外的IP,这情何以堪?

融资能力差,确实是砺算的短板,相比之下,国产GPU同行们一个比一个有钱,每家不融个50亿回来都不好意思说。

高科技公司,手里融的钱,相当于数字后来的“0”有多少个,能不能成功,掌握核心技术的人才是最前面的那个“1”。

现在投资圈扒砺算科技的团队,才恍然大悟,这特么本来就是GPU行业根正苗红的血脉,实际上是具有长期经验积累的,只不过大家之前都看走了眼,没人敢完全相信。

先说说S3 Graphics这家公司,曾与英伟达逐鹿天下的GPU厂商:

S3 Graphics 的 30 年兴衰,几乎就是 PC 图形从「CPU 画图」到「GPU 大战」的缩影。下面用时间轴方式梳理其关键节点与产品。

1989 诞生

• 达多·巴纳陶(Dado Banatao)与罗纳德·亚拉在加州圣克拉拉创立 S3;目标是“让 Windows 快一点”。

1991 2D 加速之王

• 推出首颗 2D 加速器 86C911(代号 Carrera),1 MB VRAM、16-bit 色深,499 美元就能干掉 899 美元的 ATI Mach,迅速占领 PC OEM 市场。

1992–1994 Trio 一统江湖

• Trio64/Trio64V+ 把 RAMDAC、时钟发生器全部塞进一颗芯片,主板直接焊上就能亮机,“一体化”方案让 S3 成为 2D 时代的默认选择。

1995 首次撞上 3D

• ViRGE(VR Graphics Engine)发布,名字很未来,但只是给 Trio 加了“能跑 3D”的补丁;双线性过滤一次就要一个时钟周期,640×480 下直接卡成 PPT。

• 却因 2D 性能依旧领先+价格便宜,销量仍然不错。

1997 短暂回光

• Savage3D 带来单周期双线性过滤、DVD 缩放和自家 S3TC 纹理压缩(后来被 Direct3D/OpenGL 收编为标准)。

• 仍用多通道渲染,遇到多纹理场景就得把画面画两遍,性能被同期 TNT/VOODOO 吊打。

1998–1999 最后一搏

• Savage4 和 Savage 2000 尝试支持 Direct3D 7,Savage2000 甚至冲到 125 MHz、两条双纹理管线,但硬件 T&L 驱动始终不稳定,上市即翻车。

2000–2001 改换门庭

• 与 Diamond Multimedia 合并,改名 SONICblue;一年后把图形部门整体卖给 威盛 VIA。

2004–2011 Chrome 余晖

• VIA 分拆出 S3 Graphics,推出 Chrome 系列(Chrome S20、Chrome 400/500),主打低功耗、高清视频输出,性能仅够上网办公,彻底退出 3D 游戏市场。

2011 之后 IP 沉睡

• HTC 收购威盛持有的 S3 Graphics 专利后,相关 IP 再无新品,团队陆续流散:

– 黄永、孔德海等 S3 元老 2018 年先创 中天恒星、后创 砺算科技;

– 洪洲等人加入华为海思 GPU 团队,再转投 壁仞科技。

 

 

一句话总结

S3 用 5 年时间成为 2D 霸主,再用 5 年折戟 3D,最后 10 年靠低功耗 Chrome 苟延残喘,最终成为人才与专利的“黄埔军校”。

砺算、壁仞、沐曦均直接或间接继承 S3 Graphics 的 GPU 技术积累,S3的野人系列当年赫赫有名,碾压过当年的nvdia。而砺算的核心团队,反而是保留S3骨血基因最多的公司,核心团队中宣、牛、孔都是S3当年的元老,目前砺算员工平均从业18年,可以说是老骥伏枥。

合适的核心团队,就可以把每一分钱花在刀口上,尽量避免资源的无谓浪费,这可能就是3个亿做出GPU的真实原因。其他公司融资能力强,可以砸钱买IP、发高薪、租顶级展台、公关宣传,砺算没什么钱,反而把主要精力放在产品上了,四年克服困难打造这款真正的GPU。

现在问题来了,砺算放出了卫星,如果这是真的(计划8月份可以送样试用,是真是假到时便知),谁会受到冲击?

首先肯定是JJW,A股上市公司,市值400亿左右。

JJW的JM9 仅接近 GTX1050,与 7G100/RTX4060 差两档,民用游戏市场压力骤增。不过军工/政府市场对性能不敏感,对“自主可控”敏感,7G100短期抢不走这部分订单。 JM11系列若不能快速拉到RTX 3060以上水平,民用市场将被迫让位。

JJW继续深耕“信创+军工”护城河,因垂直壁垒暂时安全,但是今后的成长将很艰难。

受到最大冲击的,应该是正在准备冲击科创板的M司,因正面撞车而压力陡增。M司在消费级+智算中心双线并进,7G100若定价激进,将挤压其PC市场。M司必须在消费级游戏本/台式机和千卡智算中心两条战线同时顶住砺算的冲击,否则将被迫退守数据中心细分市场。

此外对Imagination 授权的依赖,以及与CUDA兼容的驱动栈也是未来需要考虑的问题。

M司自从2020 年 10 月成立以来,共完成 6 轮融资(Pre-A→A→B 轮及后续),累计融资超过 50 亿元人民币。 2025 年 6 月递交科创板招股书时,Pre-IPO 估值约 246–255 亿元人民币,以 80 亿元募资规模 冲刺科创板,若顺利将成为“国产 GPU 第一股”。(以下表格统计来自Deepseek)

砺算7G100的出现会让投资人对“中国英伟达”故事重新比价,影响其上市估值,这是背后一众豪华投资机构最怕出现的情况,不过好在他们实力雄厚(红杉、腾讯、字节、深创投、招商局、国盛、建银等),都是几面下注。

其他几家国产GPU公司,并未涉及到显卡(GPU)领域,他们做的实际上是GPGPU,所谓GPGPU,我们可以理解为GP,即GPU去掉了图形功能,剩下通用计算。图形GPU的难度高于GPGPU,需兼容 DirectX/OpenGL 标准,壁垒很高,GPU可以包裹执行AI/高性能等操作,反而GPGPU很难做到GPU的图形化输出,算力卡可以算是GPU的一个子集。他们与砺算并没有正面竞争,应该说暂时影响不大。

国产GPU的性能PK

这篇文章我们来看下国产GPU的性能,主要是结合关老师在知识星球”半导体综研:专业数据分享“中统计的GPU的官方性能数据以及本营的一些调研纪要。

最近几年做GPU/NPU的厂商,凡是找TSMC代工的,基本都不敢公布自己的实际参数了;其实即便是官方之前公布的参数,我们也不能信以为真,往往公布的参数和实际的表现会有较大差距。

 

 

单看算力,再后面就是昆仑芯、沐曦、平头哥和寒武纪。其实根据本营的纪要,海光BW100的性能表现也非常不错,这个表中没有统计。

根据本营的纪要,寒武纪590的性能相较于英伟达H800约为30%-35%,具体表现取决于其片上网络交换芯片的设计质量。海光 BW100的深算能力约为400多T,相当于H800的50%左右。而910C经过测试,其性能大致达到H800的60%。

总体来看,910C在这三款卡中性能表现相对更优。 海光BW100作为一款全精度计算卡,其单卡可用性能实测达到87%左右,而寒武纪590能否达到80%尚不确定。此外,海光BW100采用了较为先进的交换芯片设计,在单卡上传方面表现良好。需要注意的是,寒武纪590推出时间 早于海光BW100,因此后者在技术更新和优化上具有一定优势。

在本营的一个纪要中,曾给出了这样的性能排名:第一位是910C;第二位是海光BW100C;第三位是华为910B;第四位是公司的卡(百度、阿里的自研卡);第五位是寒武纪;第六位包括沐曦和天数智芯等其他厂商产品。其他大未测试过。

价格方面,目前市场上海光BW100目前采购价格约为10万元/张,而910B和910C分别为7万和18万元左右。寒武纪590则从最初报价8 万-8.5万元下降至6万-7万元之间。由于很多参数并未官方公布,下表中的参数仅供参考。

从显存上来看,国内GPU大部分最新的产品都是使用HBM2e,受制裁的影响,没办法使用最先进的HBM3e。在推理任务中,显存是首要考虑的指标。推理模型在启动时需要足够的显存支持,如果显存容量不足,模型将无法启动,这直接导致后续推理任务无法进行。只有在模型成功启动后,才会进一步考量算力、性能和显存带宽等因素对实际处理能力的影响。但扩展HBM高带宽显存容量其实难度并不是很大,还是要看验证的稳定性上,所以在下面这个表格上,可以看到其实大家的显存容量都能做到64GB。

但在显存带宽上,华为就遥遥领先了。