AI芯片技术进展
AI芯片这个行业,每隔几个月就有新东西出来,追都追不上。但正因为变化快,才值得好好聊聊现在的格局到底什么样了。
市场:NVIDIA还是老大,但没那么稳了
先说大面儿上的情况。2026年全球AI芯片市场超过1500亿美元,增速依然惊人。但结构在变——推理芯片占比已经到了40%,比前几年高了不少。这说明AI不再只是"训练阶段烧钱",真正落地到应用里、给用户提供服务的推理需求正在爆发。
训练芯片这边,NVIDIA还是绝对霸主,Blackwell架构的B200和GB200全面铺开。GB200 NVL72那种72颗GPU全互联的怪兽,推理性能比H100提升30倍,看着确实吓人。不过AMD的MI300X也不是吃素的,微软、Meta、Oracle都在大规模采购,ROCm生态这两年进步很大,跟CUDA的差距在肉眼可见地缩小。
推理芯片的竞争更热闹。NVIDIA大概占一半,但国产芯片在推理和边缘侧的表现相当抢眼,份额已经到20%以上了。高通在手机和PC端的NPU布局也很积极。这个市场不再是NVIDIA一家通吃的局面。
值得关注的是,推理市场的增速已经超过了训练市场。这意味着AI行业的重心正在从"造模型"转向"用模型"——对于普通消费者和中小企业来说是一个好消息,因为推理决定了AI应用的响应速度和运营成本。谁能在推理芯片上取得优势,谁就能在下一波AI商业化浪潮中占据制高点。
国产芯片:从"能用"到"好用"的跨越
华为昇腾910C是目前国产训练芯片的门面。实测下来,性能大概能到H100的70-80%,而且随着软件优化还在持续提升。万卡集群已经稳定跑起来了,华为云ModelArts和国家智算中心都在大规模用。配套CANN框架和MindSpore生态虽然跟CUDA比还有差距,但日常开发和部署已经没什么大障碍了。
其他几家也各有进展。海光的DCU走的是兼容CUDA路线,迁移成本低,市场接受度不错。寒武纪思元系列持续迭代,沐曦的大算力训练芯片开始量产,摩尔线程在推理和图形渲染两头抓。壁仞科技也在持续推新。
整体来看,国产芯片的性能已经摸到了国际主流80%的门槛,能效比差距缩小到15-20%,软件生态也在快速补课上。当然,CUDA那几十万开发者和几千个库的护城河不是说追就能追上的,但至少"能用"已经不是问题了,正在往"好用"走。
国产芯片的一个独特优势是在特定场景下的定制化能力。比如,针对中文 NLP 工作负载优化的芯片在翻译、问答类任务上的能效比远高于通用 AI 芯片。另外,在信创政策的推动下,金融、电信、能源等关键行业的国产替代正在加速推进,这给国产芯片提供了稳定的需求基本盘。
架构创新:不只是堆算力
单纯堆晶体管的时代正在过去,架构创新成了各家发力的重点。
存算一体是个热门方向。三星和几家创业公司在推,理论上能效能提升10-100倍,特别适合端侧推理。不过精度和通用性还是挑战,离大规模商用还有点距离。光子计算芯片也是类似的情况——Lightmatter这些公司在探索,超低延迟数据传输确实有优势,但2026年还处在早期阶段。
Chiplet芯粒架构倒是已经成了主流。单芯片做太大良率太低,切成几个小芯粒分别制造再封装到一起,既省钱又灵活。台积电的CoWoS产能一直供不应求,封装成本已经占到高端AI芯片总成本的30%以上。UCIe互联标准也在推广,未来不同厂商的芯粒混搭也不是不可能。
还有一个值得关注的技术方向是稀疏计算加速。随着模型规模的增长,权重的稀疏性越来越明显。能在硬件层面支持稀疏张量运算的芯片,在不增加实际晶体管数量的情况下,就能显著提升有效算力。NVIDIA 的 Hopper 架构就开始支持结构化稀疏(2:4 sparsity),可以把理论推理吞吐量提升两倍。
端侧AI:下一个爆发点
这可能是最近一年变化最大的领域。
手机芯片这边,Apple A19、高通8 Elite、天玑9500都集成了很强的NPU,本地跑20B参数级别的模型已经不是问题。AI算力突破100 TOPS,翻译、图像生成、语音助手这些功能开始真正依赖端侧大模型,不再事事联网。
端侧AI的好处不仅在于隐私保护(用户数据不用上传到云端),还在于响应速度和可用性。网络不好或者完全离线的场景下,端侧模型依然能正常工作。而且推理成本不需要持续付费,一次购买硬件就能永久使用。
AI PC的概念也在落地。Intel Lunar Lake和AMD Strix Point都集成了NPU,微软的Copilot+ PC标准推动厂商跟进。2026年AI PC出货量预计超过1亿台,本地运行小型大模型成了标配。
自动驾驶芯片竞争更激烈。NVIDIA Thor做到2000 TOPS瞄准L4级别,华为MDC在车规级大规模部署,高通Ride有量产车型在用,地平线征程6是国产车载芯片的代表。这个赛道每家都在全力冲刺。
从更宏观的角度看,端侧AI的爆发正在改变AI商业模型的底层逻辑。过去AI服务需要用户持续联网、持续调用云端API,这意味着持续的成本和延迟。端侧模型把一部分推理任务转移到用户设备上,不仅降低了云端负载,还为用户提供了更好的隐私和更快的响应速度。这也是为什么Apple、高通、联发科这些端侧芯片公司在2025-2026年突然都开始强调"NPU TOPS"——端侧AI能力正在成为消费级设备的核心卖点。
供应链:绕不开的地缘政治话题
出口管制这个事,说多了都是泪。美国对华AI芯片限制持续收紧,连H20这种特供芯片都被纳入了限制范围,先进制程代工也受限。但反过来看,这也在倒逼国产替代加速——某种程度上,制裁成了国产芯片发展的催化剂。
产能方面,台积电CoWoS产能一直不够用,SK海力士和三星的HBM也紧张。NVIDIA高端产品交付周期很长,全球AI供应链都在重构。谁能在供应链上掌握主动权,谁就能在下一轮竞争中占优。
供应链层面的另一个趋势是晶圆厂的区域化布局。台积电在亚利桑那州的工厂开始投产,三星在德克萨斯州新建了工厂,intel也在俄亥俄州大建晶圆厂。这种地理上的分散虽然增加了成本,但降低了单一地区风险的暴露。
往后看
几个趋势比较明确:推理芯片市场会超过训练芯片,国产替代在中国市场会持续推进,云厂商自研芯片的趋势不会停,单位算力成本每年还会降30-50%。端侧AI芯片可能是最大的增量市场——毕竟每个人手里都有手机,每台电脑都可能变成AI PC。
另一个值得关注的趋势是AI芯片设计本身也在被AI加速。NVIDIA 已经在使用 AI 辅助芯片布局(比如用强化学习优化芯片上的 IP 模块 placement),谷歌用 AI 设计 TPU 也已经是好几年前的事了。AI 正在帮助人类造出更好的 AI 芯片——这个递归式的正反馈循环可能会让芯片技术的进步速度比传统摩尔定律预期的更快。
AI芯片这个行业,技术迭代快、地缘政治复杂、成本压力大,三重因素叠加让格局充满变数。但有一点是确定的:这个赛道还远没到终局,后面的戏只会越来越精彩。
