全球算力市场分析

全球算力市场分析

聊算力这个话题之前,先说个让我印象很深的事。去年有个做AI创业的朋友跟我吐槽,说他光是租GPU训练模型,一个月烧掉的钱就够在二线城市买套房了。当时我觉得他在夸张,后来仔细算了算,发现还真没怎么夸张。

这就是2026年算力市场的真实写照——需求疯涨,供给跟不上,价格居高不下。

市场到底有多大?

全球算力市场现在差不多2.8万亿人民币的规模,中国占了大概8000亿。年增长率80%是什么概念?相当于每年多出将近三分之二的体量。更吓人的是算力规模每7个月就翻一番,比摩尔定律还猛——这种增长速度是人类科技史上罕见的。

这种增长主要靠AI在推。智能算力——也就是专门跑AI训练和推理的那部分——已经占到了总算力的85%。换句话说,现在建数据中心,大部分钱都花在了GPU和AI加速器上,传统的CPU通用计算反倒成了配角。通用计算的市场份额在被智能算力不断挤压,很多传统服务器厂商都在转型,开始做AI加速卡或相关基础设施。

从区域分布看,北美还是最大的算力市场,占了全球的一半以上。中国的增速最快,但因为基数和出口限制的影响,整体规模暂时排第二。欧洲排在第三,重点是绿色算力和合规性——欧盟对数据中心的碳排放要求越来越严格,这倒逼了不少企业在可再生能源方面加大投入。

谁在供应?谁在买?

供给侧的故事基本围绕几个核心环节展开。

芯片层面,NVIDIA还是那个霸主,市场份额80%以上。H100、H200是训练的主力,下一代B100据说性能还要翻倍,采用先进的封装工艺和 HBM4 内存,功耗也更高了。AMD的MI300系列在后面追,性价比确实有优势,不少云厂商已经开始大规模采购以降低对NVIDIA的依赖。国产这边,华为昇腾910B性能大概能到H100的七成,寒武纪、海光、沐曦也都在持续迭代。差距在缩小,但生态适配这块还需要时间——CUDA护城河太深,很多主流的AI框架和算子库都是先适配CUDA再考虑其他平台,这个生态惯性不是几年能改的。

数据中心层面,万卡级集群已经是标配了。一个集群的功率密度做到20-30kW每机柜,散热全靠液冷。建设周期12到18个月,投资动辄几十亿。选址越来越看重能源成本,所以贵州、内蒙古、宁夏这些地方成了香饽饽,北欧和爱尔兰也是类似逻辑——凉爽的气候能节省大量的散热成本。"东数西算"工程本质上也是把西部的清洁能源和廉价电力调度给东部的算力需求,但这个跨区域的调度在技术上还有不少挑战:网络延迟、数据一致性、远距离传输的带宽成本,都需要更成熟的方案。

需求侧就更不用说了。大模型训练要万卡集群,推理服务要持续在线响应,各行各业都在搞AI化。但芯片交付周期6到12个月,数据中心建设还要更久,供给天然滞后于需求。这就导致价格下不来——H100一张卡卖2.5到3万美元,H200更贵,而且还经常拿不到货。很多创业公司要买卡训练模型,得找云厂商排长队等配额。

值得注意的是,需求的增长不仅仅是来自大模型训练,传统的互联网服务、企业数字化、金融建模、医疗影像分析、自动驾驶仿真等都在推高算力需求。这种多维度的需求叠加,使得供给端的压力更大。

商业模式在变

算力这个生意,现在主要有三种玩法。

公有云算力是主流,按需付费、弹性伸缩,AWS、Azure、GCP三家国际大厂加上阿里云、腾讯云、百度智能云这些国内厂商,吃掉了60%的市场。好处是开箱即用,坏处是价格确实不便宜。公有云的定价策略比较复杂,有按需竞价(竞价实例能便宜很多但随时可能被抢占)、预留实例(长期承诺给折扣)、抢占式实例(最便宜但不保证可用性)等多种选择。选不对的话,同样的计算量价格能差好几倍。

私有云算力占30%,主要是大客户自己建专属集群。一次性投入大,但长期算下来成本更低,数据也安全。金融、政府、大型国企偏爱这种模式——毕竟核心业务数据放在自己手里才放心。但自建数据中心的门槛也不低,需要有专业的基础设施团队来做运维,包括电力、网络、散热、安全等方面的持续投入。

算力租赁占10%,第三方服务商把闲置算力拿出来出租,价格更灵活,交付更快。创业公司特别喜欢这种,不用自己买卡,按需租用就行。现在还有一些平台在做"算力共享经济"——把闲置的GPU资源汇聚起来,像Airbnb一样出租给需要的人,这个模式虽然还在早期,但增长很快。

有意思的是,现在还出现了"算力交易平台"的概念——按小时计费,弹性伸缩,有点像算力的共享经济。东数西算工程本质上也是这个思路,把西部的算力资源调度给东部用。还有企业在探索"算力期货"——未来某个时间段的算力提前锁定价格,这对于需要平稳预算的大客户很有吸引力。

成本这笔账

很多人好奇训练一个大模型到底要花多少钱。粗略算一下:

  • 7B参数的小模型(如 Llama-2-7B):大概1到5万美元。这是入门级别的大模型,小规模验证用这个尺寸比较经济。
  • 70B的中型模型(如 Llama-2-70B):要50到100万。这个参数量级的模型在推理能力和多语言支持上有明显提升,适合作为中等规模的商业应用底座。
  • 175B的那种(GPT-3级别):就得200到500万了。这种规模的训练需要连续的万卡集群跑数周,中间任何一个环节出问题都要从头来,风险极高。
  • 万亿参数级别的:千万美元起步。这也是目前只有少数科技巨头才玩得起的"高端局"。

推理成本相对低很多,每千个token大概0.0001到0.001美元,取决于模型的部署方式和硬件。但架不住量大啊——一个日活百万的AI应用,一个月的推理费用也是天文数字。所以现在大家都在想办法降本——量化(INT4/FP8能节省60-80%的推理成本)、蒸馏(小模型冒充大模型的接口)、剪枝(砍掉模型里不太重要的权重)、KV-Cache优化(减少推理时的显存和算力消耗),各种优化手段轮番上,能把成本砍掉50%到80%。

从ROI角度看,大模型公司算力投入占营收的30%到50%,云厂商毛利率能做到60%以上,算力租赁大概12到18个月回本。规模效应非常明显——量越大,单卡利用率越高,成本越低。Google的训练基础设施利用率能做到60%以上,而很多中小企业的GPU利用率不到30%,差距巨大。

国产化的机会和挑战

国产算力这两年进步确实快。昇腾910B已经能对标A100,生态也在逐步完善,国内市场份额排第一。海光的DCU兼容CUDA,迁移成本低,市场接受度不错——开发者几乎不需要修改代码就能在DCU上运行已有的CUDA程序。其他几家也都在各自的细分领域找到了位置:寒武纪在推理端有一定积累,沐曦在通用计算上有特色,中芯国际等上游的制造环节也在努力追赶。

政策层面也在大力推动,政府采购倾斜、算力补贴、重大科技专项,各种支持措施都在上。"新型举国体制"在算力领域的体现是非常明显的——国家大基金也投了不少在芯片和算力基础设施上。

但挑战也不小:

  1. 先进制程受限:7nm以下的产能被卡脖子,而最新的AI加速卡普遍需要5nm甚至3nm工艺。
  2. CoWoS封装产能紧张:先进封装是HBM和GPU集成的重要环节,全球产能主要被台积电垄断,产能远远不够。
  3. HBM供应不足:高频宽内存是AI卡的标配,但HBM的核心技术被三星、SK海力士和三家垄断。
  4. 软件生态差距:CUDA护城河太深,开发者迁移成本高,模型适配工作量大。这不是短时间能追上的,可能需要三到五年甚至更长。

边缘算力的崛起

除了云端算力,还有一个值得关注的趋势是边缘算力的崛起。随着自动驾驶、工业物联网、智能家居等场景的发展,越来越多的AI推理需要在靠近数据源的"边缘"设备上进行,以减少延迟、保护隐私、节省带宽。

比如自动驾驶汽车需要在毫秒级时间内完成目标检测、路径规划,每秒钟产生海量的传感器数据,等数据传到云端再返回决策早就出车祸了,所以必须把推理能力放到车端。比如智能工厂的缺陷检测,高速产线上每秒可能拍摄几百张图片,全部上传到云端分析不现实且延迟不可接受。

边缘算力的芯片形态跟云端不同——不需要那么强的计算能力,但对功耗、体积、散热要求极高。NVIDIA 的 Jetson 系列、高通的 AI Engine、华为的昇腾、各种 RISC-V 定制芯片,都在争夺这个市场。

往后看

算力这个东西,现在越来越像电力——你不太关心电从哪来,但你离不开它。未来十年,算力大概率会变成真正的社会基础设施,像水电一样按需取用。"算力互联网"的概念已经被提出——类似电力网络,把不同时间、不同地点的算力资源通过高速网络连接起来,统一调度、按需分配。

对企业来说,算力是AI时代的核心竞争力,谁掌握了算力优势谁就能更快地迭代产品。对国家来说,算力是战略制高点——没有充足的算力储备,AI产业的发展就是无源之水。美国对中国的高端芯片禁运,本质上就是想在算力层面对中国形成抑制。

这个赛道的故事,才刚刚开始。对于从业者来说,理解算力市场的供需格局和成本结构,有助于做出更好的技术选型决策。盲目跟风地买最新的硬件未必是最合理的,有时候用更成熟的方案、通过软件层面的优化来降本,反而能获得更好的性价比。