ASIC 与 GPU 的本质区别在于通用性。市场常将二者视为不同技术路径,但技术上二者架构相似,都包括计算核心、存储单元和 I/O 接口。在 AI 大模型时代,随着模型演变和应用扩展,GPU 与 ASIC 界限渐趋模糊。
商业上,ASIC 是专用芯片,为下游特定场景(如训练、文本推理、视频/音频推理)定制,与客户应用高度绑定。GPU 则是通用芯片,需兼容多场景,包括图像渲染,因此华为昇腾 NPU 或寒武纪 AI 芯片也可视为通用型。
ASIC 优势在于特定场景的高效与低功耗。GPU 基于冯诺依曼架构,运算需频繁寄存器交换,对存储需求高,且保留图形渲染等闲置模块;ASIC 如谷歌 TPU、AWS Trainium2 采用脉动阵列架构,专为矩阵运算设计,结果直接传递,减少数据交互,提高效率。
谷歌 TPU v5 测试显示,能效比为英伟达 H200 的 1.46 倍;在 BERT 推理中,每瓦性能提升 3.2 倍。优势源于三点:3D 堆叠优化算力密度、DVFS 降低闲置功耗、HBM3e 内存突破带宽瓶颈(达 1.2TB/s)。
ASIC 单位算力成本更低。亚马逊 Trainium2 训练成本降 40%,推理降 55%;10 万卡集群可节省 12 亿美元初始投资。
大厂自研 ASIC 原因:1)应对内部 AI 需求爆发,如谷歌早期语音识别、AlphaGo 等需优化能效与 TCO。2)减少外部依赖。3)软硬件协同,如 TPU 整合 TensorFlow,实现极致性能。
自研投入包括:1)设计团队收购(亚马逊 2015 年 3.5 亿美元买 Annapurna Labs,费用约 3-5 亿美元)。2)外部服务商(如博通、Marvell)NRE 与量产费,单芯片售价低于英伟达/AMD。3)IP 采购(如 IO、Serdes),占比小。
起量后摊薄成本:谷歌 2023 年 TPU 超 200 万颗,年研发 20 亿美元,单颗摊 1000 美元。
外购成本更高,因含厂商利润:英伟达FY2025 毛利率 75.5%、净利率 57%,数据中心芯片收入 1022 亿美元,利润约 582 亿美元,够养研发团队。
AI 渗透率持续上升,推动推理需求增长。对于大型科技公司而言,AI 芯片主要用于两大领域:1)大模型训练,性能至关重要,因为它直接影响模型质量,从而决定用户吸引力,因此训练端通常选用最佳芯片(如当前主流的英伟达);2)AI 应用推理及云服务出租,对应推理场景,更注重高吞吐和低成本,AI ASIC 在此能发挥优势。
推理收入/秒 = (价格/token) × (吞吐量, tokens/秒)。在一定时期内,价格/token 相对固定,因此吞吐量越高,公司收入越多。市场上有公开的“推理服务”定价,如OpenAI、Anthropic、Google 通过 API 提供 LLM 服务,通常按“美元/每百万 tokens”计费,由于竞争,厂商间价格差距不大。
硬件性能决定了生成速度,一个 AI 芯片的效能直接体现在处理模型时每秒产生多少 tokens,即吞吐量。性能更强的芯片,tokens 生成越快。
因此,当模型能力提升到较高水平,推理规模扩大,Token 消耗快速增长,对 ASIC 等低成本高效率芯片的需求随之上升。
AI ASIC 设计与制造涉及多个产业链环节:1)前端,云厂商设计团队定义需求,芯片架构和逻辑设计依赖专业团队,可能内部或外包。2)后端,云厂商芯片设计能力有限,通常无法独立完成,因此寻求设计服务商合作。定制芯片主要包括计算、存储、网络 IO 和封装四部分 IP。服务商不负责计算架构设计,仅提供设计流程和性能优化。
全球主要 ASIC 设计服务商包括博通、Marvell、AIchip、GUC,以及国内的芯原股份、翱捷科技、灿芯股份。其中博通和 Marvell 份额最大,提供存储、网络 IO 和封装的完整 IP 解决方案。因此,海外谷歌、亚马逊、Meta、微软、xAI 等自研 AI ASIC 时,多选择与两者合作。
谷歌是海外首家自研 ASIC 的云厂商。在其带动下,2016-2020 年,云服务提供商纷纷启动自研。当时北美企业加速上云,云厂商意识到外采芯片成本高,开始自研。2016 年谷歌发布 TPU v1,2018 年亚马逊 Inferentia 发布,2019 年微软启动 Maia 研发,2020 年 Meta 启动 MTIA 研发。
谷歌 2016 年推出 TPU v1,其简化专用架构在能效上远超同期 CPU 和 GPU,并在 AlphaGo 等项目中验证性能,证明 AI ASIC 可行性。随着 AI 训练算力需求增长,TPU 转向系统级方案。2017 年 TPU v2 支持训练,引入 BF16 格式和高带宽内存 (HBM),并通过高速网络互联 256 颗芯片,形成首个 TPU Pod 集群。TPU v3 扩大计算核心,采用液冷散热,提升性能。TPU v4 引入光学电路交换 (OCS),动态重构 Pod 网络,提高容错和效率。到 v5 和 v6 (Trillium),产品线分化为性能型 p 系列和能效型 e 系列,适应不同场景。
谷歌 TPU 近 10 年设计量产经验,其迭代和商业成功源于:1)架构创新,放弃通用设计,采用脉动阵列专为矩阵乘法和卷积优化。2)系统级思维,从 v2 起,用高速互联将数千芯片连成 TPU Pod 超级计算机。3)与博通合作,谷歌定义需求和架构,博通提供设计实现和制造支持,降低风险和成本,加速市场化。
在 AI 推理时代,自研 ASIC 要求更高,包括产品性能和迭代速度。设计服务商选择影响关键因素。2025 年全球最大服务商博通进入定制 ASIC 加速期,2024 年 AI ASIC 收入 122 亿美元,2025 前三季 137 亿美元。
定制 AI 芯片 (XPU) 架构由客户决定,服务商提供设计流程和优化。博通收入增长源于谷歌 TPU 起量和新客户导入。其持续获单核心原因:
1)完整 IP 体系。博通提前投资,2024 年底投 30 亿美元,积累 21000 专利,包括 CPU/DSP、交换、互连、存储接口等 IP,降低成本、周期和联合风险。
2)为谷歌定制多代 TPU 的设计流程、优化和经验。量产经验关键,首款研发长,后续 1-1.5 年迭代,发布后 1 年量产。谷歌 2013 启动,2016 发布 v1,2017 量产,后迭代至 2025 年第七代。
3)3D/3.5D SOIC 技术,与台积电合作。2024 年底推出 3.5D XDSiP,业界首款 F2F 封装,支持 6000mm² 3D 硅片和 12 HBM 模块,2026 年首款产品。采用 bumpless HCB,将逻辑芯片堆叠,信号连接增 7 倍、路径缩短、功耗降 90%,减少延迟、尺寸和成本,提高灵活性。博通与台积电紧密合作,结合先进工艺和设计。
完整能力和合作基础带来高转换成本。芯片设计连贯,除非产品难产或性能落后,否则客户不易切换,赛道壁垒高。
AI 云市场格局集中,头部云厂规模效应显现,推动 ASIC 需求。根据 Omdia《2025H1 中国 AI 云市场》,阿里云占比 35.8%、火山引擎 14.8%、华为云 13.1%、腾讯云 7%、百度云 6.1%,CR5 超 75%。集中化格局下,头部云厂 AI 推理算力需求大,促进 ASIC 投入。
头部云厂动作验证 ASIC 需求。前五云厂阿里、字节(火山引擎)、华为、腾讯、百度均有自研 AI ASIC。本轮 AI 浪潮中,算法竞争先起,算力作为成本要素跟进。目前国内互联网大厂均布局 AI 芯片,百度、阿里进度领先。
百度:国内最早自研 AI ASIC 大厂之一,昆仑芯+百舸平台形成生态。2018 年推出昆仑芯一代,2020 年量产,在搜索引擎、小度等部署数万片;现迭代至第三代 P800,与百舸平台协同,在模型适配、组网、算子优化等领域具优势。
已具万卡集群和超节点能力,组网领先。2025 年 4 月 Create 2025 大会上,P800 三万卡集群点亮,为金融、教育、央国企提供服务。万卡集群证明 Scale-out 能力,为训练场景奠基。另推出单柜 64 卡超节点,验证 Scale-up 互联工程能力。组网是 ASIC 替代通用芯片关键,昆仑芯领先。
中标 10 亿大单,证明生态外用能力。2025 年 8 月 22 日,中标中国移动 2025-2026 年 AI 通用计算设备(推理型)集采。在“类 CUDA 生态”标段,基于昆仑芯的服务器份额第一,中标包 1 和 2 占 70%,标包 3 全中,总额超 10 亿元。
阿里:平头哥构建自研芯片矩阵。2018 年收购中天微,与达摩院整合成立平头哥。2019 年推出含光 800 AI 推理芯片;2020 年 6 月,云服务器搭载含光 800 商业化,用于图像搜索、场景识别、视频识别、自然语言处理等。现形成云端倚天 710、含光 800、镇岳 510 SSD 主控,端侧羽阵 RFID 的矩阵。
平头哥 PPU 关键指标超 A800,已签大订单。根据央视,PPU 显存 96GB、片间互联带宽 700GB/s,超英伟达 A800、接近 H20;HBM 是推理关键。信创头条报道,阿里云在中国联通三江源绿电智算项目签 1024 台设备(16384 张卡),为最大订单。
字节:自研训练+推理芯片。2024 年为英伟达 GPU 第二大采购者,同时验证多款国产芯片。2020 年启动自研;2022 年至少启动 AI 芯片、FPGA NIC、服务器芯片、RISC-V 芯片 4 项目,覆盖 AI 和云核心。预计训练和推理芯片 2026 年前量产。
国内互联网大厂自研 ASIC 已到拐点,供给需求共振。供给端,国产 AI 芯片产业链从设计到制造初步成熟,设计服务商赋能研发;需求端,海外证明自研可行性,模型提升能力下,ASIC 降本增效、稳定供应链,国产 ASIC 即将放量。
国产 ASIC 服务商迎来战略机遇。主要参与者芯原股份、翱捷科技、灿芯股份。
翱捷科技:第一大股东阿里巴巴,ASIC 订单充足。2025 上半年芯片定制及 IP 授权服务约 1.44 亿元,交付周期 1.5 年。从 2H24 起,ASIC 市场扩大,公司布局智能穿戴/眼镜、端侧 AI、RISC-V,在手订单足。针对海外算力限制,通过创新架构为系统厂商提供合规 ASIC,已接多项头部订单。
灿芯股份:第一大股东中芯国际,持股 14.23%。提供芯片定制设计和量产,覆盖物联网、工业控制、消费电子、网络通信、汽车电子、智慧城市。与中芯战略合作,依托先进工艺。围绕 28nm 平台,集成 AI ISP、大小核 CPU、NOC 总线,优化 PCIe、DDR、SerDes 等高速接口,适配 AI 推理和车载视频传输。
SerDes 影响通信效率,是 AI 关键瓶颈。SerDes 用于 Die-to-Die、芯片间 (Scale-up)、网络设备 (Scale-out),对应数据中心、智能驾驶。在 AI 时代,通信效率成训练/推理核心制约,高带宽低时延通信关键,SerDes 是重要组件。
海外领先,国产加速追赶。海外 Intel、Cadence、Synopsys、Alphawave 等推出 224Gbps 产品;国内高速 SerDes IP 初期,量产主在 56Gbps 及以下。表7 显示国内各 SerDes IP 布局进度,包括芯潮流、晟联科、集益威、芯耀辉、牛芯等厂商进度。