国联民生:超节点助力计算效率提升 国产算力或迎“弯道超车”机遇
智通财经APP获悉,国联民生证券发布研报称,AI Agent时代Token需求的非线性增长,或直接带来超预期的AI算力需求,而超节点有望成为AI算力发展的重要趋势;国产超节点目前快速发展,有望成为国产算力实现“弯道超车”的重要机遇。建议重点关注:1)国产超节点龙头:浪潮信息(000977.SZ)、中科曙光(603019.SH)等;2)华为超节点产业链:软通动力(301236.SZ)、神州数码(000034.SZ)、中国长城(000066.SZ)、慧博云通(301316.SZ)、拓维信息(002261.SZ)等;3)国产AI芯片/CPU:寒武纪(688256.SH)、海光信息(688041.SH)、中国长城、云天励飞(688343.SH)、龙芯中科(688047.SH)等;4)云计算:金山云(03896)、网宿科技(300017.SZ)、优刻得(688158.SH)、青云科技(688316.SH)等。
国联民生证券主要观点如下:
AI发展推动算力架构革新,超节点助力计算效率提升
AI发展推动算力架构革新:AI算力与传统数据中心的计算方式有所区别,它是持续在线的智能生产系统,核心性能取决于推理、上下文处理与数据移动效率,而非仅服务器峰值算力。AI工作负载需在超长上下文中执行多步骤推理,对平台全层级能力形成压力,微小效率损耗在数万亿token规模下会严重影响成本、吞吐量与竞争力。AI计算的进步可以由三大扩展定律来体现:预训练扩展让模型学习固有知识,后训练扩展通过微调与增强学习赋予模型思考能力,测试时扩展则在推理中通过生成更多token实现深度推理。
大模型自回归推理存在Prefill(计算密集)与Decode(内存带宽密集)两种资源需求冲突的阶段,超节点可以成为实现P/D分离的重要支撑,因此有望成为下一代AI算力架构的核心形态。在Decode阶段,决定性能的关键因素不再是GPU的峰值算力,而是其在单位时间内能够从显存中读取或写入数据的总量。这一性能直接影响着用户的另一个核心体验指标,即单字生成延迟,它决定了后续文本生成的流畅度,进而P/D分离架构应运而生,新型的超节点服务器架构实现高效物理分离,凭借强大的内部互连网络,在内部进行P/D任务的划分。同时,在互联协议端,技术的进步可以更有效实现物理带宽能力的释放。以中国移动推动的OISA协议为例,新一代互联技术已经超越了单纯“数据管道”的角色,正在向系统管理中的主动参与者演进。
以英伟达NVIDIA Rubin平台为例,极限协同设计是Rubin平台的基础。GPU、CPU、网络、安全、软件、供电和冷却均作为一个整体系统协同构建,而非各自独立优化。通过这种方式,Rubin平台将整个数据中心(而非单个GPU服务器)视为计算单元。这一方法为高效、安全且可预测的大规模智能生成奠定了全新基础,确保性能与效率在实际生产部署中得以持续保持,而不仅仅体现在孤立组件的基准测试中。
Rubin 平台的旗舰产品是Vera Rubin NVL72机架级系统,其设计使整个机架在更大的AI工厂中作为一个协调一致的机器运行。NVL72系统不仅针对峰值性能进行优化,更注重持续的智能生产:具备可预测的延迟、异构执行阶段的高利用率,以及将功率高效转化为可用智能的能力。
Rubin 平台由六个新芯片构建而成,每个芯片均针对 AI 工厂中的特定角色而设计,并从一开始就旨在作为统一机架级系统的一部分协同运行。
1)NVIDIA Vera CPU: 88 个NVIDIA定制设计的OLYMPUS核心,专为全面兼容Arm的新一代 AI 工厂优化。
2)NVIDIA Rubin GPU: 搭载HBM4与全新的NVIDIA Transformer引擎,实现高性能AI计算。
3)NVIDIA NVLink 6交换机: 第六代纵向扩展网络,提供高达3.6 TB/s的GPU到GPU带宽。
4)NVIDIA ConnectX-9: 面向端点的高吞吐量、低延迟网络接口,支持大规模横向扩展AI应用。
5)NVIDIA BlueField-4 数据处理器 (DPU): 采用双裸片封装,集成以下组件:基于64核NVIDIA Grace CPU,用于基础设施卸载与安全处理。内置NVIDIA ConnectX-9高速网络芯片,实现高效紧密的数据传输。
6)NVIDIA Spectrum-6以太网交换机: 采用光电一体封装技术,提升横向扩展连接的效率与可靠性。
国产超节点加速发展,有望成为国产算力“弯道超车”的重要机遇
浪潮信息:元脑SD200超节点是当前国内大模型推理性能最强的本土AI超节点产品之一。元脑SD200超节点搭载64张本土AI芯片运行DeepSeek R1 671B大模型时,在输入长度4096、输出长度1024的场景下,单用户token生成速度达112 tokens/s,单token生成时延低至8.9ms,是国内首个突破10ms大关的本土超节点产品,大模型推理端到端体验领先行业。
实现硬件架构原生创新:自研多主机低延迟内存语义通信架构,采用3D Mesh高性能互连超扩展系统,支持64张本土AI芯片高密度扩展,整机最大显存4TB、系统内存64TB。创新三层精简互连协议,报文有效数据利用率超96%,物理层误码率低至10⁻¹²;首创交换域全局统一显存编址并研发影子设备技术,实现跨主机GPU P2P直接访问。
通信能力优化,强化GPU交互能力。1)精简互联协议:采用事务层-数据链路层-物理层三层精简互连协议,事务层天然支持Load/Store内存语义;数据链路层支持基于信用的流控机制和链路级错误重传保障;物理层建立10⁻¹²低误码率的高可靠物理通道,报文有效数据利用率达成96%以上。2)全局统一编址:为解决跨主机域通信难题,设计独立于主机域的交换域全局地址空间,将多个独立主机域下的GPU在交换域进行统一的显存编址,为GPU互访提供基础保障。3)全局地址映射与数据路由:创新研发影子设备技术,通过影子设备将远端GPU映射到本地主机域,实现所有独立主机对全局GPU的显存访问,通过端口高效转发技术实现跨主机P2P访问。
中科曙光:全场景覆盖产品矩阵,开放生态助力国产算力前行。中科曙光推出世界首个无线缆箱式超节点scaleX40。scaleX40采用正交无线缆一级互连架构,实现计算节点与交换节点直接对插,从根源上消除线缆带来的性能损耗与运维风险。
scaleX40单节点集成40张GPU,总算力超过28PFLOPS (FP8精度),HBM总显存超过5TB,访存总带宽超过80TB/s,形成高密度算力单元,满足万亿参数大模型的训练与推理需求。
部署层面,产品采用标准19英寸箱式设计,实现算力单元与机柜解耦,部署周期从数月级大幅缩短至数小时,交付效率显著提升;系统可靠性达99.99%,高密场景信号损耗与整体能耗同步优化,长期运维成本有效下降。
华为昇腾:从384超节点到万卡集群,国产算力龙头打造坚实计算底座。
Atlas 900 AI超节点:搭载384颗Ascend 910C AI芯片,FP8精度总算力达300PFLOPS,采用自研灵衢1.0全光互联协议,是当前国内智算中心建设、行业大模型训练场景的主流落地算力产品。
Atlas 950 AI超节点:面向万亿参数大模型训练推理场景打造的万卡级旗舰超节点,搭载8192颗Ascend 950DT AI芯片,FP8精度总算力达8EFLOPS、FP4精度达16EFLOPS,总显存容量1152TB;互联架构升级到灵衢2.0协议,总互联带宽达16.3 PB/s。
Atlas 960 AI超节点:面向AGI场景打造的超大规模旗舰超节点,搭载15488颗Ascend 960 AI芯片,FP8精度总算力达30EFLOPS、FP4精度达60EFLOPS,总显存容量4460TB;沿用灵衢2.0互联协议,总互联带宽升级到34PB/s;可组成最大百万卡级的SuperCluster集群,FP8总算力达2ZFLOPS、FP4算力达4ZFLOPS。
TaiShan 950通用计算超节点:面向金融、政务等通用计算场景推出的超节点产品,最大支持32颗Kunpeng 950通用处理器,系统内存最大48TB,支持内存/SSD/DPU池化。