本文作者:adminddos

更大更强的“超节点”,国产算力厂商正追赶竞争对手“上牌桌” | WAIC观察

adminddos 2025-07-28 13:25:20 1
更大更强的“超节点”,国产算力厂商正追赶竞争对手“上牌桌” | WAIC观察摘要: ...

界面新闻记者 | 李彪

界面新闻编辑 | 文姝琪

384张昇腾AI加速卡,48台服务器,12个计算柜、 4 个总线柜组成的16个机柜,华为昇腾384超节点真机这一座“庞然大物”吸引了许多参观者驻足。

在今年世界人工智能大会上,华为包下了全场最大的800平方米展台,将500多平方米都给了昇腾业务,并首次对外线下展示昇腾384超节点真机。

昇腾384超节点真机 图源:界面新闻记者拍摄

超节点(Super Pod)最早是由英伟达提出的“超级算力集群”概念,简单理解是将一台或几台高性能AI服务器作为一个“节点”,通过高速互联网络技术将多个节点“连接”成一整个规模更大、性能更强的“超级计算节点”,专门用来应对消耗算力最多、最复杂的AI大模型计算任务。

华为展台现场工作人员向界面新闻记者介绍,连接的“节点”越多,规模越大,越考验厂商的技术水平,超节点目前就代表了算力芯片厂商最强的技术资源储备。昇腾384节点已经实现了业界最大规模的384张昇腾NPU AI算力卡高速总线互联,具备超大带宽、超低时延、超强性能三大优势,可用于AI大模型的训练与推理。国央企、运营商、金融、互联网行业的企业客户可以通过华为云配套的CloudMatrix 384订购超节点的算力服务。

一位华为昇腾AI云的技术人员告诉界面新闻,昇腾384超节点目前已经可以用于支持国内建设万张算力卡、十万张算力卡的AI算力数据中心。据官方宣传,CloudMatrix 384单集群算力已经达到300 PFlops,性能规模已与英伟达最新的超节点NVL72大致相当(NVL72是将72张英伟达Blackwell 200GPU连接在一起的超节点,性能对比采用业内标准的F16半精度浮点数标准衡量)。

由于AI算力需求的极速膨胀,万卡从去年开始一直是国产算力厂商满足算力供给的第一道门槛,国产芯片厂商寒武纪、昆仑芯、燧原科技、摩尔线程、沐曦、壁仞都在冲刺这一目标。至于十万卡,市场的主流选项主要是英伟达产品,国产厂商还缺乏存在感。

为追赶竞争对手“上牌桌”,不只昇腾,其他参展的国产芯片厂商也都公布了自家的超节点相关产品。

沐曦在展台上展出的是与合作方联合发布的超节点产品耀龙S8000 G2。这一超节点连接了64张沐曦的曦云C550通用GPU ,支持的也是超大规模算力中心的建设。

沐曦耀龙S8000G2超节点;图源:界面新闻记者拍摄
沐曦联合打造的国产高密度机柜“Shang Hai Cube”部署了128块曦云C550GPU;图源:界面新闻记者拍摄

摩尔线程则展出了旗下的KUAE夸娥集群系统。据展台人员介绍,该款集群系统也可用于提供万卡级别的计算能力,并适配DeepSeek、通义千问Qwen、Meta LLaMA等多个主流AI大模型。

“业内最难做的一种工厂就是芯片工厂,芯片工厂叫Foundary。建立这个大型基础设施的难度就好比建Foundary一样,所以我称之为‘AI Foundary’。”摩尔线程CEO张建中在大会期间的一次技术分享会上用芯片行业建晶圆厂类比"AI工厂”:AI Foundary的核心关键就是算力芯片,除此之外,网络拓扑、片间互联、卡与卡之间的互联、节点与节点之间的互联,再加上整个大集群的管理、效率、方法,都决定了AI Foundary的能力。

除了建设更大、更强的超节点集群外,在人工智能大会期间,燧原、沐曦在27日同天发布了最新一代AI芯片。沐曦推出了曦云C600通用GPU,燧原推出了通推一体L600AI芯片。按照定位,两家公司的新品都可用于支持大模型训练与推理。

本月月初,英伟达获美国批准将恢复今年5月遭禁的H20 GPU在中国重启销售,外界也在热议这一变化对国产AI芯片行业的影响。

一位国产AI芯片厂商展商告诉界面新闻记者,英伟达H20 GPU在被禁前在国内市场已经具备了相当规模,其生态优势和产品竞争力在业内有目共睹。解禁之后,摆在整个国产AI芯片行业所要面对的未来都是一样的,就是“直面与H20的竞争”。

燧原科技联合创始人、COO张亚林在新品发布会上向媒体介绍,公司新推出的L600芯片对标英伟达H20 GPU,且算力性能已经大幅超越了后者,未来将用于支持万卡、十万卡超大算力集群中心的建设。

阅读
分享