首页 > 教程攻略 > ai资讯 >沐曦GPU与InfiniCCL开源框架完成首发适配

沐曦GPU与InfiniCCL开源框架完成首发适配

来源:互联网 时间:2026-06-05 13:28:05

先分享一个值得关注的消息。近日,九源智能计算系统生态联合体旗下的InfiniTensor团队,正式发布了InfiniCCL v0.1.0通信框架——这也是该项目的首个开源版本。值得注意的是,沐曦股份已经位列首批适配硬件厂商名单中,与这个框架完成了首发适配。

沐曦GPU与InfiniCCL开源框架完成首发适配

按照官方定位,InfiniCCL是一个统一、跨平台、面向异构AI集群的通信库。换句话说,它并不试图去替代某个特定平台已有的通信实现,而是在更高一层提供了一个统一API——基于C语言,同时统一了运行方式和异构集群编排能力。这样一来,上层框架无需再为不同硬件单独维护一套通信逻辑。这对于当前支撑大模型训练、推理的多卡、多节点算力集群场景来说,价值不言而喻。

软硬协同,突破异构算力时代的“通信瓶颈”

AI基础设施正在进入一个全新的竞争维度。过去几年,大家更多是盯着模型规模、算力规模和单机性能;但现在,主战场正在向“系统效率”和“生态效应”转移。怎么提升多卡、多节点的集群系统效率,已经成了绕不开的核心问题。

然而,长期以来,AI基础设施领域始终面临一个现实挑战:在异构算力集群的内部,不同硬件平台之间缺乏统一的通信机制。原本的情况是,开发者需要针对不同芯片、不同SDK、不同通信后端分别做适配,每次平台切换或多节点部署,背后都是巨大的工程成本。集群通信,已经成了直接影响集群系统吞吐、延迟与扩展能力的“隐形瓶颈”。

在算力异构化趋势越来越明显的今天,这个问题只会越来越突出。通信层的统一化、标准化,是AI行业必须跨过的一道基础门槛。

为了实现这个目标,InfiniCCL团队在几个核心技术上做了不少创新突破:

接口设计上,InfiniCCL没有重新发明一套通信模型,而是选择兼容现有主流GPU生态的开发习惯,提供统一的C语言API接口——这样做的好处显而易见,能大幅降低迁移门槛。

另外,它实现了底层翻跟斗硬件、通信后端、运行环境的自动感知。项目会根据环境自动启用对应的平台支持,使用者不必再为每个异构环境单独维护部署逻辑。

集群部署方面,InfiniCCL还配套了智能集群编排工具icclrun,支持通过SSH自动编排多节点,在远程节点上自动构建和部署运行环境。用一句话总结就是:它把单一的“通信库运行”升级成了一整套“异构集群自动化部署框架”。

目前,InfiniCCL v0.1.0已经实现了AllReduce、AllGather、ReduceScatter等六大核心集合通信算子,支持主流的硬件平台,并通过统一MPI抽象层兼容了OpenMPI和MPICH两大通信后端,完成了从算子到硬件、从接口到后端的全链路覆盖。

值得关注的是,在InfiniCCL v0.1.0已支持的硬件平台列表中,沐曦GPU成为首批适配的硬件平台之一。

这意味着,基于沐曦GPU构建的AI集群,可以直接通过InfiniCCL的统一接口完成多节点集合通信,享受与其他平台一致的开发体验,共享同样的通信逻辑与部署工具链。

对于正在构建异构算力基础设施的企业和开发者来说,这种首发兼容带来的工程价值非常直接:

迁移成本降低了——上层框架无需为沐曦平台单独适配通信逻辑;

多平台协同成为可能——在同一套通信抽象下,沐曦GPU可以与其他硬件平台协同参与分布式训练与推理;

新硬件接入的门槛也下降了——统一的抽象层让整个生态的扩展变得更加顺畅。

携手共建生态,打通算力落地的“最后一公里”

回顾国产芯片的发展历程,硬件性能的提升固然重要,但软件生态的完善程度,往往才是真正决定规模化落地的门槛。

一款芯片能否被主流框架、主流通信库、主流部署工具顺畅支持,直接决定了它在真实业务场景中的可用性。像InfiniCCL这样的开源统一通信库的出现,正在从基础设施层面降低国产算力硬件的适配成本,推动整个生态朝着更开放、更统一的方向演进。