首页 > 教程攻略 > ai资讯 >DeepSeekV4芯模协同背后,国产算力生态开始飞轮加速

DeepSeekV4芯模协同背后,国产算力生态开始飞轮加速

来源:互联网 时间:2026-05-29 07:45:53

DeepSeek V4的发布,引起的关注点其实很集中——不是模型本身有多惊艳,而是一个深层逻辑的转变:

国产算力生态,正从“芯片追着模型适配”的单向输出,走向“芯片和模型协同进化”的新阶段。

昇腾和不少模型团队早有合作,但V4是第一次在“大规模、高强度、工程化”这种尺度上,把“芯模协同”这件事的可行性和效率真正跑通了。

而这,恰恰是过去CUDA+英伟达体系最深的那条护城河:模型、框架、芯片,在长周期里共同演化。昇腾现在在补的,不是某一行代码,而是这十多年的时间。

不过,比模型发布更大的变化,其实发生在鲲鹏昇腾的开发者生态里。

过去一年,金融、科研、AI训练这些领域,越来越多的团队开始把核心业务往鲲鹏昇腾上迁。越来越多的开发者开始参与到底层能力建设、框架适配和社区共建中。

这些案例可能没有V4那么大的传播声量,但它们和V4一起,共同构成了鲲鹏昇腾生态最真实的变化——都在指向同一件事:鲲鹏昇腾,正在慢慢跨过“能用”这条线。

这一点,在刚结束的

鲲鹏昇腾开发者大会2026

的开发者圆桌上,被不少一线开发者反复提及。

圆桌上,中科院计算所副研究员、B站UP主

石侃

(老石谈芯),和来自不同领域的开发者团队,分享了各自在鲲鹏昇腾上的实战经验。

方向各不相同,但最后的结论,惊人地一致,都指向了这几个方向:

  • 鲲鹏、昇腾让人看到,中国自己的算力平台,已经可以成为业务首选。
  • CANN在2024年初还是幼儿期,现在已经更像青年期了。
  • 国产算力是潮流,先用起来。

CANN生态:从“能用”迈向“好用”

过去一年,鲲鹏昇腾生态经历了一轮高密度迭代。

用论坛上陈秋武老师的话说,CANN以前是幼儿期,现在算是青年期了。

所谓“青年期”,不是说生态已经成熟,而是指

开发者开始脱离“厂商保姆式支持”,能自己解决问题、贡献代码、推动迭代

目前,65个源码仓已完成分层解耦,超节点架构正式落地,70余款主流大模型做到了“发布即适配”。

对很多开发者来说,CANN正在从一个“厂商工具链”,变成一个真正可参与、可共创的开源生态。

上个月DeepSeek V4发布时的“芯模协同”,就是这轮变化最集中的一次展示。

而在圆桌上,开发者们的反馈则更直接:在鲲鹏昇腾上干活的体感,确实变了。

变在哪?圆桌上大家指向了三件事:

适配效率

性能天花板

生产级信任

适配效率:从“荒漠”到“绿洲”

芯片决定的是算力上限,生态决定的,才是算力能不能真正被释放。

没有生态,再强的硬件也只是个“能点亮”的摆设。开发者依然会卡在算子不支持、框架迁移困难、集群调度复杂这些细节里。

这也是此前很多开发者不愿迁移、或者“迁不动”的原因。

但这件事,正在发生变化。

AIGCode分享了他们加入昇腾生态的原因。创始人陈秋武在圆桌上没藏着掖着:说实话,一开始是因为穷。2024年初没有卡,我们是创业小公司。

用起来之后,变化来得比预想快

早期在昇腾上做MoE预训练,适配自研网络结构,给华&为提工单,排期需要

三到四个月

到了下一代,同样的问题,自己动手就能解决,不用再排队等着了。

更让陈秋武感到吃惊的,是CANN生态补齐的速度。

他回忆,2024年初团队第一次在昇腾硬件上做7B级预训练时,整个生态“几乎是一片荒漠”,很多基础能力都还缺着。

但仅仅过了8个月,再回头看,整个CANN生态的覆盖率已经做到了80%到90%。

从“很多东西都没有”,到主流能力基本补齐,速度快得让人意外。

类似的变化,也出现在其他团队身上。

清华的王一鸣把气象模型迁移到鲲鹏,Load几个库就能跑基线版本。他说:开源以后,我们能更充分地学习业界的优秀实践,在此基础上进行适配和优化,也能将一些好的经验应用到自己的项目中。

中科大团队迁移高性能计算求解器到鲲鹏,

编译层面不到一周就搞定了

团队的陈俊仕说,碰到的问题更多是编译器版本、环境配置这类工程细节,跟架构本身关系不大。

这其实是一个很重要的信号。

四个团队,四种完全不同的场景,呈现出的趋势是一样的:开发过程中遇到的问题,已经不再依赖厂商的“贴身服务”了。

这意味着,国产算力最难的阶段,可能已经过去了。

性能天花板:一张卡顶两张用

适配只是第一步。真正决定开发者会不会留下来的,还是性能。

AIGCode在昇腾上,把MoE模型预训练的MFU(算力利用率)做到了65%。这个数字,已经接近行业平均水平的两倍。

换句话说,同样一张卡,真正干活的“有效时间”更多了。

陈秋武在圆桌上的说法很直接:一张卡,能顶两张用。

而支撑这一效率的关键之一,是昇腾超节点。

预训练进入“千卡时代”后,真正的瓶颈不再是单卡性能,而是大规模集群下的通信与调度效率。

昇腾超节点通过统一内存编址和高速互联,把原本复杂的异构通信抽象化,大幅降低了大规模训练的系统复杂度。

AIGCode能做到65%的MFU,背后一个重要支撑就在这里。

开源降低了底层开发门槛,同构架构减少了迁移复杂度,而超节点则解决了大规模扩展的问题。它把通信与计算之间的并行掩盖做得更深,让流水线尽可能保持满载运行,大幅减少了设备间的等待和空耗。

最终,在千卡级集群场景下,整体负载率被拉到很高,用相对有限的算力,完成了更多有效计算。

另一边,中科大团队基于鲲鹏研发了面向高性能计算的新型LU求解器。

LU分解是最基础的矩阵操作,几乎所有涉及矩阵的科学计算都离不开它。优化LU分解,就是在底层优化所有科学计算问题。

通过算法与硬件协同设计,他们把原本不规则的计算重构为规则稠密计算,优化后求解器相比传统方法实现平均40多倍加速,部分场景接近200倍。

65%、40倍、200倍……几个看似分散的数据背后,指向同一件事:鲲鹏昇腾正在从“能跑”走向“好用”,生产级能力开始成型。

生产级信任:拿核心业务“反赌”

比性能更难跨越的,其实是信任。

这次,一家头部股份制银&行,已经把AI直接推进了核心风控流程。大模型与小模型混合架构,开始介入资金流转和风险决策。

现场公布的数据也很硬:首Token响应500毫秒、日均260亿Token、可用性99.999%、全年故障时间不超过1分钟,四项金融级指标全部达标。

但比这些指标更重要的,是他们开始愿意把核心业务真正放上去了。

背后的关键变化之一,是CANN开源之后,整个系统终于不再是“黑盒”。

开发者不再只能“提需求、等适配”,而是可以真正参与到底层能力建设里。甚至连金融行业这类传统“非算子开发者”,也开始向社区贡献特性。

郑老师在现场提到一句很关键的话:开源之后,小问题我们自己随时能修,大问题可以和社区一起讨论。对整个方案更有把握,而不是在用一个黑盒子。

对很多企业来说,性能从来不是唯一门槛。真正决定他们敢不敢上生产环境的,是系统是否“可见、可控、可维护”。

打造开源开放的开发者生态

开发者的这些体感变化不是凭空而来的,背后是华&为在开源开放上的一次关键选择。

去年8月,CANN启动全面开源;12月底,编译器、运行时等核心代码全量上线。

过去,开发者遇到问题,很多时候只能提工单、等版本更新。

而开源之后,运行时、算子编译等核心模块逐步解耦,开发者开始能真正参与到底层迭代里。

AIGCode从“排队三个月”到“自己动手解决”,背后的变化就在这里。

股份制银&行这类“非典型”算力开发者愿意参与的原因,也在这里。

更关键的是,CANN开始逐步兼容主流AI生态。70余款主流大模型做到了“发布即适配”,开发者不用改变原有开发习惯,就能直接调用昇腾的硬件能力。

这正如会上石侃所谈到的:向上,兼容主流计算框架;向下,屏蔽硬件的复杂度和差异性。

而这种兼容的背后,是CANN在底层做了大量重构——提供丰富的算子库、敏捷的开发工具链,以及全方位的开发者支持,大幅降低了算力使用门槛。

当然,生态不能只靠一方使劲。开发者每一次正向反馈、每一个优化结果、每一个创新应用,都能通过昇腾和华&为的生态快速走向产业界,形成技术、商业、生态的完整闭环。

还有个有趣的细节是,Agent也在降低生态的门槛。陈秋武提到:过去很多重复性的适配工作,现在已经开始被Agent自动完成。生成代码、给出示例、自动搭建环境,很多过去需要啃文档的流程,被压缩到了半小时以内。

工具链在变化,开发方式本身也在变化。

飞轮转起来了

说到底,比性能和适配更重要的变化,可能是生态的“方向”开始变了。

在鲲鹏昇腾社区里,开发者不再只是“被动适配”,而是开始“主动贡献”。

圆桌上,某头部股份制银&行分享,其已经向多个社区累计贡献上百个特性,其中仅向vLLM-Ascend就贡献了34项优化,而且不限于金融场景,全行业都能复用。

作为较早投入昇腾生态的创业团队,AIGCode则从2024年起便持续参与社区共建,并贡献了不少核心代码。

一家十几人的创业公司,愿意长期往别人的生态里投入研发资源,背后的逻辑其实很简单:他们开始相信,这条路会成为主流。而这些贡献,又反过来加速了整个生态的闭环。

硬件托住模型,模型落进产品,产品再反哺生态。

AIGCode在昇腾上做出65%的预训练效率后,很快推出了自己的智能编程工具,用户只需要输入提示词,15分钟就能生成一套完整系统。

清华则联合其他高校和科研单位在鲲鹏上跑出了“戈登贝尔”级别的科研成果。

这条闭环,已经不局限于来分享的几个明星团队。今年2月,智谱GLM-5开源,昇腾完成Day 0适配;4月,DeepSeek V4发布,不仅是Day 0适配,更是更深入的“芯模协同”。

截至目前,鲲鹏开发者已经超过

415万

,昇腾开发者超过

410万

,openEuler装机量超过

1600万套

数字当然重要,但比数字更值得关注的,是生态开始出现“自增长”。

当创业公司开始主动贡献代码,当银&行愿意把核心风控放上去,当高校开始把关键科研项目跑在上面,飞轮就已经不再只靠华&为一家推动了。

当被问及用昇腾一年多最大的感受时,陈秋武提到:参与进来的,已经不只是科技公司了。

高校、金融、AI大模型行业……越来越多不同领域的团队,都开始进入这个生态,从用户变成生态贡献者。这些“非典型”开发者的加入,是国产算力走向“易用好用”最直观的信号。

而中科大的陈俊仕,则给了现场开发者一句非常直接的建议:赶紧用。

从“能跑”到“有人长期建设”,从“厂商推动”到“生态自增长”,华&为算力生态,正在进入一个全新的阶段——一个成熟的国产算力生态,正在成型。