首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >DeepSeekV4芯模协同背后，国产算力生态开始飞轮加速

DeepSeekV4芯模协同背后，国产算力生态开始飞轮加速

来源：互联网时间：2026-05-29 07:45:53

DeepSeek V4的发布，引起的关注点其实很集中——不是模型本身有多惊艳，而是一个深层逻辑的转变：

国产算力生态，正从“芯片追着模型适配”的单向输出，走向“芯片和模型协同进化”的新阶段。

昇腾和不少模型团队早有合作，但V4是第一次在“大规模、高强度、工程化”这种尺度上，把“芯模协同”这件事的可行性和效率真正跑通了。

而这，恰恰是过去CUDA+英伟达体系最深的那条护城河：模型、框架、芯片，在长周期里共同演化。昇腾现在在补的，不是某一行代码，而是这十多年的时间。

不过，比模型发布更大的变化，其实发生在鲲鹏昇腾的开发者生态里。

过去一年，金融、科研、AI训练这些领域，越来越多的团队开始把核心业务往鲲鹏昇腾上迁。越来越多的开发者开始参与到底层能力建设、框架适配和社区共建中。

这些案例可能没有V4那么大的传播声量，但它们和V4一起，共同构成了鲲鹏昇腾生态最真实的变化——都在指向同一件事：鲲鹏昇腾，正在慢慢跨过“能用”这条线。

这一点，在刚结束的

鲲鹏昇腾开发者大会2026

的开发者圆桌上，被不少一线开发者反复提及。

圆桌上，中科院计算所副研究员、B站UP主

石侃

（老石谈芯），和来自不同领域的开发者团队，分享了各自在鲲鹏昇腾上的实战经验。

方向各不相同，但最后的结论，惊人地一致，都指向了这几个方向：

鲲鹏、昇腾让人看到，中国自己的算力平台，已经可以成为业务首选。
CANN在2024年初还是幼儿期，现在已经更像青年期了。
国产算力是潮流，先用起来。

CANN生态：从“能用”迈向“好用”

过去一年，鲲鹏昇腾生态经历了一轮高密度迭代。

用论坛上陈秋武老师的话说，CANN以前是幼儿期，现在算是青年期了。

所谓“青年期”，不是说生态已经成熟，而是指

开发者开始脱离“厂商保姆式支持”，能自己解决问题、贡献代码、推动迭代

。

目前，65个源码仓已完成分层解耦，超节点架构正式落地，70余款主流大模型做到了“发布即适配”。

对很多开发者来说，CANN正在从一个“厂商工具链”，变成一个真正可参与、可共创的开源生态。

上个月DeepSeek V4发布时的“芯模协同”，就是这轮变化最集中的一次展示。

而在圆桌上，开发者们的反馈则更直接：在鲲鹏昇腾上干活的体感，确实变了。

变在哪？圆桌上大家指向了三件事：

适配效率

、

性能天花板

、

生产级信任

。

适配效率：从“荒漠”到“绿洲”

芯片决定的是算力上限，生态决定的，才是算力能不能真正被释放。

没有生态，再强的硬件也只是个“能点亮”的摆设。开发者依然会卡在算子不支持、框架迁移困难、集群调度复杂这些细节里。

这也是此前很多开发者不愿迁移、或者“迁不动”的原因。

但这件事，正在发生变化。

AIGCode分享了他们加入昇腾生态的原因。创始人陈秋武在圆桌上没藏着掖着：说实话，一开始是因为穷。2024年初没有卡，我们是创业小公司。

但

用起来之后，变化来得比预想快

。

早期在昇腾上做MoE预训练，适配自研网络结构，给华&为提工单，排期需要

三到四个月

。

到了下一代，同样的问题，自己动手就能解决，不用再排队等着了。

更让陈秋武感到吃惊的，是CANN生态补齐的速度。

他回忆，2024年初团队第一次在昇腾硬件上做7B级预训练时，整个生态“几乎是一片荒漠”，很多基础能力都还缺着。

但仅仅过了8个月，再回头看，整个CANN生态的覆盖率已经做到了80%到90%。

从“很多东西都没有”，到主流能力基本补齐，速度快得让人意外。

类似的变化，也出现在其他团队身上。

清华的王一鸣把气象模型迁移到鲲鹏，Load几个库就能跑基线版本。他说：开源以后，我们能更充分地学习业界的优秀实践，在此基础上进行适配和优化，也能将一些好的经验应用到自己的项目中。

中科大团队迁移高性能计算求解器到鲲鹏，

编译层面不到一周就搞定了

。

团队的陈俊仕说，碰到的问题更多是编译器版本、环境配置这类工程细节，跟架构本身关系不大。

这其实是一个很重要的信号。

四个团队，四种完全不同的场景，呈现出的趋势是一样的：开发过程中遇到的问题，已经不再依赖厂商的“贴身服务”了。

这意味着，国产算力最难的阶段，可能已经过去了。

性能天花板：一张卡顶两张用

适配只是第一步。真正决定开发者会不会留下来的，还是性能。

AIGCode在昇腾上，把MoE模型预训练的MFU（算力利用率）做到了65%。这个数字，已经接近行业平均水平的两倍。

换句话说，同样一张卡，真正干活的“有效时间”更多了。

陈秋武在圆桌上的说法很直接：一张卡，能顶两张用。

而支撑这一效率的关键之一，是昇腾超节点。

预训练进入“千卡时代”后，真正的瓶颈不再是单卡性能，而是大规模集群下的通信与调度效率。

昇腾超节点通过统一内存编址和高速互联，把原本复杂的异构通信抽象化，大幅降低了大规模训练的系统复杂度。

AIGCode能做到65%的MFU，背后一个重要支撑就在这里。

开源降低了底层开发门槛，同构架构减少了迁移复杂度，而超节点则解决了大规模扩展的问题。它把通信与计算之间的并行掩盖做得更深，让流水线尽可能保持满载运行，大幅减少了设备间的等待和空耗。

最终，在千卡级集群场景下，整体负载率被拉到很高，用相对有限的算力，完成了更多有效计算。

另一边，中科大团队基于鲲鹏研发了面向高性能计算的新型LU求解器。

LU分解是最基础的矩阵操作，几乎所有涉及矩阵的科学计算都离不开它。优化LU分解，就是在底层优化所有科学计算问题。

通过算法与硬件协同设计，他们把原本不规则的计算重构为规则稠密计算，优化后求解器相比传统方法实现平均40多倍加速，部分场景接近200倍。

65%、40倍、200倍……几个看似分散的数据背后，指向同一件事：鲲鹏昇腾正在从“能跑”走向“好用”，生产级能力开始成型。

生产级信任：拿核心业务“反赌”

比性能更难跨越的，其实是信任。

这次，一家头部股份制银&行，已经把AI直接推进了核心风控流程。大模型与小模型混合架构，开始介入资金流转和风险决策。

现场公布的数据也很硬：首Token响应500毫秒、日均260亿Token、可用性99.999%、全年故障时间不超过1分钟，四项金融级指标全部达标。

但比这些指标更重要的，是他们开始愿意把核心业务真正放上去了。

背后的关键变化之一，是CANN开源之后，整个系统终于不再是“黑盒”。

开发者不再只能“提需求、等适配”，而是可以真正参与到底层能力建设里。甚至连金融行业这类传统“非算子开发者”，也开始向社区贡献特性。

郑老师在现场提到一句很关键的话：开源之后，小问题我们自己随时能修，大问题可以和社区一起讨论。对整个方案更有把握，而不是在用一个黑盒子。

对很多企业来说，性能从来不是唯一门槛。真正决定他们敢不敢上生产环境的，是系统是否“可见、可控、可维护”。

打造开源开放的开发者生态

开发者的这些体感变化不是凭空而来的，背后是华&为在开源开放上的一次关键选择。

去年8月，CANN启动全面开源；12月底，编译器、运行时等核心代码全量上线。

过去，开发者遇到问题，很多时候只能提工单、等版本更新。

而开源之后，运行时、算子编译等核心模块逐步解耦，开发者开始能真正参与到底层迭代里。

AIGCode从“排队三个月”到“自己动手解决”，背后的变化就在这里。

股份制银&行这类“非典型”算力开发者愿意参与的原因，也在这里。

更关键的是，CANN开始逐步兼容主流AI生态。70余款主流大模型做到了“发布即适配”，开发者不用改变原有开发习惯，就能直接调用昇腾的硬件能力。

这正如会上石侃所谈到的：向上，兼容主流计算框架；向下，屏蔽硬件的复杂度和差异性。

而这种兼容的背后，是CANN在底层做了大量重构——提供丰富的算子库、敏捷的开发工具链，以及全方位的开发者支持，大幅降低了算力使用门槛。

当然，生态不能只靠一方使劲。开发者每一次正向反馈、每一个优化结果、每一个创新应用，都能通过昇腾和华&为的生态快速走向产业界，形成技术、商业、生态的完整闭环。

还有个有趣的细节是，Agent也在降低生态的门槛。陈秋武提到：过去很多重复性的适配工作，现在已经开始被Agent自动完成。生成代码、给出示例、自动搭建环境，很多过去需要啃文档的流程，被压缩到了半小时以内。

工具链在变化，开发方式本身也在变化。

飞轮转起来了

说到底，比性能和适配更重要的变化，可能是生态的“方向”开始变了。

在鲲鹏昇腾社区里，开发者不再只是“被动适配”，而是开始“主动贡献”。

圆桌上，某头部股份制银&行分享，其已经向多个社区累计贡献上百个特性，其中仅向vLLM-Ascend就贡献了34项优化，而且不限于金融场景，全行业都能复用。

作为较早投入昇腾生态的创业团队，AIGCode则从2024年起便持续参与社区共建，并贡献了不少核心代码。

一家十几人的创业公司，愿意长期往别人的生态里投入研发资源，背后的逻辑其实很简单：他们开始相信，这条路会成为主流。而这些贡献，又反过来加速了整个生态的闭环。

硬件托住模型，模型落进产品，产品再反哺生态。

AIGCode在昇腾上做出65%的预训练效率后，很快推出了自己的智能编程工具，用户只需要输入提示词，15分钟就能生成一套完整系统。

清华则联合其他高校和科研单位在鲲鹏上跑出了“戈登贝尔”级别的科研成果。

这条闭环，已经不局限于来分享的几个明星团队。今年2月，智谱GLM-5开源，昇腾完成Day 0适配；4月，DeepSeek V4发布，不仅是Day 0适配，更是更深入的“芯模协同”。

截至目前，鲲鹏开发者已经超过

415万

，昇腾开发者超过

410万

，openEuler装机量超过

1600万套

。

数字当然重要，但比数字更值得关注的，是生态开始出现“自增长”。

当创业公司开始主动贡献代码，当银&行愿意把核心风控放上去，当高校开始把关键科研项目跑在上面，飞轮就已经不再只靠华&为一家推动了。

当被问及用昇腾一年多最大的感受时，陈秋武提到：参与进来的，已经不只是科技公司了。

高校、金融、AI大模型行业……越来越多不同领域的团队，都开始进入这个生态，从用户变成生态贡献者。这些“非典型”开发者的加入，是国产算力走向“易用好用”最直观的信号。

而中科大的陈俊仕，则给了现场开发者一句非常直接的建议：赶紧用。

从“能跑”到“有人长期建设”，从“厂商推动”到“生态自增长”，华&为算力生态，正在进入一个全新的阶段——一个成熟的国产算力生态，正在成型。