首页 > 教程攻略 > ai资讯 >海光DCU率先展开文心系列模型的深度技术合作 FLOPs利用率（MFU）达47%

海光DCU率先展开文心系列模型的深度技术合作 FLOPs利用率（MFU）达47%

来源：互联网时间：2026-05-27 19:57:30

2025年6月30日，百度文心4.5系列大模型正式开源，这无疑是国内AI界的一件大事。而就在同一天，海光信息技术股份有限公司宣布，其深度计算单元（DCU）已率先完成了对该系列模型的深度技术适配。预训练模型的FLOPs利用率（MFU）达到了47%，并且在多个文本与多模态基准测试中取得了SOTA水平。这不仅仅是一次简单的技术适配，更标志着国产算力基础设施与大模型技术的协同创新，实实在在地迈入了一个新阶段。

技术突破：异构计算架构赋能MoE模型高效训练

海光DCU基于GPGPU通用架构，其技术突破的核心在于，通过飞桨深度学习框架对文心4.5系列模型实现了全流程优化。无论是47B/3B的混合专家（MoE）模型，还是0.3B的稠密参数模型，从高效训练、推理到最终部署，都得到了深度覆盖。

那么，这次适配的创新性具体体现在哪里？我们可以从几个关键维度来看：

多模态异构计算
：针对MoE架构的动态特性，海光设计了专门的动态负载均衡策略。这一策略直接带来了显存带宽利用率高达30%的提升，让计算资源调度更加“聪明”。
混合精度优化
：采用了FP8技术来降低显存占用。这使得总参数量高达424B的模型，其训练效率能够接近国际一线水平，在保证精度的同时，大幅压缩了成本和时间。
生态兼容性
：依托其DTK软件栈，海光DCU实现了与文心模型的无缝对接。这种深度的生态融合，将适配周期缩短了50%，为快速迭代和应用落地扫清了障碍。

行业价值：自主可控技术体系加速AI落地

技术指标固然亮眼，但更关键的是，这次合作验证了国产DCU在高性能计算领域的实际价值与优势。这主要体现在三个方面：

效能领先
：47%的MFU利用率，这个数字比行业平均水平高出15%以上。这意味着同样的硬件投入，能获得更高效的计算产出，直接关乎企业的投入产出比。
多模态支持
：文心4.5强大的跨模态理解能力，在DCU平台上实现了无损迁移。这对于需要处理图像、文本、语音等多种数据类型的复杂AI应用来说，提供了坚实的底层支持。
产业链安全
：从底层芯片（海光DCU）、深度学习框架（飞桨）到顶层模型（文心），形成了一套完整、自主可控的技术体系。这为金融、制造等对数据安全和供应链稳定性要求极高的行业，提供了一个可靠且高性能的算力选择。

总而言之，海光DCU与文心模型的这次深度适配，有力地证明了国产算力完全有能力支撑起最前沿的AI创新。它不仅仅是一次技术展示，更是未来发展的一个信号。可以预见，后续的优化重点将指向千亿级参数模型的训练效率，持续推动中国智能算力生态的扎实建设。

海光DCU率先展开文心系列模型的深度技术合作 FLOPs利用率（MFU）达47%

技术突破：异构计算架构赋能MoE模型高效训练

多模态异构计算

混合精度优化

生态兼容性

行业价值：自主可控技术体系加速AI落地

效能领先

多模态支持

产业链安全

相关阅读

相关下载