打破手机跑大模型壁垒,面壁智能联合清华开源端侧新品BitCPM-CANN
最近,AI开源社区传来一个重磅消息。面壁智能联合清华大学、OpenBMB开源社区,正式发布并开源了他们在低比特大模型训练上的最新突破——BitCPM-CANN。更重要的是,这套技术是在华&为昇腾平台上原生完成的。这可不是一个简单的技术演示,它标志着端侧AI大模型在真正走向轻量化和工程化落地的道路上,迈出了非常扎实的一步。
释放六倍显存红利,打破硬件限制
这次开源的BitCPM-CANN,一口气提供了0.5B、1B、3B、8B四个不同尺寸的模型。与同尺寸的全精度模型进行对比评测后,结果相当令人惊喜。最核心的突破在于,相比传统的BF16精度,这套模型在推理阶段能释放出大约6倍的显存空间。
这意味着什么?简单说,就是运行大模型的硬件门槛被大幅拉低了。尤其对手机行业来说,这无疑是个福音。过去,8B参数级别的大模型对手机配置要求极高,基本是旗舰机型的专属。而现在,得益于这6倍的显存红利,主流旗舰手机也能轻松、流畅地跑起这类大模型了。这种对内存空间的极致优化,将直接为端侧AI技术在移动设备上的普及和商业化落地按下加速键。
高能力保留率,证实工程可复现性
当然,光省内存还不够,性能不能丢。BitCPM-CANN在“瘦身”的同时,展现出了极高的能力保留率,范围在90%到97.2%之间。具体来看,1B、3B、8B这三个主要尺寸的模型,能力保留率都稳定在95.7%至97.2%的高位。即便是最小的0.5B模型,其保留率也稳稳超过了90%。
这个评测结果意义重大。它系统性地证明了低比特训练这条技术路线,不仅可行,而且具备极强的可扩展性和工程可复现性。为了支撑这条路线,面壁智能已经基于相关主干,搭建起了一套完整的低比特训练底座。这套底座涵盖了环境适配、32K长序列支持以及融合算子等完整的工程体系,相当于为后续所有面向昇腾平台的低比特训练工作,打下了一个坚实可靠的公共基础设施。