音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成
来源:互联网
时间:2026-05-27 12:01:09
音频生成领域最近迎来了一波不小的震动。知名人工智能公司Stability AI正式推出了其新一代音频大模型Stable Audio 3,并同步开源了部分模型权重。这款专为音频生成与编辑设计的潜扩散模型,不仅带来了高品质的双声道立体声输出,更在生成速度上实现了令人印象深刻的突破。
新发布的模型家族提供了从轻量到重量级的多种规格,旨在覆盖从音乐创作到专业音效制作等多元场景。其核心亮点在于支持可变长度的音频生成,并引入了基于内补成像技术的音频编辑功能,这无疑为创作者的工具箱增添了一把更灵活的利器。

超高效率实现即时渲染
效率是这次升级的重头戏。得益于variable-length技术的应用,新模型的计算成本能够根据用户所需的音频时长进行动态调整,这从根本上解决了以往固定长度模型带来的算力冗余问题。在实际的高性能硬件测试中,这种效率提升表现得尤为直观:生成一段20秒的音频仅需约0.62秒,而即便是长达380秒的音乐,渲染时间也控制在1.31秒左右。
这种速度飞跃的背后,离不开创新的三阶段训练流程。正是这一流程,使得Stable Audio 3在推理阶段得以摆脱对传统无分类器指导技术的依赖,从而实现了单步前向传播,用户体验近乎“即时”。目前,面向社区开放的小型和中型模型权重已在Hugging Face平台上线,而性能更强大的大型版本,则将通过商业授权的形式提供。