首页 > 教程攻略 > ai资讯 >音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成

音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成

来源：互联网时间：2026-05-27 12:01:09

音频生成领域最近迎来了一波不小的震动。知名人工智能公司Stability AI正式推出了其新一代音频大模型Stable Audio 3，并同步开源了部分模型权重。这款专为音频生成与编辑设计的潜扩散模型，不仅带来了高品质的双声道立体声输出，更在生成速度上实现了令人印象深刻的突破。

新发布的模型家族提供了从轻量到重量级的多种规格，旨在覆盖从音乐创作到专业音效制作等多元场景。其核心亮点在于支持可变长度的音频生成，并引入了基于内补成像技术的音频编辑功能，这无疑为创作者的工具箱增添了一把更灵活的利器。

超高效率实现即时渲染

效率是这次升级的重头戏。得益于variable-length技术的应用，新模型的计算成本能够根据用户所需的音频时长进行动态调整，这从根本上解决了以往固定长度模型带来的算力冗余问题。在实际的高性能硬件测试中，这种效率提升表现得尤为直观：生成一段20秒的音频仅需约0.62秒，而即便是长达380秒的音乐，渲染时间也控制在1.31秒左右。

这种速度飞跃的背后，离不开创新的三阶段训练流程。正是这一流程，使得Stable Audio 3在推理阶段得以摆脱对传统无分类器指导技术的依赖，从而实现了单步前向传播，用户体验近乎“即时”。目前，面向社区开放的小型和中型模型权重已在Hugging Face平台上线，而性能更强大的大型版本，则将通过商业授权的形式提供。

音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成

超高效率实现即时渲染

相关阅读

相关下载