StepAudio 2.5 ASR - 阶跃星辰推出的自动语音识别模型
来源:互联网
时间:2026-06-24 14:25:21
在语音识别领域,处理长音频一直是个令人头疼的问题。传统的切片拼接方案不仅繁琐,还容易导致上下文信息断裂,影响最终转写的准确性和连贯性。最近,阶跃星辰推出的StepAudio 2.5 ASR模型,似乎为这个问题带来了一个全新的解法。
这款新一代自动语音识别模型,专为语音转写、会议纪要和长音频处理设计。它最引人注目的特点,是采用了创新的Audio Encoder + Linear Adapter + 4B LLM + MTP-5架构,并将多Token预测技术首次引入语音识别领域,实现了高达500 TPS的极速推理。这意味着,它能够直接端到端地处理长达30分钟的音频,彻底告别了传统的切片方案。
StepAudio 2.5 ASR的主要功能
那么,这款模型具体能做什么?简单来说,它在几个核心场景下表现突出:
- :模型推理峰值达到每秒500个token,一份5分钟的音视频文件,转写几乎在瞬间完成。
极速语音转写
- :得益于复用的32K上下文窗口,模型能够单次完整转写长达30分钟的音频,保证了内容的整体性。
长音频端到端识别
- :对常见的OGG、mp3、wa v、PCM等音频格式都有很好的兼容性。
多格式音频支持
- :覆盖中英主流语种,同时也能较好地处理方言、带口音的普通话,甚至包括少量日语和阿拉伯语。
中英文及方言识别
- :基于MTP-5架构,其吞吐量提升了400%,而推理成本则降低了80%,性价比显著。
高吞吐解码
StepAudio 2.5 ASR的技术原理
功能强大的背后,是扎实的技术架构。StepAudio 2.5 ASR的设计思路清晰,层层递进:
- :模型采用四层堆叠架构,分别是Audio Encoder、Linear Adapter、4B LLM和MTP-5模块,分别负责音频特征提取、维度对齐、语言建模和高效解码。
整体架构设计
- :一个0.6B参数的Transformer音频编码器,负责将输入的原始音频信号,转化为每秒钟12.5帧的语义向量,完成从声音到初步语义的映射。
音频编码层
- :Linear Adapter的作用是关键性的桥梁,它负责将音频编码器的输出维度,与后续大语言模型的隐藏层维度对齐,实现跨模态特征的顺畅传递。
维度对齐层
- :核心是一个拥有40亿参数的大语言模型,它承担了上下文理解和自回归文本生成的重任。正是它原生的32K上下文窗口能力,让长音频的端到端建模成为可能。
语言建模主干
- :这是速度突破的关键。模型引入了与Step 3.5 Flash同款的MTP-5模块,单次前向传播可以并行预测5个候选token,一举突破了传统ASR模型必须逐token顺序生成的效率瓶颈。
MTP多Token预测
如何使用StepAudio 2.5 ASR
对于想要尝试的用户,目前有几种便捷的途径:
- :可以直接访问阶跃星辰的体验中心,上传音频文件进行在线转写,直观感受效果。
在线体验
- :开发者可以前往阶跃星辰开放平台或Step Plan官网,查看详细的API文档,获取模型标识和示例代码,以便集成到自己的应用中。
API接入
- :通过访问其公开的Demo页面,可以查看更多的效果展示和示例。
Demo页面
- :通过程序化调用其ASR API,可以将识别结果无缝接入到检索、摘要、内容质检或归档等后续业务链路中。
开发者接入
StepAudio 2.5 ASR的关键信息和使用要求
在深入使用前,有几个关键信息需要了解:
- :由阶跃星辰正式发布,并已全量上线其开放平台与Step Plan。
发布主体
- :整体参数规模约为46亿,采用前述的四层架构。
模型架构
- :峰值速度500 tokens/s,吞吐量提升400%,时延降低60%,成本降低80%。
推理性能
- :支持单次端到端转写最长30分钟音频,无需切片。
上下文能力
- :兼容OGG、mp3、wa v、PCM等格式。
支持格式
- :以中英文为主,支持方言和口音,附带少量其他语言能力。
语言覆盖
- :在包括AISHELL、LibriSpeech在内的多项中英文及长音频权威评测基准上,均达到了当前的最优水平。
评测成绩
- :预训练使用了千万小时量级的语音数据;专项ASR训练则包含了10万小时高质量短音频和5万小时长音频。
训练数据
- :开发者可通过API集成,普通用户可通过体验中心或Demo页面试用。
接入渠道
StepAudio 2.5 ASR的核心优势
综合来看,这款模型的核心优势体现在以下几个维度:
- :将大语言模型的推理加速技术应用于语音识别,实现了吞吐量400%的提升。
速度突破
- :在提升速度的同时,推理成本降低了80%,实现了更高的能效比。
成本优势
- :在多项权威测试中综合错误率行业最低,精度有保障。
精度领先
- :30分钟端到端转写能力,确保了长内容上下文的一致性,精度无衰减。
长文稳定
- :ASR与MTP-5的深度融合,通过并行预测机制打破了传统串行生成的瓶颈。
架构创新
- :广泛的格式和语言支持,使其能适应从标准录音到带口音、方言等多种复杂场景。
场景覆盖
StepAudio 2.5 ASR的同类竞品对比
为了更清晰地定位其市场表现,我们将其与同期其他主流模型进行简要对比:
| 对比维度 | StepAudio 2.5 ASR | Qwen3 ASR | Doubao-ASR-2603 |
|---|---|---|---|
| 模型架构 | Audio Encoder+4B LLM+MTP-5 | 未公开 | 未公开 |
| 推理速度 | 500 TPS,吞吐量提升400% | 标准自回归 | 标准自回归 |
| 中文平均CER | 2.97% | 3.17% | 3.34% |
| 英文平均WER | 3.68% | 3.85% | 6.67% |
| 长音频WER | 3.70% | 4.20% | 6.11% |
| 最大上下文 | 32K(30分钟端到端) | 未明确 | 未明确 |
| 成本优化 | 推理成本降低80% | 无 | 无 |
从对比中可以看出,StepAudio 2.5 ASR在速度、长音频精度和成本优化方面具有较明显的优势。
StepAudio 2.5 ASR的应用场景
基于上述特性,它的应用场景也相当明确:
- :非常适合处理长时间的会议或访谈录音,能保持术语和上下文的连贯性。
会议纪要与访谈转写
- :可以快速为视频生成字幕,并支持多种音频格式的批量处理。
字幕生成与媒资预处理
- :对于播客、线上讲座、司法庭审等长达半小时的音频内容,能够实现完整转写,便于后续检索。
长音频内容归档
- :低时延和高吞吐的特性,使其能够应用于客服通话的实时质量检测或内容合规审查。
实时语音质检
- :其稳定和准确的输出,可以直接接入企业内部的检索、摘要或知识归档系统,满足工业化需求。
后端系统接入
总的来说,StepAudio 2.5 ASR通过架构创新,在语音识别的速度、成本和长音频处理能力上带来了实质性的提升,为相关领域的应用开发提供了新的选择。