首页 > 教程攻略 > ai资讯 >Step 3.7 Flash：为 Agent 而生的高频引擎

Step 3.7 Flash：为 Agent 而生的高频引擎

来源：互联网时间：2026-06-11 14:10:41

阶跃星辰的新一代Flash模型终于来了。听说Step 3.7 Flash已经上线时,我便第一时间在模型商控制面板里配好,顺手接入Claude Code,想看看这模型在真实的Agent场景里表现如何。Speed很快,官方宣称最高400 tokens/s,但实测究竟如何,还是上手才知道。

直接说结论:这款模型专为Agent场景设计,推理速度确实快,处理复杂任务流也相当顺畅。我做了一个Agent性能分析工具,从编码、规划到多轮交互,全程体验了一把。

1

最近一直想搭个叫Agent Loop Analyzer的小工具,用来分析Agent在规划、执行任务过程中的耗时和成本。正好拿Step 3.7 Flash试试手。

整体目标是做一个Vite + React + TypeScript单页应用,让Coding Agent从零生成。它能估算Agent任务在规划、搜索、工具调用、代码生成、验证这几个阶段的耗时和成本,最终用图表给出完整结果。Prompt也写好了,列出了功能要求和约束条件:

左侧配置Agent任务的五个阶段:规划、搜索、工具调用、代码生成、验证;
每个阶段可输入调用次数、平均输入tokens、平均输出tokens、预估延迟;
右侧实时展示总tokens、总耗时、估算成本和阶段占比;
用简单图表展示每个阶段的耗时占比;
提供默认示例数据,支持导入和导出JSON配置;
生成README,说明如何启动、如何使用、核心设计取舍;
约束:React + TypeScript,用普通CSS,不引入复杂UI库。保证第一版可运行、结构清晰、可维护。

任务给到Step 3.7 Flash后,CC在模型驱动下迅速开始干活:做规划、搭骨架、写代码。

几分钟的功夫,一个逻辑完整的demo页面就出来了。

这是第一步。接着和模型分析Claude Code的数据格式,希望拿到实际的Agent执行数据:

经过几轮交互,最终拿到了最近一轮Agent的实时分析,还增加了自定义单价的功能:

回顾整个过程,Step 3.7 Flash确实带来了些预期之外的惊喜。推理速度快,犯错少,设计在线,价格实惠。如果让Opus 4.8来处理这种事,估计五小时额度都能给干完了。

2

个人用模型,主要看智能和速度。但一旦接入公司的生产系统——尤其用户量大的时候,toB几千几万,toC百万千万——效率和成本就成了必须考虑的要素。

一个生产级任务,往往要经历规划、搜索、工具调用、代码生成、多模态理解、结果验证的完整链路。模型在某个节点慢一下,整条链路都会放大这种慢;Token贵一点,高频调用放大这种贵;出错了,Agent就得返工。

Step 3.7 Flash除了聪明和快,主打的就是“Agent效率”。它的定位就是一款面向生产级Agent的高效率Flash模型,主要场景是Agent、Coding、Search与多模态工作流。延续了196B总参数、约11B激活参数的架构设计,最高生成速度可达400 TPS,并重点优化了工具调用稳定性、智能体能力和代码能力。而且开源,已经在GitHub和Hugging Face上开放,支持本地部署。

这里释放出的信号是:在Agent场景突飞猛进的情况下,Flash模型正从旗舰模型的轻量替代,变成Agent工作流里的高频发动机。之前很多使用场景是一次输入、一次输出——写一段文案、总结一篇文章、回答一个问题,慢一点也能接受。但Agent场景完全不同:它要自己分解任务,查资料,读文件,改代码,调用工具,再根据结果继续下一步。在这种工作流里,速度、成本和稳定性就成了主角。一次调用省下来的几秒钟,放到十几轮调用里,用户会感到真快;一次调用便宜一点,放到上百个Agent任务里,用户会觉得划算。

3

原生多模态是Step 3.7 Flash的另一个重点。它原生支持图像和视频理解。用户在Agent框架中无需借助视觉MCP或额外视觉模型来识别图像和视频,直接把文件丢给它就行。比如把一个介绍CC Agent view的视频丢给它讲解,很快就有结果:

这对生产级Agent意义重大。现实任务里的信息很少干干净净地躺在文本里——它可能是一张UI截图、一段操作录屏、一张白板照片、一份带图表的文档。非原生多模态的模型需要接额外的视觉和图片工具,然后再把结果给到大语言模型,中间多一层编排,就多一层误差和维护成本。原生多模态把这件事简化了,Agent可以把截图、文档、视频、网页和代码放进同一条推理过程,减少了大量胶水工程。

4

搜索也是类似的逻辑。在Step 3.7 Flash里,搜索成了Agent思考与行动的一部分。这次对搜索能力做了重点优化,让模型在需要查资料、比对信息、验证结论的时候,能更快地拉取上下文、准确地读懂结果、更主动地把新信息融入后续决策。

对开发者来说,这意味着平时工作里的市场调研、竞品分析、资料整理、代码库升级,都可以在模型里实现,交给一个会搜索的Agent去做就好。它知道什么时候该查,查到什么算足够,什么时候该停下来核对,再基于最新的信息把结果返回给你。

试了下Step 3.7 Flash配合墨问cli搜索Vibe Coding和Agent工具,效果很不错:

5

Step 3.7 Flash还特别针对Hermes Agent、OpenClaw、Codex、Claude Code、Kilo Code、OpenCode、Cline等主流Coding与Agent框架做了适配优化,同时提供Chat Completion API和Messages API两种接口形态。接入成本非常低,有兴趣的同学可以试试,基本上可以做到Token自由。

不同权重的Step 3.7 Flash都已经开源了,这是一款开放可在生产环境部署的模型。对企业级Agent来说,很多场景涉及内部代码、客户数据、业务流程和权限系统,模型能力之外,部署方式和可控性同样关键。

回头来看,这款模型最适合的场景就是高频、多步骤、工具密集的Agent场景——比如Coding Agent、搜索增强工作流、多模态文档处理、UI截图理解、简单GUI Agent操作等等。至于3D、复杂物理仿真、极长的上下文任务,确实并非Flash模型所长。

Step 3.7 Flash完成了Flash类模型的一次角色变化——从以前的快和便宜,走向Agent场景。在Agent时代,模型竞争不会只看峰值的智能,还会关注每一次循环里的速度、成本、稳定性和可控性。能进入Agent工作流的模型,才会真正进入生产力。

Step 3.7 Flash：为 Agent 而生的高频引擎

1

2

3

4

5

相关阅读

相关下载