618 AI套餐暗战指南, 我帮你把字节阿里等5家平台的账算清了
用Hermes Agent、OpenClaw或Claude Code这类编程Agent的朋友,最近应该都能感觉到——AI编程的套餐市场,这半年洗牌洗得是真快。腾讯云把Coding Plan全线下架,换成了Token Plan;MiniMax从按次计费改成按Token池,惹来一堆投诉;字节那边又搞了个“业界首个Agent套餐包”。
作为每天和Hermes打交道的人,这几个平台我基本都摸过一遍。今天不聊虚的,直接算账。
先说一个核心判断:目前来看,对Agent用户适配最到位的,是字节方舟的Agent Plan。不是我偏心,往下看数据自然就清楚了。
一、按次计费套餐:每100次实际花多少钱?
先来拆解各家按请求次数收费的套餐。统一折算成“每100次有效请求”的成本,同时标注了每家可用的模型阵容——模型多寡,直接决定了你实际能干多少活。
| 平台套餐 | 月费 | 月可用量 | 每100次成本 | 可用模型 | 特别限制 |
|---|---|---|---|---|---|
| 字节 Agent Small | ¥40 | 20,000 AFP | ¥0.20 | Doubao-Seed全系 + GLM-5.1 + Kimi-K2.6,含Seeddance/Seedream多模态 | 公测每日限量 |
| 字节 Agent Medium | ¥200 | 100,000 AFP | ¥0.20 | 同上 | 公测每日限量 |
| 字节 Coding Lite | ¥40 | 18,000次 | ¥0.22 | Doubao-Seed-2.0-Code + DeepSeek-V4 + GLM-5.1 + Kimi-K2.6 + MiniMax-M2.7,Auto智能调度 | 额度仅限编程工具 |
| 字节 Coding Pro | ¥200 | 90,000次 | ¥0.22 | 同上 | 额度仅限编程工具 |
| 阿里 Coding Lite | ¥40 | 18,000次 | ¥0.22 | Qwen3.5-Plus、Qwen3-Max、Qwen3-Coder-Plus、Kimi-K2.5、GLM-5、MiniMax-M2.5 | ⚠️ 已停售 |
| 阿里 Coding Pro | ¥200 | 90,000次 | ¥0.22 | 同上,共7款模型 | ⚠️ 每日限量抢购 |
| 智谱 GLM Lite | ¥49 | ~6,000次等效 | ¥0.82 | 仅GLM-4.7/4.6 | 纯自研,无三方模型 |
| 智谱 GLM Pro | ¥149 | ~30,000次等效 | ¥0.50 | GLM-5 + GLM-4.7/4.6,GLM-5为355B MoE旗舰 | 高峰期×3倍消耗 |
| 智谱 GLM Max | ¥469 | ~120,000次等效 | ¥0.39 | GLM-5 + GLM-4.7/4.6全系 | 高峰期×3倍消耗 |
注:AFP是火山引擎Agent Plan专门创造的计量单位,全称Agent Fuel Points(Agent燃料值),本质上就是一种Credits积分。
从模型维度来看,差异还是挺明显的:
- :Agent Plan覆盖自研Seed全系(含图像/视频多模态),外加GLM-5.1和Kimi-K2.6。Auto模式会自动调度最优模型,省去手动切换的麻烦。Coding Plan还额外包含了DeepSeek-V4和MiniMax-M2.7。
字节的模型阵容相对豪华
- (7款),涵盖千问、Kimi、GLM、MiniMax四条路线,选择面最宽。但Pro套餐经常售罄,有模型也买不到,这就很尴尬了。
阿里云模型数量最多
- ,仅GLM系列。好处是深度优化、不依赖第三方,代价是想换换口味?没得选。
智谱走纯自研路线
- 的具体情况,在下文Token池部分详述。
MiniMax和腾讯云
二、Token池套餐:每百万Token花多少钱?
另一类主流模式是Token池——固定的Token池子,用完即停,不限请求次数。这种模式在长上下文场景下尤其好用。
| 平台套餐 | 月费 | 月Token额度 | 每百万Token成本 | 可用模型 | 使用限制 |
|---|---|---|---|---|---|
| MiniMax Plus | ¥49 | ~6亿 | ¥0.082 | M3(旗舰) + M2.7/M2.5 + 图像/语音(Speech 2.8)/音乐/视频(Hailuo 2.3)全系,原生多模态 | 工作日15:00-17:30动态限流 |
| MiniMax Max | ¥119 | ~18亿 | ¥0.066 | 同上,全部模型可用 | 工作日15:00-17:30动态限流 |
| MiniMax Ultra | ¥469 | ~55亿 | ¥0.085 | 同上,全模态全模型 | 工作日15:00-17:30动态限流 |
| 腾讯云 Hy Lite | ¥28 | 3,500万 | ¥0.80 | 仅混元Hy3 preview一款 | 模型单一 |
| 腾讯云 Hy Pro | ¥238 | 3.2亿 | ¥0.74 | 仅混元Hy3 preview一款 | 模型单一 |
| 腾讯云 通用 Lite | ¥39 | 3,500万 | ¥1.11 | 混元Hy3 + GLM-5 + MiniMax-M2.5 + Kimi-K2.5等多款 | Token额度偏少 |
| 腾讯云 通用 Pro | ¥299 | 3.2亿 | ¥0.93 | 同上,支持多模型自由切换 | Token额度偏少 |
模型维度有几个关键发现:
- ,同一个Token池可以同时调用文本、图像、语音、音乐、视频五大类模型。这意味着你用Hermes做工具调用时,图片理解和视频分析不需要额外切换平台,体验很流畅。
MiniMax的M3是原生多模态旗舰
- M3支持1M上下文,长文档处理不会被截断。这在Token池模式中,算是一个很大的差异化优势。
- ——价格确实低(¥28起),但模型单一意味着所有任务只能靠这一款模型。编程、推理、分析,都用同一套,灵活性受限。
腾讯云Hy系列仅混元Hy3 preview一款模型
- 腾讯云通用版虽然支持多模型切换,但同样价位的Token额度比MiniMax少很多(通用Pro ¥299仅3.2亿token vs MiniMax Max ¥119含18亿token),性价比差距一目了然。
三、模型多样性的实际意义
对Agent用户来说,模型多样性绝不仅仅是“选择多”的问题,它直接影响你的工作流效率:
- :用Doubao-Seed或Qwen3-Coder做编码,用GLM-5或Kimi-K2.6做逻辑推理和架构分析。不同任务调用不同的最优模型,效率更高。
编程主力和推理辅助可以分开
- :MiniMax的全模态覆盖意味着图片理解、语音转文字、视频分析都能在一个套餐内搞定。字节Agent Plan的Seedance/Seedream也覆盖了图音视频。
多模态需求不用切平台
- :字节的Auto模式可以根据任务类型自动匹配最优模型,你不需要每次手动指定用哪个。对Agent自动化工作流来说,这很省心。
Auto智能调度减少决策负担
- :智谱GLM-5(355B MoE)编程能力对标Claude Sonnet 4.5,生成速度55+ tokens/秒。纯自研的好处是深度优化和稳定性好,但如果你想偶尔换换口味,确实没得选。
纯自研路线的利弊
四、按场景选购建议
场景A:日常开发,偶尔用Hermes写脚本、查文档
- :字节 Agent Small(¥40/月,¥0.20/100 AFP)
推荐
- :字节 Coding Lite(¥40/月,首月¥9.9体验)
备选
理由
场景B:高强度Agent工作流,同时跑2-3个任务
- :字节 Agent Medium(¥200/月,¥0.20/100 AFP)
推荐
- :MiniMax Token Max(¥119/月,¥0.066/百万token)
备选
理由
场景C:超大代码库、多轮长对话
- :MiniMax Token Max(¥119/月)
推荐
理由
场景D:团队多人使用Hermes
- :阿里云Token Plan团队版 标准坐席(¥198/人/月)
推荐
理由
场景E:预算极有限,先试试水
- :腾讯云Hy Token Lite(¥28/月)
推荐
- :字节Coding Lite首月(¥9.9,体验一个月)
备选
理由
五、避坑清单
- ——加班时买不到真的很尴尬。生产环境不建议依赖它。
阿里云Coding Pro每日限量补货
- ——致歉声明已经发了。建议先按月订观察,别冲动年付。
MiniMax近期计费争议
- ——下午2点到6点之间,你的实际用量可能只有预期的1/3。
智谱GLM-5高峰期按3倍消耗
- ——HY2.0系列曾涨400%+,2026年5月又上调了5%。
腾讯云历史涨价幅度偏高
- ——通过非官方Base URL使用可能封号。
Coding Plan额度禁止API直调
- ——目前每日四档总计限购5500份。
字节Agent Plan公测每日限购
六、第三个选择:本地部署,零月费
如果你对订阅制感到疲惫,或者对网络隐私有要求,还有一个方案——通过仙踪·爱马仕助手(Hermes Assistant)在Mac上部署本地模型。
它内置了oMLX引擎,适配Apple芯片(M系列),可以在你的Mac上直接跑大模型。8个预置模型中,Qwen3.6-35B(256K上下文)做编码,Gemma4 26B做逻辑推理,Gemma4 12B做日常图文处理。日常办公和轻量开发的token需求基本都能覆盖。
优势是零网络延迟、数据不出本地、没有月费账单。缺点是需要占用本地算力和存储空间。
对于不想被各种套餐规则折腾的朋友,这是一个值得了解的Plan C。
一句话总结:Hermes/OpenClaw用户,优先看字节Agent Plan(¥40/月起,¥0.20/100 AFP,模型丰富+Auto调度);长上下文重度场景,考虑MiniMax Token Max(¥119/月,¥0.066/百万token,全模态覆盖);想彻底摆脱月费的,可以探索本地模型部署。
数据来源:各平台官方定价页面及公开信息,截至2026年6月。价格可能随时变动。
