首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >又一大模型发布，号称比肩Fable 5和Mythos

又一大模型发布，号称比肩Fable 5和Mythos

来源：互联网时间：2026-06-24 14:19:30

6月22日，日本AI独角兽Sakana AI发布了一款别出心裁的模型系列——

Sakana Fugu编排器模型

，包含Fugu Ultra和Fugu两款。其中Fugu Ultra在工程、科学和推理基准测试中的表现，几乎追平甚至超过了Fable 5、Mythos Preview这些顶尖模型。

它和我们熟悉的那些大模型不太一样——Fugu不会自己直接回答问题，而是

充当一个“总指挥”，根据任务需求，调动世界上各种模型来协同完成

。简单讲，它不负责执行，只负责运筹帷幄。

Fugu在日语里就是河豚，官方动画也很有意思：无数条小鱼汇聚成一只胖胖的河豚。这个视觉隐喻很直白——把多个小模型集合起来，才能做出最鲜美的AI料理。

Sakana AI这家公司本身也很有来头。成立于2023年，联合创始人之一是Transformer论文的第五作者Llion Jones。他们之前就以“进化”的方式闻名——用多个小模型组合出堪比大模型的能力。现在，Fugu又往前走了一步：

训练一个模型学会调度和组织其他模型，形成一种“集体智能”

。

在博客中，Sakana AI明确提出：

编排模型将成为超越传统大模型的新前沿

。过去几年，AI进步主要靠堆算力、堆数据，但现实中的复杂任务往往需要多种专业知识，单一模型总有边界。真正让模型发挥最大效能，需要集体智慧——知道什么时候该用哪个模型、怎么拆分任务、如何组合不同领域的特长。

有意思的是，

这种编排不仅是技术演进，背后还有地缘政治的影子

。Sakana AI从近期Anthropic模型被施加出口管制中吸取教训：如果绑定单一供应商，访问权限可能一夜之间消失。而Fugu的底层模型池完全是可替换的，一家断供，换另一家就行。他们把这称为

“AI主权的现实蓝图”

。

Fugu本身是一个专门用来判断何时委派任务、Agent之间如何通信、以及如何整合结果的语言模型。这套思路建立在团队此前关于模型编排的研究基础上，包括ICLR 2026上发表的论文Trinity和Conductor。

技术报告地址：
https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf

体验地址：
https://sakana.ai/fugu

01. 超越Mythos Preview和Fable 5

调度最强模型完成任务

技术报告列出了Fugu系列在编程、推理、科学、Agent能力四个维度、八个基准测试上的表现——

结果显示，Fugu系列在各项评测中已经达到或接近尖端模型的水平

。

数据很直观：Fugu模型仅仅通过智能调度，就在

三项基准测试中超过了Mythos Preview和Fable 5

。

跨领域适应性方面，在Terminal Bench测试中，Fugu和Fugu Ultra调用的模型峰值集中在表现最强的GPT-5.5上。而在GPQADiamond测试中，Gemini-3.1-Pro成为首选，两款Fugu模型都把调度核心围绕Gemini展开。

Fugu拿高分的方式与传统模型完全不同。它

没有去训练一个更强的基座直接解题

，而是判断这道题该派给哪个模型、怎么拆解任务、如何校验检查。最终综合多个模型给出的答案，质量反而超过了任何一个单一模型独立作答的结果。

这正是技术报告反复强调的核心定位：Fugu的价值不是替代GPT、Claude、Gemini这些模型，而是把它们的特长组合起来。有的模型擅长数学推理，有的擅长代码工程，有的擅长安全分析。当不同模型各自形成专长时，

编排能力本身正在成为一种独立的竞争力

。

02. 四大机制让Fugu指挥模型军团

报告详细解读了Fugu的四个基础机制：

第一，识别问题类型。

判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务。这一步决定了后续整个派活逻辑的起点。

第二，选择合适的worker模型。

不同模型在各类任务上的表现差异很大，Fugu的训练目标之一就是学会在什么问题上调用哪个模型。报告特别提到，即使是同一类任务内部，比如竞赛编程，不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路，Fugu需要把这些细微差异也纳入决策。

第三，设计Agent工作流。

对于复杂问题，Fugu Ultra会生成完整的agentic workflow，包括任务拆分、子任务分配、上下文共享策略以及最终答案合成。这些全部在模型内部以自然语言完成。

第四，根据反馈优化。

Fugu的训练不止监督微调，还包括进化算法和强化学习——用真实任务结果反向优化编排策略。这套机制让它知道怎么让合适的模型去做合适的事。

Sakana Fugu共有两个版本：

Fugu和Fugu-Ultra

。Fugu更强调日常使用，侧重性能与延迟的平衡，保证较高质量的同时快速响应。它不会每次都进行复杂的多Agent协作，而是通过轻量选择机制快速判断哪个worker模型更适合当前任务。

Fugu-Ultra则偏向质量优先。它会采用更复杂的编排方式，把任务拆成多个子任务，安排不同Agent处理，再进行综合。响应时间可能更长，但适合高难度问题——比如复杂代码任务、数学推理、科学问题、多步骤规划等。

两者的共同点是“与模型无关的完全模块化”。Sakana Fugu不需要访问worker模型的权重，甚至不要求它们是开源的。

新模型发布后可以直接加入worker池，用户还能根据成本、隐私、合规等需求定制可用的模型列表

。

03. 解魔方、下盲棋，没被洗车问题难倒

技术报告附录里还有几个有趣的实验：

一个是“一次性魔方求解器”。模型需要一次性写出一个用Python标准库实现的魔方求解程序，并在300个乱序魔方上测试。报告称Fugu和Fugu-Ultra都成功解出了全部魔方，其中Fugu-Ultra的平均步数更短，Fugu的运行速度更快。

另一个是“盲棋测试”。模型在看不到棋盘、没有合法走法列表、没有FEN的情况下，只根据历史走法继续下棋。这个实验主要测试模型是否能长期维护内部状态。报告展示的几盘代表性对局中，Fugu战胜了多个基线模型和限制强度的Stockfish。

还有一个是“在线股票交易”实验。模型只能看到过去和当前的匿名市场数据，不能偷看未来价格，需要逐周做买入、持有或卖出决策。报告称Fugu-Ultra在五次运行中取得了更高平均收益。

这些实验未必能直接代表模型的实际能力，但它们展示了一件事：编排模型可以处理好需要长期运行、策略调整以及多步骤执行的任务。

有网友直接用Fugu-Ultra去挑战那些让很多模型崩溃的“坑题”——

比如strawberry（草莓）里有几个“r”、5.11比5.1大吗、以及经典的洗车问题

。结果Fugu-Ultra全部回答正确，这位网友直呼“把Fable找回来了”。

Sakana Fugu技术报告中最值得关注的，是它

提出了一条模型研究的新路径

。

过去我们总问哪个模型最强，而Sakana Fugu提出的新问题是：如何让多个尖端模型协同起来变得更强。

这会带来几个变化：

第一，模型能力变得更加模块化。

新模型发布后可以直接加入worker池，成为某类任务的专家；

第二，用户控制权更强。

企业或个人可以根据隐私、合规、成本、延迟、供应商偏好来配置自己的模型池；

第三，AI竞争可能从“单一模型能力”扩展到“系统组织能力”。

谁更会调度模型、使用工具、设计工作流、整合反馈，谁就拥有更强大的能力。

当然，需要提醒的是：技术报告里的测试结果来自厂商，实际能力还得看真实开发者的使用反馈。另外，

多模型编排会带来更高成本和更高延迟

，尤其是Fugu-Ultra这类深度协作模式。同时，

多模型系统的错误归因也更复杂

——一旦最终答案出错，很难分清是路由、worker模型还是综合过程的问题。

此外，

编排器模型本身也可能出现偏差

，它如果错误判断任务类型，或者过度依赖某个模型，就可能削弱整体表现。所以Sakana Fugu的路线虽然很有想象力，但真正落地，还需要大量工程验证。

04. 结语：入局大模型训练的新方式

Sakana Fugu系列模型的发布，传递了一个信号：

AI的下一阶段，可能不只是更大更强的单一模型，还有更会协作的模型系统

。

如果说过去的大模型竞争是在培养“超级智能”，那么Sakana Fugu的方向就是在训练“超级指挥”——

让模型专门去学习如何分工、协调、验证以及综合

。在大模型领域被少数顶尖模型厂商统治的当下，这个只调度不执行的模型训练方式，或许是

入局大模型训练的一条新路径

。

又一大模型发布，号称比肩Fable 5和Mythos

Sakana Fugu编排器模型

充当一个“总指挥”，根据任务需求，调动世界上各种模型来协同完成

训练一个模型学会调度和组织其他模型，形成一种“集体智能”

编排模型将成为超越传统大模型的新前沿

这种编排不仅是技术演进，背后还有地缘政治的影子

“AI主权的现实蓝图”

01.

01.

超越Mythos Preview和Fable 5

超越Mythos Preview和Fable 5

调度最强模型完成任务

调度最强模型完成任务

结果显示，Fugu系列在各项评测中已经达到或接近尖端模型的水平

三项基准测试中超过了Mythos Preview和Fable 5

没有去训练一个更强的基座直接解题

编排能力本身正在成为一种独立的竞争力

02.

02.

四大机制让Fugu指挥模型军团

四大机制让Fugu指挥模型军团

第一，识别问题类型。

第二，选择合适的worker模型。

第三，设计Agent工作流。

第四，根据反馈优化。

Fugu和Fugu-Ultra

新模型发布后可以直接加入worker池，用户还能根据成本、隐私、合规等需求定制可用的模型列表

03.

03.

解魔方、下盲棋，没被洗车问题难倒

解魔方、下盲棋，没被洗车问题难倒

比如strawberry（草莓）里有几个“r”、5.11比5.1大吗、以及经典的洗车问题

提出了一条模型研究的新路径

第一，模型能力变得更加模块化。

第二，用户控制权更强。

第三，AI竞争可能从“单一模型能力”扩展到“系统组织能力”。

多模型编排会带来更高成本和更高延迟

多模型系统的错误归因也更复杂

编排器模型本身也可能出现偏差

04.

04.

结语：入局大模型训练的新方式

结语：入局大模型训练的新方式

AI的下一阶段，可能不只是更大更强的单一模型，还有更会协作的模型系统

让模型专门去学习如何分工、协调、验证以及综合

入局大模型训练的一条新路径

相关阅读

相关下载