首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

来源：互联网时间：2026-07-01 16:34:58

不堆参数，原地「循环思考」16次

这听起来确实有些疯狂。Anthropic严防死守的Claude Mythos架构，竟然被一位22岁的年轻人给“破译”了。

这不是内部泄露，也不是员工跳槽带出的机密。

而是一位名叫Kye Gomez的初创公司CEO，运用第一性原理，硬生生将Claude Mythos的核心架构从头推导了出来。

更令人震惊的是，

他将这个项目——OpenMythos——完全开源了

。

他的复现帖子吸引了近百万网友围观，整个社区都为之震动。人们纷纷惊叹于Mythos背后设计的精妙。

那么，核心结论是什么？Kye Gomez的发现指向一个关键点：Claude Mythos的核心并非一个更大的Transformer，

而是一种被称为「循环深度Transformer」（Recurrent-Depth Transformer, RDT）的架构

。

简单来说，就是让同一套模型权重，在一次前向传播过程中，循环运行最多16次。

传统大模型的思路好比盖高楼，通过不断堆叠参数层数来提升能力。100层不够就200层，200层不够就500层。参数越多，模型越庞大，对显存的需求就越恐怖，训练成本也呈指数级增长。

但RDT架构彻底换了一种思路：不追求建筑高度，而是专注于“原地跑圈”。模型只有一个核心计算模块，但这个模块会被反复执行。每循环一次，模型的隐藏状态就更新一次，相当于“深入思考了一步”。关键在于，所有这些思考都在连续的潜在空间中进行，无需像思维链（CoT）那样每一步都输出可见的文本标记。

这并非简单的重复计算，而是一种迭代式的深度推理。

架构全拆解：三段式设计

整个OpenMythos的架构可以被清晰地分为三段：

Prelude（序曲）→ Recurrent Block（循环核心）→ Coda（终章）

。

其中，Prelude和Coda是标准的Transformer层，各执行一次。真正的计算核心是中间的「循环块」，它最多可循环16次。每次循环的更新规则可以表述为：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

这里的e是经过Prelude编码后的原始输入。在每一步循环中，原始输入都会被重新注入，这个设计至关重要，它能有效防止模型在漫长的循环中“思维跑偏”。

MoE给广度，循环给深度

单靠循环机制可以解释Mythos推理的“深度”，但还不足以解释其知识的“广度”。OpenMythos在循环核心的每个前馈网络（FFN）层，都替换成了混合专家（MoE）层，其设计参考了DeepSeek-MoE的思路：

使用大量细粒度的路由专家；每个输入标记只激活其中一小部分专家；同时设置少量“共享专家”始终处于激活状态，负责吸收跨领域的通用知识。

最精妙的设计在于，随着隐藏状态h_t在循环中不断演化，路由器在每一层、每一次循环深度上，都可能选择不同的专家子集。这意味着，虽然模型权重是共享的，但每一次循环的计算路径可以完全不同。简而言之：

MoE机制提供了知识的广度，而循环机制则赋予了思考的深度

。

项目地址：https://github.com/kyegomez/OpenMythos

在注意力机制方面，默认采用了来自DeepSeek-V2的「多潜变量注意力」（Multi-Latent Attention）。该技术将键值（KV）缓存压缩为低秩的潜在变量，在生产规模下，据说能实现10-20倍的KV缓存显存节省。

此外，还有三个额外机制来确保循环过程的稳定性：LTI约束注入（强制谱半径小于1）、自适应计算时间（ACT）实现逐位置“停机”、以及深度级LoRA适配器让每次迭代都具备独立的行为微调能力。整套设计精密得犹如一台瑞士钟表。

770M打平1.3B，参数效率直接翻倍

这种架构优势并非纸上谈兵。此前，来自Parcae团队的实验数据已经表明：一个仅770M参数的循环模型，在同等训练数据下，能达到1.3B参数标准Transformer的下游任务性能。

换句话说——

用大约一半的参数，完成了同等级别的任务

。

这对整个行业意味着什么？对于消费级硬件而言，这无疑是一个重大利好。过去，想要运行一个像样的大模型，没有A100级别的显卡连门槛都摸不到。而现在，推理深度可以用时间换取空间——你不需要更大的显存，只需要让模型“多思考几圈”。

更深远的影响在于，它可能正在改写AI领域的扩展定律（Scaling Laws）。过去的竞争逻辑是比拼谁的参数更多、谁的GPU集群更庞大、谁的电费账单更厚。而新的规则似乎正在浮现：未来最强的模型，可能不是参数最多的，而是“思考”次数最多、最深的那一个。

当然，需要指出的是，这目前更多是一种理论上的推演和早期实验的指向，实际大规模应用的成效仍需观察。

高中毕业，就当上了CEO

这位揭开Claude Mythos神秘面纱的22岁年轻人Kye Gomez，是Swarms公司的创始人，此前还领导过Agora Labs。他的研究重点聚焦于大规模多智能体系统、替代性模型架构以及多模态模型。

从其个人主页信息来看，Kye Gomez高中毕业后便直接投身创业浪潮。

在2021年至2024年间，他同时担任了三家公司的联合创始人或CEO，并建立了一个以

「APAC」

为品牌的生态体系，业务覆盖了AI深科技、媒体、食品科技等多个前沿领域。

22岁小哥，开源了Anthropic神级模型

整件事最令人震撼的，或许并非架构本身有多么惊天动地。

而在于，一个22岁的创业者，仅凭公开的论文和第一性原理的推导，就将Anthropic雪藏近一年的技术黑箱成功复现，并且选择了全面开源，让任何人用几行代码就能尝试运行。

这释放了一个强烈的信号：闭源实验室在核心架构上的优势窗口期，正在以肉眼可见的速度收窄。

英国《金融时报》的最新报道中，Anthropic的联合创始人Dario Amodei做出了一个重磅预测：中国将在12个月内，完全复刻出具备Claude Mythos级别能力的大模型。

针对外界关于大语言模型性能是否触及天花板的质疑，Amodei用一句充满诗意的话作出了回应：“彩虹没有尽头，只有彩虹本身。”他强调，目前完全看不到技术发展放缓的迹象。

当一个人仅凭公开信息就能重建最核心的技术时，真正的护城河就不再仅仅是架构本身了。未来的竞争，或许将更多转向数据、工程实现、生态与应用。开源与开放的浪潮，正在重塑AI领域的创新格局。