Models.dev - OpenCode 团队开源的 AI 模型数据库
对于开发者来说,选型AI模型正变得越来越像一场信息搜集的“苦力活”。OpenAI、Anthropic、Google、Meta……每家厂商的模型规格、定价策略、能力边界都散落在各自的官方文档里,想要横向对比,就得在无数个浏览器标签页之间反复横跳。更别提精确估算项目成本了,那简直是一场噩梦。
好在,这个痛点现在有了一个相当优雅的解决方案——Models.dev。
Models.dev是什么
简单来说,Models.dev是OpenCode团队开源的一个AI模型“中央数据库”。它的核心使命,就是把市面上主流AI厂商的模型信息,用一种标准化的方式整合起来。
它采用TOML格式来组织数据,覆盖了从价格、上下文窗口长度,到是否支持工具调用、知识截止日期等所有关键规格。最方便的是,所有数据都通过一个公开的JSON API(models.dev/api.json)提供,开发者可以直接调用,轻松集成到自己的选型工具或成本计算器里。这相当于为整个AI开发生态,搭建了一个统一、透明的模型信息查询层。
Models.dev的主要功能
这个项目的价值,具体体现在以下几个非常实用的功能上:
- :它收录了数十家主流厂商的基础对话模型和专业领域模型。开发者再也不用为了查一个参数而在多个官网间疲于奔命了。
一站式模型信息查询
- :这是它的杀手锏之一。数据库详细记录了每个模型输入、输出、推理、缓存读取/写入的每百万token成本(以美元计),甚至包括音频输入输出的成本。项目预算估算从此有了可靠的数据支撑。
精确成本估算
- :它用标准化的字段,清晰展示模型是否支持工具调用、思维链推理、结构化输出、温度控制、文件附件等能力,并列出知识截止日期、上下文窗口、最大输入输出token数、支持模态等硬指标。对比选型变得一目了然。
能力规格对比
- :所有数据都可通过
公开 JSON API
models.dev/api.json这个接口直接获取。这意味着开发者可以基于此构建自己的模型管理面板、智能选型助手,或者将实时价格数据嵌入内部系统。 - :通过
提供商 Logo 获取
models.dev/logos/{provider}.svg这样的简单接口,就能直接获取各厂商的官方Logo,方便在自家产品中进行展示。 - :所有数据都以TOML格式按提供商分类存储,并开源在GitHub上。这种开放模式鼓励社区共同贡献和修正,确保了数据库能够跟随AI行业的快速迭代而持续更新。
社区协作维护
Models.dev的技术原理
值得注意的是,原文中关于“技术原理”的部分,描述的似乎是另一个名为“OpenMythos”的循环Transformer模型架构,而非Models.dev这个数据库项目本身。这里可能存在信息混淆。Models.dev作为一个数据服务项目,其技术重点在于数据抓取、标准化和API服务,而非模型架构。因此,以下对原文该部分内容进行保留性转述,但需明确这并非Models.dev的核心:
- :输入经Prelude(标准Transformer层)编码后,进入Recurrent Block循环迭代T次,最后由Coda输出;每次循环通过注入原始输入防止隐状态漂移。
三阶段循环架构
- :每次循环等效于一步Chain-of-Thought推理,但在连续潜空间静默运行,不输出中间token;支持同时编码多条推理路径。
隐式思维链
- :将循环视为线性时不变系统,通过参数化保证谱半径小于1,从根本上解决训练不稳定的问题。
LTI稳定约束
- :MoE提供跨领域广度,循环机制提供推理深度;隐藏状态在循环中演化时,路由器可能选择不同专家子集。
MoE+循环协同
- :支持ACT机制,模型动态决定何时停止循环,避免“过度思考”。
自适应停止
如何使用Models.dev
同样,此部分“如何使用”也是针对“OpenMythos”模型的,而非Models.dev数据库。Models.dev的使用方式主要是通过其网站查询或调用其API。为保持原文信息完整,此处仍作转述:
- :
安装
pip install open-mythos,可选[flash]启用Flash Attention 2。 - :选择
配置
mla或gqa注意力类型,使用MythosConfig设置维度、头数、循环次数等参数。 - :
创建模型
OpenMythos(cfg)初始化网络。 - :调用
推理生成
model.generate(max_new_tokens=8, n_loops=8),通过n_loops控制推理深度。 - :使用
训练
training/3b_fine_web_edu.py脚本,单卡直接运行或多卡通过torchrun启动。
Models.dev的关键信息和使用要求
此部分继续针对“OpenMythos”模型:
- :Python + PyTorch;Flash Attention 2需CUDA与编译工具链。
环境
- :使用
分词器
openai/gpt-oss-20b分词器。 - :H100/A100推荐bfloat16,旧GPU使用float16 + GradScaler。
精度
- :AdamW优化器,线性warmup 2000步后余弦衰减,目标约30B tokens。
训练配置
- :从1B实验模型到1T理论配置均有预定义参数。
规模覆盖
Models.dev的核心优势
此部分描述的是“OpenMythos”模型架构的优势:
- :k层循环L次等效于kL层固定深度网络,参数量仅k层规模,内存不随推理深度增长。
参数高效
- :测试时增加循环次数即可提升推理能力,遵循可预测的饱和指数衰减规律。
推理可扩展
- :LTI约束机制彻底解决循环模型训练不稳定和损失尖峰问题。
训练稳定
- :在分布外(OOD)组合推理上表现优异,通过“顿悟”式三阶段过程实现能力跃迁。
系统泛化
- :训练5步推理链,测试时可成功扩展至10步, vanilla Transformer则失败。
深度外推
Models.dev的项目地址
- :https://models.dev/
项目官网
- :https://github.com/anomalyco/models.dev
GitHub仓库
Models.dev的同类竞品对比
这里的竞品对比,实际上是在比较“OpenMythos”模型与其他主流开源模型:
| 维度 | OpenMythos | DeepSeek-V3 | Qwen2.5 |
|---|---|---|---|
核心架构 |
循环深度Transformer(RDT) | MoE Transformer | Dense / MoE Transformer |
注意力机制 |
MLA / GQA 可切换 | MLA | GQA |
循环推理 |
核心特性(潜空间隐式CoT) | 无 | 无 |
开源程度 |
完全开源(代码+训练脚本+文档) | 开源权重 | 开源权重 |
模型规模 |
1B – 1T 预配置 | 671B(总参) | 0.5B – 72B 等 |
产品定位 |
研究验证 / 理论复刻 | 生产级通用模型 | 生产级通用模型 |
推理扩展 |
增加循环次数扩展深度 | 固定层数 | 固定层数 |
Models.dev的应用场景
此部分描述的依然是“OpenMythos”模型的研究应用场景:
- :验证循环Transformer、隐式推理链与测试时计算扩展理论。
AI架构研究
- :对比MLA与GQA在循环架构下的KV缓存效率与推理质量。
注意力机制实验
- :测试稀疏专家路由与循环深度结合对多领域任务的影响。
MoE研究
- :基于开源代码和脚本,在FineWeb-Edu等数据集上从头训练自定义规模模型。
模型训练
- :验证LTI约束、谱半径控制与连续深度批处理等技术的实际效果。
稳定性研究
总而言之,Models.dev项目精准地切入了一个真实且普遍的需求缝隙,通过提供标准化、可编程访问的模型元数据,为开发者扫除了选型阶段的一大障碍。而文中混编介绍的OpenMythos模型,则展示了一种在架构层面追求更高推理效率和深度扩展性的前沿探索。两者分别从“信息基础设施”和“底层架构创新”的角度,回应了当前AI开发中的不同挑战。