Ornith-1.0 - DeepReinforce 开源的 Agentic 编程系列模型
来源:互联网
时间:2026-06-26 13:41:25
Ornith-1.0是什么
先说几个核心判断:在Agentic编程这个赛道上,DeepReinforce团队拿出的Ornith-1.0,确实有点东西。这个模型系列基于Gemma 4和Qwen 3.5的预训练权重,用了一套自改进的训练框架,在代码生成和软件工程基准上,直接把同级别开源模型的成绩拉到了新高度。简单说,就是给智能体编程任务量身定制的大模型方案。
Ornith-1.0的主要功能
这个系列到底能做什么?我们拆开来看:
- :9B Dense、31B Dense、35B MoE、397B MoE,四种规格摆出来,从手机边缘设备到机房服务器,总有一款适合你的硬件。
全规格覆盖
- :它不是那种只会写个冒泡排序的“玩具”,而是真能处理复杂软件工程问题——代码修复、功能实现、终端命令执行,自动化程度相当高。
Agentic 编程
- :这点特别有意思。模型能自己生成任务特有的脚手架(harness),然后顺着这个框架去优化方案的搜索路径,等于自己给自己搭梯子。
自改进脚手架生成
- :已经上架HuggingFace,接口兼容OpenAI API,本地部署方案也给齐了,落地门槛不高。
本地部署兼容
(注:原文包含的推广内容已按要求移除)
Ornith-1.0的技术原理
技术底子是如何打的?这里有几个关键点:
- :在Gemma 4和Qwen 3.5的预训练权重上做后训练,直接继承了它们扎实的语言理解和代码生成能力。
基座模型
- :和传统强化学习那种依赖人工设计脚手架的路子完全不同。Ornith-1.0的做法是——让模型同时生成解决方案的rollout和任务特定的harness,两者在训练过程中互相配合、协同优化。
自改进训练框架
- :训练时把任务脚手架和生成结果放在一起优化,模型自己能找到更优的搜索轨迹。说白了,就是越练越会“找捷径”。
联合优化机制
如何使用Ornith-1.0
上手流程并不复杂,主要四步:先上HuggingFace搜Ornith-1.0系列,根据你的硬件配置下载对应规格——边缘设备用9B,服务器集群上397B。然后本地部署,接口兼容OpenAI API,集成到现有开发流程或Agent框架里都行。最后一步,针对Agentic coding场景,把模型接入IDE插件或自动化软件工程流水线。搞定。
Ornith-1.0的核心优势
这个模型系列的竞争力在哪?数据说话:
- :397B旗舰版在Terminal-Bench 2.1上拿到77.5分,SWE-Bench Verified更是飙到82.4分——这个成绩已经超过了Claude Opus 4.7。
同级 SOTA
- :35B MoE版本在Terminal-Bench 2.1上以64.4分的成绩,超越了397B参数的Qwen 3.5-397B(53.5分)。小模型打得过大模型,这才是真本事。
越级性能
- :9B版本在低资源环境下的表现,直接对标Gemma 4-31B和Qwen 3.6 35B。对于资源受限的场景来说,这是个非常实用的选择。
边缘友好
Ornith-1.0的项目地址
- :https://deep-reinforce.com/ornith_1_0.html
项目官网
- :https://huggingface.co/collections/deepreinforce-ai/ornith-10
HuggingFace模型库
Ornith-1.0的同类竞品对比
和DeepSeek-V4-Pro摆在一起看,Ornith-1.0的差异化路线就很清晰了:
| 对比维度 | Ornith-1.0 | DeepSeek-V4-Pro |
|---|---|---|
参数规模 | 9B / 31B Dense、35B / 397B MoE(全系列梯度覆盖) | 超大参数(具体规格未公开细分梯度) |
开源协议 | MIT | 开源(具体协议以官方为准) |
Terminal-Bench 2.1 | 77.564.4 | 67.9 |
SWE-Bench Verified | 82.4 | 80.6 |
核心训练方法 | 自改进训练框架 | RLHF + 规则驱动优化 |
模型定位 | Agentic 编程专用 | 通用编程开源 |
部署灵活性 | 全规格覆盖:9B 可部署至边缘设备,397B 面向服务器集群 | 主要聚焦超大参数版本,边缘部署受限 |
Ornith-1.0的应用场景
最后说说它能用在什么地方:
- :作为AI程序员的核心引擎,自动处理GitHub Issue修复、代码审查和功能开发——日常开发工作流的自动化利器。
智能体编程助手
- :基于Terminal-Bench的优化能力,执行复杂的服务器运维、数据分析和自动化脚本任务。运维团队应该会很喜欢这个。
终端命令智能体
- :9B版本集成到本地IDE插件或离线开发环境,资源受限场景也能获得实时代码补全能力。
边缘设备代码辅助
- :397B旗舰版更适合大型代码库维护、跨文件重构和复杂软件架构设计。大项目需要大模型。
企业级软件工程