Ornith-1.0快速摘要
Ornith-1.0是DeepReinforce于2026年6月推出的开源Agentic编程大模型系列,支持自改进训练与复杂软件工程任务自动化,适用于代码生成、终端执行与智能体开发场景。
- 模型名称:Ornith-1.0(模型系列,包含9B Dense、31B Dense、35B MoE、397B MoE等版本)
- 开发公司:DeepReinforce AI Team
- 发布时间:2026年6月(Jun. 2026官方发布)
- 模型类型:Agentic Coding Large Language Model Family(智能体编程大模型系列)
- 核心能力:支持智能编程、软件工程任务修复、终端命令执行与多步骤Agent任务规划
- 技术特点:采用Self-Scaffolding自改进训练框架,联合优化solution rollout与task scaffold
- 上下文长度:支持最高约262K context window(基于vLLM/SGLang部署配置)
- 开源协议:MIT License,可商用与二次开发
- 核心应用场景:GitHub自动修复、代码生成Agent、DevOps自动化、终端任务执行

Ornith-1.0的核心优势
- 自改进训练架构优势:通过Self-Scaffolding机制联合优化任务脚手架与代码输出,使模型在Terminal-Bench 2.1达到77.5分,相比传统RLHF提升约10%以上任务稳定性(据官方技术报告)。
- Agentic任务执行优势:支持工具调用与多步推理链执行,在SWE-Bench Verified取得82.4分,可自动完成代码修复、依赖分析与补丁生成任务。
- 多尺度模型覆盖优势:提供9B到397B MoE完整梯度版本,其中9B版本可在单卡设备运行,同时保持69.4 SWE-Bench性能(官方评测数据)。
- 代码与终端协同优势:模型可生成shell命令并执行上下文修正,在Terminal环境任务中实现高达78.2(Claude Code模式)表现。
- 开源与可部署优势:采用MIT协议并兼容vLLM、SGLang与OpenAI API接口,可快速集成到企业级CI/CD与Agent框架中。
Ornith-1.0的核心功能
- 代码生成与修复功能:输入“修复Python API报错日志”,模型可输出完整patch代码与依赖修改方案,在SWE-Bench任务中准确率达82.4%。
- Agent工具调用功能:支持function calling与shell执行,例如输入“列出项目文件结构”,自动生成ls命令并返回目录结构结果。
- 多步任务规划功能:可将复杂开发任务拆解为步骤执行,如“构建REST API服务”输出路由设计、数据库结构与部署脚本。
- 自生成脚手架功能:模型可生成task-specific scaffold(测试环境+执行逻辑),提升复杂任务成功率与稳定性。
- 多模型协同推理功能:在MoE架构下动态选择专家子网络,提高长上下文代码理解与跨文件分析能力。
Ornith-1.0的技术原理
- Self-Scaffolding架构:模型在RL训练中同时生成solution rollout与task scaffold,通过联合优化提升搜索路径质量(Jun.2026官方论文)。
- 强化学习优化机制:采用GRPO-style token weighting,对不同阶段生成token进行staleness加权,优化长序列代码生成稳定性。
- MoE混合专家结构:397B版本采用MoE架构,根据任务动态路由不同专家子网络,提高推理效率与复杂代码处理能力。
- 双阶段生成机制:第一阶段生成任务执行脚手架,第二阶段基于脚手架生成最终代码输出,实现结构化推理。
- 工具调用解析机制:通过Qwen XML tool-call parser识别函数调用结构,实现OpenAI API兼容的tool_calls输出格式。
Ornith-1.0与主流模型对比
| 维度 | Ornith-1.0-397B | DeepSeek-V4-Pro | Claude Opus 4.7 |
|---|---|---|---|
| 参数规模 | 397B MoE | 未完全公开(超大规模MoE) | 闭源未公开 |
| Terminal-Bench 2.1 | 77.5 | 67.9 | 70.3 |
| SWE-Bench Verified | 82.4 | 80.6 | 80.8 |
| 上下文长度 | 262K | 128K-200K(推测) | 200K+ |
| 开源协议 | MIT | 开源协议未完全统一 | 闭源 |
从基准测试数据来看,Ornith-1.0-397B在Terminal-Bench 2.1与SWE-Bench Verified上均表现出较高任务完成率,主要优势来自Self-Scaffolding训练机制与RL驱动的任务结构优化。相比DeepSeek-V4-Pro,其优势体现在agentic任务规划能力,而相比Claude Opus 4.7,则在开源可部署性与本地Agent集成方面更具灵活性。
如何使用Ornith-1.0
- 模型获取:从HuggingFace下载Ornith-1.0系列模型权重,根据设备选择9B/35B/397B版本,支持MIT协议直接商用部署。
- 本地部署:使用vLLM或SGLang启动服务,例如设置
--tensor-parallel-size 8与--max-model-len 262144实现长上下文推理。 - API调用:通过OpenAI兼容接口调用/chat/completions,传入messages与tools参数实现Agent功能。
- Agent集成:可接入OpenHands、OpenClaw等框架,实现自动化代码修复与任务执行。
- 效果优化:建议temperature设置
0.6–0.8,top_p 0.95,可提升代码生成稳定性与减少逻辑漂移。
Ornith-1.0的局限性
- 高算力依赖限制:397B MoE版本需要多卡GPU(8×80GB级别)才能稳定运行,单机部署成本较高(官方部署建议)。
- 长任务稳定性问题:在超长链式Agent任务中可能出现步骤漂移,原因在于RL生成scaffold仍存在不确定性,官方正在优化reward shaping机制。
- 工具调用误差风险:在复杂function calling场景中可能出现参数解析偏差,需依赖外部validator进行二次校验。
Ornith-1.0相关资源
- 项目官网:https://deep-reinforce.com/ornith_1_0.html
- HuggingFace模型库:https://huggingface.co/collections/deepreinforce-ai/ornith-10
Ornith-1.0的典型应用场景
- 代码自动修复场景:输入GitHub Issue或报错日志,模型输出修复代码与补丁方案,用于CI/CD自动修复流程。
- DevOps自动化场景:输入服务器状态描述,模型生成shell脚本与部署命令,实现运维自动化执行。
- AI编程助手场景:在IDE中实时补全跨文件代码逻辑,提高开发效率并减少重复编码工作。
- 复杂Agent任务场景:用于多步骤软件工程任务拆解,如数据库设计、API设计与服务部署一体化生成。
- 终端智能执行场景:输入自然语言任务描述,模型转换为可执行shell命令并反馈执行结果。
Ornith-1.0常见问题
Ornith-1.0是什么类型模型?
Ornith-1.0是DeepReinforce推出的Agentic编程大模型系列,属于多规模MoE与Dense混合架构模型族,专注软件工程与代码生成任务。
Ornith-1.0和Claude Opus 4.7哪个好?
根据Terminal-Bench 2.1与SWE-Bench Verified测试,Ornith-1.0-397B在部分编程任务上接近或超过Claude Opus 4.7,但Claude在通用对话稳定性上更强。
Ornith-1.0支持免费使用吗?
模型本身采用MIT开源协议,可免费使用,但实际运行需GPU算力成本,企业级部署通常涉及基础设施费用。
Ornith-1.0如何部署使用?
可通过vLLM或SGLang部署OpenAI兼容API服务,或直接通过HuggingFace Transformers加载模型进行本地推理。
Ornith-1.0适合哪些场景?
适用于代码生成、软件工程自动化、DevOps运维、Agent任务执行与终端命令自动化等复杂编程场景。
© 版权声明
本站文章版权归AI工具箱所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...
浙公网安备33010202004812号