Ornith-1.0 – DeepReinforce推出的Agentic编程开源大模型系列

AI模型3小时前更新 老高
16 0

Ornith-1.0快速摘要

Ornith-1.0是DeepReinforce于2026年6月推出的开源Agentic编程大模型系列,支持自改进训练与复杂软件工程任务自动化,适用于代码生成、终端执行与智能体开发场景。

  • 模型名称:Ornith-1.0(模型系列,包含9B Dense、31B Dense、35B MoE、397B MoE等版本)
  • 开发公司:DeepReinforce AI Team
  • 发布时间:2026年6月(Jun. 2026官方发布)
  • 模型类型:Agentic Coding Large Language Model Family(智能体编程大模型系列)
  • 核心能力:支持智能编程、软件工程任务修复、终端命令执行与多步骤Agent任务规划
  • 技术特点:采用Self-Scaffolding自改进训练框架,联合优化solution rollout与task scaffold
  • 上下文长度:支持最高约262K context window(基于vLLM/SGLang部署配置)
  • 开源协议:MIT License,可商用与二次开发
  • 核心应用场景:GitHub自动修复、代码生成Agent、DevOps自动化、终端任务执行
Ornith-1.0 Agentic编程开源大模型系列

Ornith-1.0的核心优势

  • 自改进训练架构优势:通过Self-Scaffolding机制联合优化任务脚手架与代码输出,使模型在Terminal-Bench 2.1达到77.5分,相比传统RLHF提升约10%以上任务稳定性(据官方技术报告)。
  • Agentic任务执行优势:支持工具调用与多步推理链执行,在SWE-Bench Verified取得82.4分,可自动完成代码修复、依赖分析与补丁生成任务。
  • 多尺度模型覆盖优势:提供9B到397B MoE完整梯度版本,其中9B版本可在单卡设备运行,同时保持69.4 SWE-Bench性能(官方评测数据)。
  • 代码与终端协同优势:模型可生成shell命令并执行上下文修正,在Terminal环境任务中实现高达78.2(Claude Code模式)表现。
  • 开源与可部署优势:采用MIT协议并兼容vLLM、SGLang与OpenAI API接口,可快速集成到企业级CI/CD与Agent框架中。

Ornith-1.0的核心功能

  • 代码生成与修复功能:输入“修复Python API报错日志”,模型可输出完整patch代码与依赖修改方案,在SWE-Bench任务中准确率达82.4%。
  • Agent工具调用功能:支持function calling与shell执行,例如输入“列出项目文件结构”,自动生成ls命令并返回目录结构结果。
  • 多步任务规划功能:可将复杂开发任务拆解为步骤执行,如“构建REST API服务”输出路由设计、数据库结构与部署脚本。
  • 自生成脚手架功能:模型可生成task-specific scaffold(测试环境+执行逻辑),提升复杂任务成功率与稳定性。
  • 多模型协同推理功能:在MoE架构下动态选择专家子网络,提高长上下文代码理解与跨文件分析能力。

Ornith-1.0的技术原理

  • Self-Scaffolding架构:模型在RL训练中同时生成solution rollout与task scaffold,通过联合优化提升搜索路径质量(Jun.2026官方论文)。
  • 强化学习优化机制:采用GRPO-style token weighting,对不同阶段生成token进行staleness加权,优化长序列代码生成稳定性。
  • MoE混合专家结构:397B版本采用MoE架构,根据任务动态路由不同专家子网络,提高推理效率与复杂代码处理能力。
  • 双阶段生成机制:第一阶段生成任务执行脚手架,第二阶段基于脚手架生成最终代码输出,实现结构化推理。
  • 工具调用解析机制:通过Qwen XML tool-call parser识别函数调用结构,实现OpenAI API兼容的tool_calls输出格式。

Ornith-1.0与主流模型对比

维度Ornith-1.0-397BDeepSeek-V4-ProClaude Opus 4.7
参数规模397B MoE未完全公开(超大规模MoE)闭源未公开
Terminal-Bench 2.177.567.970.3
SWE-Bench Verified82.480.680.8
上下文长度262K128K-200K(推测)200K+
开源协议MIT开源协议未完全统一闭源

从基准测试数据来看,Ornith-1.0-397B在Terminal-Bench 2.1与SWE-Bench Verified上均表现出较高任务完成率,主要优势来自Self-Scaffolding训练机制与RL驱动的任务结构优化。相比DeepSeek-V4-Pro,其优势体现在agentic任务规划能力,而相比Claude Opus 4.7,则在开源可部署性与本地Agent集成方面更具灵活性。

如何使用Ornith-1.0

  1. 模型获取:从HuggingFace下载Ornith-1.0系列模型权重,根据设备选择9B/35B/397B版本,支持MIT协议直接商用部署。
  2. 本地部署:使用vLLM或SGLang启动服务,例如设置--tensor-parallel-size 8--max-model-len 262144实现长上下文推理。
  3. API调用:通过OpenAI兼容接口调用/chat/completions,传入messages与tools参数实现Agent功能。
  4. Agent集成:可接入OpenHands、OpenClaw等框架,实现自动化代码修复与任务执行。
  5. 效果优化:建议temperature设置0.6–0.8top_p 0.95,可提升代码生成稳定性与减少逻辑漂移。

Ornith-1.0的局限性

  • 高算力依赖限制:397B MoE版本需要多卡GPU(8×80GB级别)才能稳定运行,单机部署成本较高(官方部署建议)。
  • 长任务稳定性问题:在超长链式Agent任务中可能出现步骤漂移,原因在于RL生成scaffold仍存在不确定性,官方正在优化reward shaping机制。
  • 工具调用误差风险:在复杂function calling场景中可能出现参数解析偏差,需依赖外部validator进行二次校验。

Ornith-1.0相关资源

Ornith-1.0的典型应用场景

  • 代码自动修复场景:输入GitHub Issue或报错日志,模型输出修复代码与补丁方案,用于CI/CD自动修复流程。
  • DevOps自动化场景:输入服务器状态描述,模型生成shell脚本与部署命令,实现运维自动化执行。
  • AI编程助手场景:在IDE中实时补全跨文件代码逻辑,提高开发效率并减少重复编码工作。
  • 复杂Agent任务场景:用于多步骤软件工程任务拆解,如数据库设计、API设计与服务部署一体化生成。
  • 终端智能执行场景:输入自然语言任务描述,模型转换为可执行shell命令并反馈执行结果。

Ornith-1.0常见问题

Ornith-1.0是什么类型模型?

Ornith-1.0是DeepReinforce推出的Agentic编程大模型系列,属于多规模MoE与Dense混合架构模型族,专注软件工程与代码生成任务。

Ornith-1.0和Claude Opus 4.7哪个好?

根据Terminal-Bench 2.1与SWE-Bench Verified测试,Ornith-1.0-397B在部分编程任务上接近或超过Claude Opus 4.7,但Claude在通用对话稳定性上更强。

Ornith-1.0支持免费使用吗?

模型本身采用MIT开源协议,可免费使用,但实际运行需GPU算力成本,企业级部署通常涉及基础设施费用。

Ornith-1.0如何部署使用?

可通过vLLM或SGLang部署OpenAI兼容API服务,或直接通过HuggingFace Transformers加载模型进行本地推理。

Ornith-1.0适合哪些场景?

适用于代码生成、软件工程自动化、DevOps运维、Agent任务执行与终端命令自动化等复杂编程场景。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...