Ornith-1.0 – DeepReinforce推出的Agentic编程开源大模型系列

AI模型3小时前更新老高

16 0 1

Ornith-1.0快速摘要

Ornith-1.0是DeepReinforce于2026年6月推出的开源Agentic编程大模型系列，支持自改进训练与复杂软件工程任务自动化，适用于代码生成、终端执行与智能体开发场景。

模型名称：Ornith-1.0（模型系列，包含9B Dense、31B Dense、35B MoE、397B MoE等版本）
开发公司：DeepReinforce AI Team
发布时间：2026年6月（Jun. 2026官方发布）
模型类型：Agentic Coding Large Language Model Family（智能体编程大模型系列）
核心能力：支持智能编程、软件工程任务修复、终端命令执行与多步骤Agent任务规划
技术特点：采用Self-Scaffolding自改进训练框架，联合优化solution rollout与task scaffold
上下文长度：支持最高约262K context window（基于vLLM/SGLang部署配置）
开源协议：MIT License，可商用与二次开发
核心应用场景：GitHub自动修复、代码生成Agent、DevOps自动化、终端任务执行

Ornith-1.0的核心优势

自改进训练架构优势：通过Self-Scaffolding机制联合优化任务脚手架与代码输出，使模型在Terminal-Bench 2.1达到77.5分，相比传统RLHF提升约10%以上任务稳定性（据官方技术报告）。
Agentic任务执行优势：支持工具调用与多步推理链执行，在SWE-Bench Verified取得82.4分，可自动完成代码修复、依赖分析与补丁生成任务。
多尺度模型覆盖优势：提供9B到397B MoE完整梯度版本，其中9B版本可在单卡设备运行，同时保持69.4 SWE-Bench性能（官方评测数据）。
代码与终端协同优势：模型可生成shell命令并执行上下文修正，在Terminal环境任务中实现高达78.2（Claude Code模式）表现。
开源与可部署优势：采用MIT协议并兼容vLLM、SGLang与OpenAI API接口，可快速集成到企业级CI/CD与Agent框架中。

Ornith-1.0的核心功能

代码生成与修复功能：输入“修复Python API报错日志”，模型可输出完整patch代码与依赖修改方案，在SWE-Bench任务中准确率达82.4%。
Agent工具调用功能：支持function calling与shell执行，例如输入“列出项目文件结构”，自动生成ls命令并返回目录结构结果。
多步任务规划功能：可将复杂开发任务拆解为步骤执行，如“构建REST API服务”输出路由设计、数据库结构与部署脚本。
自生成脚手架功能：模型可生成task-specific scaffold（测试环境+执行逻辑），提升复杂任务成功率与稳定性。
多模型协同推理功能：在MoE架构下动态选择专家子网络，提高长上下文代码理解与跨文件分析能力。

Ornith-1.0的技术原理

Self-Scaffolding架构：模型在RL训练中同时生成solution rollout与task scaffold，通过联合优化提升搜索路径质量（Jun.2026官方论文）。
强化学习优化机制：采用GRPO-style token weighting，对不同阶段生成token进行staleness加权，优化长序列代码生成稳定性。
MoE混合专家结构：397B版本采用MoE架构，根据任务动态路由不同专家子网络，提高推理效率与复杂代码处理能力。
双阶段生成机制：第一阶段生成任务执行脚手架，第二阶段基于脚手架生成最终代码输出，实现结构化推理。
工具调用解析机制：通过Qwen XML tool-call parser识别函数调用结构，实现OpenAI API兼容的tool_calls输出格式。

Ornith-1.0与主流模型对比

维度	Ornith-1.0-397B	DeepSeek-V4-Pro	Claude Opus 4.7
参数规模	397B MoE	未完全公开（超大规模MoE）	闭源未公开
Terminal-Bench 2.1	77.5	67.9	70.3
SWE-Bench Verified	82.4	80.6	80.8
上下文长度	262K	128K-200K（推测）	200K+
开源协议	MIT	开源协议未完全统一	闭源

从基准测试数据来看，Ornith-1.0-397B在Terminal-Bench 2.1与SWE-Bench Verified上均表现出较高任务完成率，主要优势来自Self-Scaffolding训练机制与RL驱动的任务结构优化。相比DeepSeek-V4-Pro，其优势体现在agentic任务规划能力，而相比Claude Opus 4.7，则在开源可部署性与本地Agent集成方面更具灵活性。

如何使用Ornith-1.0

模型获取：从HuggingFace下载Ornith-1.0系列模型权重，根据设备选择9B/35B/397B版本，支持MIT协议直接商用部署。
本地部署：使用vLLM或SGLang启动服务，例如设置--tensor-parallel-size 8与--max-model-len 262144实现长上下文推理。
API调用：通过OpenAI兼容接口调用/chat/completions，传入messages与tools参数实现Agent功能。
Agent集成：可接入OpenHands、OpenClaw等框架，实现自动化代码修复与任务执行。
效果优化：建议temperature设置0.6–0.8，top_p 0.95，可提升代码生成稳定性与减少逻辑漂移。

Ornith-1.0的局限性

高算力依赖限制：397B MoE版本需要多卡GPU（8×80GB级别）才能稳定运行，单机部署成本较高（官方部署建议）。
长任务稳定性问题：在超长链式Agent任务中可能出现步骤漂移，原因在于RL生成scaffold仍存在不确定性，官方正在优化reward shaping机制。
工具调用误差风险：在复杂function calling场景中可能出现参数解析偏差，需依赖外部validator进行二次校验。

Ornith-1.0相关资源

项目官网：https://deep-reinforce.com/ornith_1_0.html
HuggingFace模型库：https://huggingface.co/collections/deepreinforce-ai/ornith-10

Ornith-1.0的典型应用场景

代码自动修复场景：输入GitHub Issue或报错日志，模型输出修复代码与补丁方案，用于CI/CD自动修复流程。
DevOps自动化场景：输入服务器状态描述，模型生成shell脚本与部署命令，实现运维自动化执行。
AI编程助手场景：在IDE中实时补全跨文件代码逻辑，提高开发效率并减少重复编码工作。
复杂Agent任务场景：用于多步骤软件工程任务拆解，如数据库设计、API设计与服务部署一体化生成。
终端智能执行场景：输入自然语言任务描述，模型转换为可执行shell命令并反馈执行结果。

Ornith-1.0常见问题

Ornith-1.0是什么类型模型？

Ornith-1.0是DeepReinforce推出的Agentic编程大模型系列，属于多规模MoE与Dense混合架构模型族，专注软件工程与代码生成任务。

Ornith-1.0和Claude Opus 4.7哪个好？

根据Terminal-Bench 2.1与SWE-Bench Verified测试，Ornith-1.0-397B在部分编程任务上接近或超过Claude Opus 4.7，但Claude在通用对话稳定性上更强。

Ornith-1.0支持免费使用吗？

模型本身采用MIT开源协议，可免费使用，但实际运行需GPU算力成本，企业级部署通常涉及基础设施费用。

Ornith-1.0如何部署使用？

可通过vLLM或SGLang部署OpenAI兼容API服务，或直接通过HuggingFace Transformers加载模型进行本地推理。

Ornith-1.0适合哪些场景？

适用于代码生成、软件工程自动化、DevOps运维、Agent任务执行与终端命令自动化等复杂编程场景。

# AI模型 # AI编程模型

本站文章版权归AI工具箱所有，未经允许禁止任何形式的转载。

M2.5 – MiniMax推出的编程与Agent执行旗舰大模型

老高

699 0

Qwen3.6-27B – 阿里通义开源的旗舰智能体编程模型

老高

868 1

GPT-5.3-Codex – OpenAI 推出的新一代高级智能编码与工程执行模型

老高

482 1

Composer 2 – Cursor推出的基于大语言模型的AI编程专用模型

老高

320 1

Claude Opus 4.8 – Anthropic发布旗舰级Agentic大语言模型与推理系统

老高

944 1

ABot-Earth 0.5 – 高德推出的3D原生城市世界模型与数字地球生成平台

老高

295 1

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...