Skywork-Reward-V2是什么
Skywork-Reward-V2 是昆仑万维团队在 2025 年 7 月发布的第二代开源奖励模型(Reward Model)系列,涵盖 8 款不同参数规模的模型,参数量从 6 亿到 80 亿不等,分别基于 Qwen3 和 LLaMA3 等主流预训练模型进行训练。这一系列模型在七大主流奖励模型评测基准(如 RewardBench v1/v2、PPE、RM‑Bench、JudgeBench 等)中全面领先,在“人类偏好对齐”“客观正确性”“安全性”等方面均表现出色。

Skywork-Reward-V2的主要功能
- 通用偏好对齐:训练模型学习人类偏好,从多个候选回答中选出最贴近用户真实需求的内容。
- 客观正确性评估:提升模型识别客观事实能力,降低幻觉问题的发生概率。
- 安全性判断:自动识别与规避有害、暴力、违法等内容,强化输出的合规性。
- Best‑of‑N扩展能力:在多项输出中,智能判断质量最高者,常用于增强生成模型的稳定性与效果。
- 风格偏差抵抗:即使回答风格不同,仍能保持评价客观性,提升排序公正性。
Skywork-Reward-V2的使用步骤
- 注册与登录
访问 Skywork 的 GitHub 或 Hugging Face 页面,注册账号或连接 API。 - 下载或加载模型
在 GitHub 下载源代码与模型,或通过 Hugging Face 直接调用开源模型权重。 - 准备偏好数据
使用官方提供的 Skywork-SynPref-40M 数据集(4,000 万对偏好数据)。 - 微调或评估模型
采用 Bradley-Terry 比较训练法,训练模型学习排序逻辑。 - 部署与调用
将训练好的 Reward Model 集成至 RLHF 或自定义 AI 系统中,实现完整反馈闭环。
Skywork-Reward-V2的项目原理
- 混合偏好数据生成机制
昆仑万维通过两阶段人机协同构建 Skywork-SynPref-40M,第一阶段由人工筛选,第二阶段通过 LLM+规则引擎生成银标准数据。 - Bradley‑Terry 模型排序训练
采用 BT 模型对对比偏好数据建模,使 Reward Model 能准确评价多种候选答案。 - 迭代增强机制
使用多轮训练策略持续提升模型对边缘场景的鲁棒性,兼顾小模型轻量化与高性能。 - 多参数规模支持
提供从 0.6B 到 8B 多版本,适配不同场景对计算资源与推理速度的需求。
Skywork-Reward-V2的项目地址
- GitHub 仓库(含源码与模型权重):
https://github.com/SkyworkAI/Skywork-Reward-V2 - Hugging Face 模型集合:
https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84 - 官方论文(arXiv 预印本):
https://arxiv.org/pdf/2507.01352
Skywork-Reward-V2的使用场景
- 对话系统强化学习优化(RLHF)
替代人工排序环节,提高效率并保障一致性。 - 智能推荐排序优化
为推荐系统提供排序基础,提高用户满意度。 - 教育测评工具
用于主观题自动评分系统,辅助教学评估。 - 内容安全审核系统
嵌入内容审核平台,对模型输出进行风控判断。 - 游戏文本生成优化
游戏剧情 AI 对话排序选优,提升沉浸感。
Skywork-Reward-V2的常见问题和回答
- Skywork-Reward-V2可以离线使用吗?
- 答:支持,下载模型后可本地运行,特别适合企业部署环境。
- 数据集 Skywork‑SynPref‑40M 是否开源?
- 答:是的,数据和说明文档都在 GitHub 项目中公开发布。
- 小模型性能是否达标?
- 答:0.6B 与 1.7B 模型性能已优于上一代大型模型,适合部署边缘端。
- 是否可以训练自己偏好的奖励模型?
- 答:可以使用自定义偏好数据结合 BT 方法训练专属 Reward Model。
- 模型支持中英文吗?
- 答:支持双语,尤其对中文场景进行了优化。
相关导航
暂无评论...