标签:大模型训练框架

EAPO – 阿里通义实验室推出的长上下文推理强化学习框架

EAPO是阿里巴巴通义实验室推出的推理增强型强化学习框架,用于优化大语言模型在长上下文、多文档问答与复杂推理任务中的表现。通过GRPO与证据奖励机制提升推...