标签：框架评估

PawBench – 阿里通义实验室推出的模型与Harness联合评测基准

PawBench是通义实验室推出的通用智能体评测基准，用于评估模型与Harness在真实Agent任务中的联合表现，覆盖150个任务与4050个测试单元，支持多模型与多运行框...

AI模型

2个月前

AI工具箱导航官网汇集了来自国内外的上千款AI工具。每日更新和添加最新的AI工具。此外还收录了常用的AI学习开发网站、框架和模型。帮助你轻松跟上人工智能的步伐，实现任务自动化，提升工作效率！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。