标签:框架评估

PawBench – 阿里通义实验室推出的模型与Harness联合评测基准

PawBench是通义实验室推出的通用智能体评测基准,用于评估模型与Harness在真实Agent任务中的联合表现,覆盖150个任务与4050个测试单元,支持多模型与多运行框...