AI模型测评工具推荐 - 模型打分、横向对比、体验报告合集 | AI工具箱

AI模型评测

一个用于评估语言模型在多任务、多领域知识推理和理解能力的基准测试工具

Open LLM Leaderboard

一个由Hugging Face提供的开源大语言模型（LLMs）和聊天机器人性能评测平台

一个由上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

北京智源人工智能研究院推出的大模型评测体系及开放平台

中文通用大模型综合性测评基准

一个AI大模型评测社区

一个专门为评估语言模型在中文语境下的知识和推理能力而设计的综合性评估基准

由OpenCompass社区开发的多模态基准测试工具

斯坦福大学CRFM团队开发的一个轻量级语言模型评估基准

Chatbot Arena

是一个基于人类偏好评估AI聊天机器人性能的开放平台

H2O Eval Studio

由H2O.ai开发的一款企业级AI模型评估平台

一个用于生物医学研究问题回答的数据集

一款集大模型评测、统一API调用与智能路由于一体的开发者级AI聚合平台。

AI工具箱导航官网汇集了来自国内外的上千款AI工具。每日更新和添加最新的AI工具。此外还收录了常用的AI学习开发网站、框架和模型。帮助你轻松跟上人工智能的步伐，实现任务自动化，提升工作效率！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

友链申请免责声明广告合作关于我们

Copyright © 2026 AI工具箱浙ICP备2024072740号-1

浙公网安备33010202004812号