一个用于评估语言模型在多任务、多领域知识推理和理解能力的基准测试工具
一个由Hugging Face提供的开源大语言模型(LLMs)和聊天机器人性能评测平台
一个由上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件
北京智源人工智能研究院推出的大模型评测体系及开放平台
中文通用大模型综合性测评基准
一个AI大模型评测社区
一个专门为评估语言模型在中文语境下的知识和推理能力而设计的综合性评估基准
由OpenCompass社区开发的多模态基准测试工具
斯坦福大学CRFM团队开发的一个轻量级语言模型评估基准
是一个基于人类偏好评估AI聊天机器人性能的开放平台
由H2O.ai开发的一款企业级AI模型评估平台
一个用于生物医学研究问题回答的数据集