MMLU

MMLU简介

MMLU是大规模多任务语言理解基准，用于测评大模型语言理解能力。

MMLU全称为Massive Multitask Language Understanding，由UC Berkeley大学研究人员在2020年9月推出，是著名的大模型语义理解测评之一。

该测试具有广泛的知识覆盖范围，涵盖57项任务，具体如下：

测试采用英文进行，主要用于评测大模型基本的知识覆盖范围和理解能力，为评估大模型的性能提供重要参考。

如果你想了解更多关于MMLU的详细信息，点击前往官网点击前往官网。

商汤科技研发的可高效解决问题、辅助创作的智能大模型

H2O.ai推出的可评估比较大模型性能并提供排行榜的开放工具

北京智源研究院推出的覆盖超800模型的大模型评测开放平台

高校与机构合作的大模型通用能力评测平台

用于生物医学问答研究、模型评估及技术发展的数据集与排行榜平台

Hugging Face打造的多维度开源大模型排名榜单