LLMEval3

LLMEval3简介

LLMEval3是复旦大学NLP实验室推出的大模型评测基准，聚焦专业知识能力评测，为评估大模型提供科学依据。

该工具评测范围广泛，涵盖教育部划定的13个学科门类，具体如下：

在这些学科门类下，还有50余个二级学科也被纳入评测范畴。如此全面的学科覆盖，能够从多个维度对大模型的专业知识能力进行细致评估。

LLMEval3拥有约20W道标准生成式问答题目。这些题目是经过精心设计和筛选的，能够有效地检验大模型在面对各种专业知识问题时的回答能力和知识储备。

对于研究人员来说，LLMEval3为他们提供了一个统一、科学的评测平台，有助于他们准确了解大模型在专业知识领域的优势和不足，从而有针对性地进行改进和优化。同时，在大模型不断发展的今天，这样的评测基准也能够推动整个行业朝着更加专业、精准的方向发展。

如果您想进一步了解LLMEval3，可以点击前往官网。在这里，您可以获取到关于该评测基准的更多详细信息。

综合性评估中文大模型多维度性能的测评基准

上海人工智能实验室推出支持多模型一站式评测并公布榜单的开放体系

通过用户投票评估AI模型表现并生成排行榜的平台

斯坦福大学打造的可多维度评测语言模型的体系

北京智源研究院推出的覆盖超800模型的大模型评测开放平台

高校与机构合作的大模型通用能力评测平台