AI模型评测 | AI工具精选

AI模型评测

用于生物医学问答研究、模型评估及技术发展的数据集与排行榜平台

通过用户投票评估AI模型表现并生成排行榜的平台

复旦大学NLP实验室推出的聚焦专业知识评测的大模型基准

H2O EvalGPT

H2O.ai推出的可评估比较大模型性能并提供排行榜的开放工具

斯坦福大学打造的可多维度评测语言模型的体系

综合性评估中文大模型多维度性能的测评基准

高校与机构合作的大模型通用能力评测平台

OpenCompass

上海人工智能实验室推出支持多模型一站式评测并公布榜单的开放体系

用于评估中文语境下语言模型知识与推理能力的多主题基准

多维度细粒度评估多模态大模型能力的评测体系

UC Berkeley 2020年推出的多领域英文大模型语言理解测评

Open LLM Leaderboard

Hugging Face打造的多维度开源大模型排名榜单

用于评测大模型中文理解能力的多学科多层次中文评估套件

北京智源研究院推出的覆盖超800模型的大模型评测开放平台