LOADING
用于生物医学问答研究、模型评估及技术发展的数据集与排行榜平台
斯坦福大学打造的可多维度评测语言模型的体系
通过用户投票评估AI模型表现并生成排行榜的平台
复旦大学NLP实验室推出的聚焦专业知识评测的大模型基准
H2O.ai推出的可评估比较大模型性能并提供排行榜的开放工具
上海人工智能实验室推出支持多模型一站式评测并公布榜单的开放体系
用于评估中文语境下语言模型知识与推理能力的多主题基准
多维度细粒度评估多模态大模型能力的评测体系
综合性评估中文大模型多维度性能的测评基准
高校与机构合作的大模型通用能力评测平台
UC Berkeley 2020年推出的多领域英文大模型语言理解测评
Hugging Face打造的多维度开源大模型排名榜单
用于评测大模型中文理解能力的多学科多层次中文评估套件
北京智源研究院推出的覆盖超800模型的大模型评测开放平台