大模型数学能力测评

MathEval是一个专注于全面评估大模型数学能力的测评基准。共包含20个数学领域测评集和近30K道数学题目，旨在全面评估大模型在包含算术，小初高竞赛和部分高等数学分支在内的各阶段、难度和数学子领域的解题能力表现，既可以作为现阶段大模型之间数学能力横向对比的一站式参考，也可以为后续如何进一步提高大模型数学能力指引方向。

测评榜单 Github

最新动态

feature image

数学测评基准五大亮点

首个LLM在数学领域的一站式测评基准
灵活的扩展方式，便捷新增数学测评集加入测评
测评数据集多维度划分支持，多角度测评LLM数学能力
丰富的模型支持，支持各种模型接入测评（HF模型、API模型、自定义开源模型）
多样化测评方式，支持零样本测评和小样本测评

20个数学专业测评数据集

应用题-英文

GSM8K MATH MMLU(Math) MathQA TAL-SCQ5K-EN ASDiv-A Dolphin1878 MAWPS SVAMP

应用题-中文

GAOKAO-2024 GAOKAO-2023 GAOKAO(Math) AGIEval TAL-SCQ5K-CN Math23K Ape210K CMMLU(Math)

算术

Arith3K Big-Bench-Hard(Math) math401-llm

联系我们

本平台由智慧教育国家新一代人工智能开放创新平台免费提供算力支持。如需加入测评或者洽谈合作，请将您的需求和问题发送至 matheval.ai@gmail.com 邮箱。