测评数据集

收集从2010年至今的ACL,AAAI,ICLR等数十个人工智能顶会论文中广泛使用的数学能力测评数据集共20个。收集的测评集一定程度充分覆盖了不同年级,题型,文本形式和难度的数学问题,便于为参与测评的大模型提供更全面和细粒度的数学能力测评结果。

GSM8K
GSM8K是大小为8.5K的小学数学数据集,涉及基本算术运算,需要2-8个步骤才能解决,包含7.5K训练集和1K测试集。GSM8K每道题的答案包含完整的解题过程,有助于CoT训练。
MATH
MATH是一个包含12500个高中数学竞赛的问题(7500个用于训练,5000个用于测试)的数据集,以文本模式的Latex格式呈现。MATH中的每个问题都有一个完整的逐步解决方案,有助于CoT训练。
GAOKAO-2024
2024年中国高考数学题包含115个选择题,填空和应用题114道。
MMLU(Math)
MMLU(Math)包含四个数学数据集:抽象代数、大学数学、高中数学和小学数学,题型都为四选一的选择题。测试样本个数分别为:100、148、270和388。
GAOKAO-2023
我们为了公平的评价模型,确保这些大模型在训练的时候没有见过最新的数据,我们会每年更新我们的中国高考数据集榜单,因为高考的题目是最新的,确保没有被见过的,这一次收集的2023年中国高考数学题包含110个选择题,47个填空题以及两个大题。
GAOKAO(Math)
GAOKAO(Math)收集了2010-2022年的中国高考数学题,包含6个数据集,分别为全国卷1和全国卷2的选择题、填空题和解答题。GAOKAO(Math)中的每道题都给出了详细的解答过程,有利于CoT训练。
AGIEval
AGIEval包含5个数学数据集,分别为351道中文高考数学选择题,118道中文高考数学填空题,220道来自SAT的英文数学选择题,254道来自GRE的英文数学选择题和1000道来自AMC和AIME考试的英文数学填空题。
MathQA
MathQA包含37200道数学多选题,需要从5个选项中选出唯一的正确答案,分别为3316道几何数学题、9830道物理数学题、663道概率题、4377道增益损失题、17796道普通数学题和1277道其他类别数学题。
Arith3K
Arith3K是由好未来创建的高质量算术能力测评集,包含3大类,15小类不同算子和形式的广义的算术问题共3K道题目。对广义的算术问题覆盖非常全面,几乎包含全部常见科学计算使用的算子和计算形式。区别于之前的算术测评集,显著增加了问题难度的跨度,从相对简单的1~5位整数四则运算到复杂的嵌套算子计算,满足LLM不同阶段的算术能力测评需求。
TAL-SCQ5K-CN
TAL-SCQ5K-CN是由好未来创建的高质量中文数学竞赛数据集,包含5K道中文数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学、初中、高中数学领域的各个主题。此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
TAL-SCQ5K-EN
TAL-SCQ5K-EN是由好未来创建的高质量英语数学竞赛数据集,包含5K道英语数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学数学领域的各个主题。此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
Math23K
Math23K包含23164道从多个在线教育网站抓取的小学中文数学应用题,题型为一元线性方程,有2317个测试样本。
Ape210K
Ape210K包含210488道中文数学应用题,每道题包含一个未知数,有5000个测试样本。
ASDiv-A
ASDiv-A包含1218道涉及算术运算的数学题,分为6个难度级别(1-6)。有122个测试样本。 此外,ASDiv-A是一个词汇使用多样且问题类型广泛的MWP数据集。
Big-Bench-Hard(Math)
Big-Bench-Hard(Math)包含250道涉及基本算术运算的多步方程数学题。
CMMLU(Math)
CMMLU(Math)共有3个等级的中文数学选择题数据集,分别为大学数学、高中数学和小学数学,这三个数据集的测试样本数分别为105、230和164。
Dolphin1878
Dolphin1878包含来自algebra.com和yahoo网站的1878道英文数学题,每个问题包含1-4个未知数。测试样本有187个。
math401-llm
math401-llm包含401道数学计算题,包括四则运算、指数运算、无理数运算、三角函数、对数运算。并且除了欧拉公式外依据算术问题的形式和难度划分为16组,每组25道题目。
MAWPS
MAWPS包含3320个英语数学应用题,涉及基本算术运算,收集于多个在线教育网站,测试样本有238个。
SVAMP
SVAMP包含1000个数学应用题,每个问题最多包含两个数学表达式和一个未知变量。这些问题是通过对现有数据集(如ASDiv-A)中的单词问题进行简单变化而创建的,适用于4年级以下的年级水平。