测评数据集

收集从2010年至今的ACL,AAAI,ICLR等数十个人工智能顶会论文中广泛使用的数学能力测评数据集共20个。收集的测评集一定程度充分覆盖了不同年级,题型,文本形式和难度的数学问题,便于为参与测评的大模型提供更全面和细粒度的数学能力测评结果。

GSM8K
GSM8K是大小为8.5K的小学数学数据集,涉及基本算术运算,需要2-8个步骤才能解决,包含7.5K训练集和1K测试集。GSM8K每道题的答案包含完整的解题过程,有助于CoT训练。
MATH
MATH是一个包含12500个高中数学竞赛的问题(7500个用于训练,5000个用于测试)的数据集,以文本模式的Latex格式呈现。MATH中的每个问题都有一个完整的逐步解决方案,有助于CoT训练。
MMLU(Math)
MMLU(Math)包含四个数学数据集:抽象代数、大学数学、高中数学和小学数学,题型都为四选一的选择题。测试样本个数分别为:100、148、270和388。
MathQA
MathQA包含37200道数学多选题,需要从5个选项中选出唯一的正确答案,分别为3316道几何数学题、9830道物理数学题、663道概率题、4377道增益损失题、17796道普通数学题和1277道其他类别数学题。
TAL-SCQ5K-EN
TAL-SCQ5K-EN是由好未来创建的高质量英语数学竞赛数据集,包含5K道英语数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学数学领域的各个主题。此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
ASDiv-A
ASDiv-A包含1218道涉及算术运算的数学题,分为6个难度级别(1-6)。有122个测试样本。 此外,ASDiv-A是一个词汇使用多样且问题类型广泛的MWP数据集。
Dolphin1878
Dolphin1878包含来自algebra.com和yahoo网站的1878道英文数学题,每个问题包含1-4个未知数。测试样本有187个。
MAWPS
MAWPS包含3320个英语数学应用题,涉及基本算术运算,收集于多个在线教育网站,测试样本有238个。
SVAMP
SVAMP包含1000个数学应用题,每个问题最多包含两个数学表达式和一个未知变量。这些问题是通过对现有数据集(如ASDiv-A)中的单词问题进行简单变化而创建的,适用于4年级以下的年级水平。