测评数据集
收集从2010年至今的ACL,AAAI,ICLR等数十个人工智能顶会论文中广泛使用的数学能力测评数据集共20个。收集的测评集一定程度充分覆盖了不同年级,题型,文本形式和难度的数学问题,便于为参与测评的大模型提供更全面和细粒度的数学能力测评结果。
能力维度
GAOKAO-2024
2024年中国高考数学题包含115个选择题,填空和应用题114道。
GAOKAO-2023
我们为了公平的评价模型,确保这些大模型在训练的时候没有见过最新的数据,我们会每年更新我们的中国高考数据集榜单,因为高考的题目是最新的,确保没有被见过的,这一次收集的2023年中国高考数学题包含110个选择题,47个填空题以及两个大题。
GAOKAO(Math)
GAOKAO(Math)收集了2010-2022年的中国高考数学题,包含6个数据集,分别为全国卷1和全国卷2的选择题、填空题和解答题。GAOKAO(Math)中的每道题都给出了详细的解答过程,有利于CoT训练。
AGIEval
AGIEval包含5个数学数据集,分别为351道中文高考数学选择题,118道中文高考数学填空题,220道来自SAT的英文数学选择题,254道来自GRE的英文数学选择题和1000道来自AMC和AIME考试的英文数学填空题。
TAL-SCQ5K-CN
TAL-SCQ5K-CN是由好未来创建的高质量中文数学竞赛数据集,包含5K道中文数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学、初中、高中数学领域的各个主题。此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
Math23K
Math23K包含23164道从多个在线教育网站抓取的小学中文数学应用题,题型为一元线性方程,有2317个测试样本。
Ape210K
Ape210K包含210488道中文数学应用题,每道题包含一个未知数,有5000个测试样本。
CMMLU(Math)
CMMLU(Math)共有3个等级的中文数学选择题数据集,分别为大学数学、高中数学和小学数学,这三个数据集的测试样本数分别为105、230和164。