测评数据集
收集从2010年至今的ACL,AAAI,ICLR等数十个人工智能顶会论文中广泛使用的数学能力测评数据集共20个。收集的测评集一定程度充分覆盖了不同年级,题型,文本形式和难度的数学问题,便于为参与测评的大模型提供更全面和细粒度的数学能力测评结果。
能力维度
Arith3K
Arith3K是由好未来创建的高质量算术能力测评集,包含3大类,15小类不同算子和形式的广义的算术问题共3K道题目。对广义的算术问题覆盖非常全面,几乎包含全部常见科学计算使用的算子和计算形式。区别于之前的算术测评集,显著增加了问题难度的跨度,从相对简单的1~5位整数四则运算到复杂的嵌套算子计算,满足LLM不同阶段的算术能力测评需求。
Big-Bench-Hard(Math)
Big-Bench-Hard(Math)包含250道涉及基本算术运算的多步方程数学题。
math401-llm
math401-llm包含401道数学计算题,包括四则运算、指数运算、无理数运算、三角函数、对数运算。并且除了欧拉公式外依据算术问题的形式和难度划分为16组,每组25道题目。