MathEval MathEval
  • 首页
  • 最新动态
  • 测评榜单
  • 测评数据集
  • 讨论区
  • 联系我们
  • 申请测评
  • Github
  • 首页
  • 最新动态
  • 测评榜单
  • 测评数据集
  • 讨论区
  • 联系我们
  • 申请测评
  • Github
申请测评

测评数据集

收集从2010年至今的ACL,AAAI,ICLR等数十个人工智能顶会论文中广泛使用的数学能力测评数据集共20个。收集的测评集一定程度充分覆盖了不同年级,题型,文本形式和难度的数学问题,便于为参与测评的大模型提供更全面和细粒度的数学能力测评结果。

能力维度
  • 全部
  • 应用题-英文
  • 应用题-中文
  • 算术
Arith3K
Arith3K是由好未来创建的高质量算术能力测评集,包含3大类,15小类不同算子和形式的广义的算术问题共3K道题目。对广义的算术问题覆盖非常全面,几乎包含全部常见科学计算使用的算子和计算形式。区别于之前的算术测评集,显著增加了问题难度的跨度,从相对简单的1~5位整数四则运算到复杂的嵌套算子计算,满足LLM不同阶段的算术能力测评需求。
Big-Bench-Hard(Math)
Big-Bench-Hard(Math)包含250道涉及基本算术运算的多步方程数学题。
math401-llm
math401-llm包含401道数学计算题,包括四则运算、指数运算、无理数运算、三角函数、对数运算。并且除了欧拉公式外依据算术问题的形式和难度划分为16组,每组25道题目。

© 2024 MathEval