数学测评基准五大亮点
- 首个LLM在数学领域的一站式测评基准
- 灵活的扩展方式,便捷新增数学测评集加入测评
- 测评数据集多维度划分支持,多角度测评LLM数学能力
- 丰富的模型支持,支持各种模型接入测评(HF模型、API模型、自定义开源模型)
- 多样化测评方式,支持零样本测评和小样本测评
已加入测评榜单的模型
GPT-4
GPT-3.5
LLaMA2-7B
LLaMA2-7B-chat
LLaMA2-13B
LLaMA2-13B-chat
LLaMA2-70B
LLaMA2-70B-chat
ChatGLM2-6B
Baichuan2-13B-Base
InternLM-20B
InternLM-chat-20B
InternLM2-base-20B
InternLM2-chat-20B
InternLM2-math-20B
MathGPT
Qwen
WizardMath-13B-V1.0
WizardMath-70B-V1.0
MOSS-003-base-16B
文心一言
讯飞星火
MammoTH-70B
GAIRMath-Abel-70B
Mistral-7B-Instruct-v0.1
Mistral-7B-v0.1
Llemma-7B
Llemma-34B
MetaMath-70B
GLM4
申请加入测评