Menu Open
Menu Close
首页
最新动态
测评榜单
测评数据集
讨论区
联系我们
申请测评
Github
首页
最新动态
测评榜单
测评数据集
讨论区
联系我们
申请测评
Github
中
|
EN
申请测评
测评榜单
如果您对测评结果有疑问,欢迎到
Github讨论区交流
测评基准
${item.name}
能力维度
${item.name}
学段维度
${item.name}
测评样本
${item.name}
模型在同一测评集上的 one-shot 和 few-shot 中测评结果的最高分被称作 “两者最好”
最新试题
${item.name}
设置说明
测评实验设置
暂无数据集,请重新筛选
${ column.title }
${ column.title }