测评榜单

如果您对测评结果有疑问,欢迎到 Github讨论区交流
测评基准
  • ${item.name}
能力维度
  • ${item.name}
学段维度
  • ${item.name}
测评样本
  • ${item.name}
    模型在同一测评集上的 one-shot 和 few-shot 中测评结果的最高分被称作 “两者最好”
最新试题
  • ${item.name}
empty
暂无数据集,请重新筛选