测评 2026 主流 AI 评测基准横向对比:赢政指数 vs SuperCLUE vs OpenCompass vs C-Eval 横向对比赢政指数、SuperCLUE、OpenCompass、C-Eval 四大中文AI评测基准,从代码执行、长文档理解、诚信检测、约束衰减四个维度分析各自优劣。 AI评测 赢政指数 SuperCLUE OpenCompass 2026年5月11日 1,614
测评 MLCommons发布Ailuminate法语数据集 MLCommons组织近日推出Ailuminate基准的法语数据集版本,进一步扩展多语言大语言模型(LLM)评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务,总计超过10万条高质量法语样本,由专业标注团队构建,确保文化适应性和准确性 MLC Ailuminate 法语数据集 MLCommons 2026年2月10日 989