基准测试相关AI资讯 | 赢政天下 AI

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 794

测评

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 880

测评

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL

MLC AI风险可靠性保障 AILuminate

2026年2月21日 798

海外

谷歌Gemini 3.1 Pro模型再创基准测试新纪录

谷歌最新发布的Gemini 3.1 Pro模型在多项基准测试中取得历史性成绩，再次刷新纪录。该模型承诺提供更强大的大语言模型（LLM）能力，能够处理更复杂的任务形式，包括多模态推理、长上下文理解和高级代码生成。相比前代，Gemini 3.1

谷歌Gemini AI大模型基准测试 LLM

2026年2月20日 687

海外

谷歌DeepMind质疑：聊天机器人是否只是道德作秀？

谷歌DeepMind呼吁对大语言模型（LLM）的道德行为进行与编程或数学能力同等的严谨审查。随着LLM性能提升，人们越来越依赖它们扮演伴侣、治疗师、医疗顾问等角色。DeepMind强调，需要开发标准化基准来评估AI在道德困境中的真实表现，而

谷歌DeepMind 大语言模型 AI道德聊天机器人

2026年2月19日 637

测评

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射

MLC MLCommons 越狱攻击基准测试

2026年2月18日 934

测评

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为

MLC AI标准可靠性 MLCommons

2026年2月13日 1,281

测评

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,545

测评

MLPerf Tiny v1.3基准测试结果重磅发布

MLCommons近日公布MLPerf Tiny v1.3基准测试结果，聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果，在Image Classification、Keyword Spotting、Anomaly D

MLC MLPerf Tiny 边缘AI 基准测试

2026年2月10日 949

测评

MedPerf 新增 WebUI 功能，提升隐私保护基准测试体验

MLCommons 旗下开源平台 MedPerf 近日推出 WebUI 支持，用户无需本地安装即可通过浏览器轻松运行隐私保护的机器学习基准测试。新功能集成了 SGLang 等后端，简化了模型评估流程，支持多种任务如图像分类和 NLP。Web

MLC MedPerf WebUI MLCommons

2026年2月10日 855

基准测试 相关资讯