基准测试相关AI资讯 | 赢政天下 AI

Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分

赢政指数Smoke评测显示，Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分，降幅15.2分，但代码执行从55.00分升至100.00分，主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。

2026年6月13日 185

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 794

测评

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 880

测评

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL

MLC AI风险可靠性保障 AILuminate

2026年2月21日 798

测评

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射

MLC MLCommons 越狱攻击基准测试

2026年2月18日 934

测评

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为

MLC AI标准可靠性 MLCommons

2026年2月13日 1,281

测评

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,545

测评

MLPerf Tiny v1.3基准测试结果重磅发布

MLCommons近日公布MLPerf Tiny v1.3基准测试结果，聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果，在Image Classification、Keyword Spotting、Anomaly D

MLC MLPerf Tiny 边缘AI 基准测试

2026年2月10日 949

测评

MedPerf 新增 WebUI 功能，提升隐私保护基准测试体验

MLCommons 旗下开源平台 MedPerf 近日推出 WebUI 支持，用户无需本地安装即可通过浏览器轻松运行隐私保护的机器学习基准测试。新功能集成了 SGLang 等后端，简化了模型评估流程，支持多种任务如图像分类和 NLP。Web

MLC MedPerf WebUI MLCommons

2026年2月10日 855

测评

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 2,561

测评

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 958

基准测试 相关资讯

Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分