基准测试相关AI资讯 | 赢政天下 AI

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 551

测评

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 692

原创

OpenAI o1模型基准测试全面超越GPT-4o：推理能力实现质的飞跃

OpenAI近日发布的o1-preview模型在多项基准测试中大幅领先GPT-4o和Claude 3.5 Sonnet，尤其在数学和编程领域表现卓越，ARC-AGI得分达83%。其‘思考链’优化机制被誉为AI推理革命的关键，X平台#o1话题

o1模型 OpenAI 推理能力基准测试

2026年3月3日 561

测评

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL

MLC AI风险可靠性保障 AILuminate

2026年2月21日 646

海外

谷歌Gemini 3.1 Pro模型再创基准测试新纪录

谷歌最新发布的Gemini 3.1 Pro模型在多项基准测试中取得历史性成绩，再次刷新纪录。该模型承诺提供更强大的大语言模型（LLM）能力，能够处理更复杂的任务形式，包括多模态推理、长上下文理解和高级代码生成。相比前代，Gemini 3.1

谷歌Gemini AI大模型基准测试 LLM

2026年2月20日 525

海外

谷歌DeepMind质疑：聊天机器人是否只是道德作秀？

谷歌DeepMind呼吁对大语言模型（LLM）的道德行为进行与编程或数学能力同等的严谨审查。随着LLM性能提升，人们越来越依赖它们扮演伴侣、治疗师、医疗顾问等角色。DeepMind强调，需要开发标准化基准来评估AI在道德困境中的真实表现，而

谷歌DeepMind 大语言模型 AI道德聊天机器人

2026年2月19日 497

测评

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射

MLC MLCommons 越狱攻击基准测试

2026年2月18日 796

测评

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为

MLC AI标准可靠性 MLCommons

2026年2月13日 1,112

测评

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,282

测评

MLPerf Tiny v1.3基准测试结果重磅发布

MLCommons近日公布MLPerf Tiny v1.3基准测试结果，聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果，在Image Classification、Keyword Spotting、Anomaly D

MLC MLPerf Tiny 边缘AI 基准测试

2026年2月10日 733

测评

MedPerf 新增 WebUI 功能，提升隐私保护基准测试体验

MLCommons 旗下开源平台 MedPerf 近日推出 WebUI 支持，用户无需本地安装即可通过浏览器轻松运行隐私保护的机器学习基准测试。新功能集成了 SGLang 等后端，简化了模型评估流程，支持多种任务如图像分类和 NLP。Web

MLC MedPerf WebUI MLCommons

2026年2月10日 689

原创

Claude 3.5 Sonnet刷新AI基准纪录：多项测试超GPT-4o，编码能力引爆讨论

Anthropic推出Claude 3.5 Sonnet，在GPQA、SWE-bench等基准测试中超越GPT-4o，用户反馈编码任务表现惊人。互动超20万，焦点转向实际应用与安全优先策略，凸显前沿大模型竞赛白热化。

Claude 3.5 Sonnet Anthropic 基准测试 GPT-4o

2026年2月7日 476

测评

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 1,937

测评

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 799

原创

OpenAI o1模型基准测试创纪录：ARC-AGI达87.5%，AI推理能力迎来跃升

OpenAI近日发布o1-preview和o1-mini模型，在数学、编码及科学推理基准上大幅超越GPT-4o，ARC-AGI得分高达87.5%。其‘思考链’机制模拟人类推理过程，引发X平台热议，互动超10万次，用户测试分享刷屏，标志AI迈

OpenAI o1模型推理AI 基准测试

2026年2月3日 360

基准测试 相关资讯