基准测试相关AI资讯 | 赢政天下 AI

Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分

赢政指数Smoke评测显示，Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分，降幅15.2分，但代码执行从55.00分升至100.00分，主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。

OpenAI近日发布的o1-preview模型在多项基准测试中大幅领先GPT-4o和Claude 3.5 Sonnet，尤其在数学和编程领域表现卓越，ARC-AGI得分达83%。其‘思考链’优化机制被誉为AI推理革命的关键，X平台#o1话题

Anthropic推出Claude 3.5 Sonnet，在GPQA、SWE-bench等基准测试中超越GPT-4o，用户反馈编码任务表现惊人。互动超20万，焦点转向实际应用与安全优先策略，凸显前沿大模型竞赛白热化。

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para

OpenAI近日发布o1-preview和o1-mini模型，在数学、编码及科学推理基准上大幅超越GPT-4o，ARC-AGI得分高达87.5%。其‘思考链’机制模拟人类推理过程，引发X平台热议，互动超10万次，用户测试分享刷屏，标志AI迈