Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。
OpenAI近日发布的o1-preview模型在多项基准测试中大幅领先GPT-4o和Claude 3.5 Sonnet,尤其在数学和编程领域表现卓越,ARC-AGI得分达83%。其‘思考链’优化机制被誉为AI推理革命的关键,X平台#o1话题
Anthropic推出Claude 3.5 Sonnet,在GPQA、SWE-bench等基准测试中超越GPT-4o,用户反馈编码任务表现惊人。互动超20万,焦点转向实际应用与安全优先策略,凸显前沿大模型竞赛白热化。
NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内
Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para
OpenAI近日发布o1-preview和o1-mini模型,在数学、编码及科学推理基准上大幅超越GPT-4o,ARC-AGI得分高达87.5%。其‘思考链’机制模拟人类推理过程,引发X平台热议,互动超10万次,用户测试分享刷屏,标志AI迈