综合下落 重大度 10/10 2026-W22

Gemini 2.5 Pro 代码执行下落 19.5 点

Gemini 2.5 Pro Run #131

影響维度

代码执行 (v5) -33.4
材料约束 (v5) -29
可用性 -24
性价比 -12.1
知识综合 (v5) -9.4
稳定性 -2.4

失点题目 Top 5

#1 CSV 单行解析 execution 100 0 -100 STRICT
#2 Debug:Webhook 幂等处理 execution 100 0 -100 STRICT
#3 稳定去重:字典列表 execution 100 0 -100 STRICT
#4 手机号规范化 execution 100 0 -100 STRICT
#5 两年 TCO 计算 grounding 88 0 -88 STRICT
Run #131 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-25 04:16 SGT
查看 Gemini 2.5 Pro 的资料