综合下落 重大度 10/10 2026-W14

GPT-4o 代码执行下落 10.5 点

GPT-4o Run #52

评分对比

维度 上期 本期 变动
主 (v5) 81.1 49.3 -31.8
代码执行 78.0 62.8 -15.2
知識综合 79.0 47.2 -31.8
材料约束 80.1 49.1 -31
性价比 79.0 24.9 -54.1
稳定性 80.0 27.8 -52.2
可用性 100.0 79.0 -21

影響维度

代码执行 (v5) -23.7
可用性 -15.9
材料约束 (v5) -14.6
性价比 -6.1
稳定性 -2.8

失点题目 Top 5

#1 SQL窗口函数 execution 100 0 -100 STRICT
#2 深度配置合并 execution 100 0 -100 STRICT
#3 语义化版本比较 execution 100 0 -100 STRICT
#4 Debug:Webhook 幂等处理 execution 100 0 -100 STRICT
#5 SQL:JOIN 导致金额重复 execution 100 0 -100 STRICT
Run #52 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-03-30 04:16 SGT
查看 GPT-4o 的资料