Claude Sonnet 4.6 SQL严格题从100分跌至0,主榜却反升9.3
Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。
Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。
本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。
今日Smoke轻量评测中,文心一言4.5执行分直接腰斩至50,主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分,Claude Opus 4.7以99.42分继续领跑,材料约束成为拉开差距的关键。
DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分,代码执行维度直接从100分崩到20分,材料约束小涨6分,诚信评级从fail转为pass。
今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分,代码执行维度从昨日普遍高位跌至20或0分,仅Gemini 3.1 Pro以40.48分勉强领跑,暴露当前模型在复杂代码任务上的极端脆弱性。
文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。
今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。
GPT-o3今日Smoke评测主榜从76.05跌至58.08,代码执行从90.00直接腰斩至47.50,工程判断也从50跌到10。单日抽题波动虽属正常,但这一量级的断崖式下跌已超出随机范围,值得重点追踪。
今日Smoke轻量评测显示,GPT-o3主榜暴跌18分至58.08,执行分直接腰斩;豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分,快速挤入前五。GPT-5.5以90.3继续领跑,文心一言诚信评级降至warn。
Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。
今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。
豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。