R1 93% 满口答应 R3 仅 26.4% 守住:11 模型 WDCD 三轮崩盘实测
R1 平均确认率 0.93,R3 诚信率仅 26.4%,67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2,其余模型“嘴上答应身体诚实”现象普遍,尤其业务规则与资源限制场景崩盘最严重。
R1 平均确认率 0.93,R3 诚信率仅 26.4%,67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2,其余模型“嘴上答应身体诚实”现象普遍,尤其业务规则与资源限制场景崩盘最严重。
Qwen3 Max 以 72.50 分领跑 WDCD 守约榜,R3 阶段拿下 0.90/2;文心一言 4.5 以 45 分垫底,R3 仅 0.30。11 个模型中满分率仅 11.8%,R3 崩溃率高达 60.9%,头部与尾部差距达 27.5
Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。
Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50,主榜从88.53降至81.78。代码执行保持满分100分,工程判断与任务表达零变化。单日10题抽签下,此类15分级波动是否反映模型真实能力退化,值得持
今日Smoke轻量评测显示,11款主流模型主榜全线下滑,材料约束平均暴跌15分以上,多款从warn转为fail。代码执行保持满分,暴露模型在事实约束上的系统性退化。
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53,材料约束单日暴跌18.3分至74.50,诚信评级从pass转为warn,工程判断小幅回升。
今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧
MLCommons公布第四届 Rising Stars 名单,39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向
文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。
DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass,主榜从 74.00 跃升至 97.08,材料约束单项上涨 23.5 分。单日 10 题快测下,这种幅度变化究竟是抽签运气还是真实能力回暖,需
今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。
GPT-o3今日Smoke评测主榜从76.05跌至58.08,代码执行从90.00直接腰斩至47.50,工程判断也从50跌到10。单日抽题波动虽属正常,但这一量级的断崖式下跌已超出随机范围,值得重点追踪。
文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分,但材料约束暴涨24.7拉动主榜升至88.48,诚信从fail升至warn,单日抽签波动可能是主因。
GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3,涨幅29.7分领跑;GPT-o3 则从94.51 断崖下跌至58.08,降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题,DeepSeek V4
今日Smoke轻量评测显示,GPT-o3主榜暴跌18分至58.08,执行分直接腰斩;豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分,快速挤入前五。GPT-5.5以90.3继续领跑,文心一言诚信评级降至warn。
Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。
Grok 4今日Smoke评测材料约束从80.3骤降至59,主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常,但-21.3分降幅超出历史均值,需观察是否为真实能力退化。
今日Smoke评测显示,11款主流模型材料约束维度普遍暴跌18-29分,导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一,但约束仅59分且标warn;豆包Pro主榜暴跌37.2分,执行从高位直接腰斩至50分。核心问题集中在材料约
Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7,主榜微跌1.4分。代码执行却从38.1跃升至50.0,诚信评级从warn转为pass。单日10题测试波动正常,但17.6分跌幅仍需警惕模型真实退化风险。