工程判断相关AI资讯 | 赢政天下 AI

测评

Claude Opus 4.7 Smoke评测主榜暴跌27.5分，代码执行从100直降50

Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分，代码执行维度从100.00暴跌至50.00分，材料约束保持100.00不变，工程判断从83.40升至100.00，诚信评级维持pass。

Claude Opus 4.7 代码执行 Smoke快测单日波动

3天前 204

测评

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分，主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分，诚信评级维持pass。单日10题快测下，此类波动是否反映真实退化值得追踪。

GPT-o3 材料约束 Smoke评测单日波动

2026年6月19日 220

测评

Grok 4代码执行暴跌19.1分，主榜下滑7.7，抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90，主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00，材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 264

测评

11模型同答甩锅题：8个A>B>D>C，3个直接0分

11个模型面对同一道“项目延期甩锅”题，8个给出A>B>D>C并得60分，3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上，直接反映模型对责任归属的材料约束能力。

execution grounding 工程判断模型排序

2026年6月8日 312

测评

GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82，但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分，材料约束提升14分，稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断，暴露算法实现一致性缺陷。

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 203

测评

Claude Sonnet 4.6 SQL严格题从100分跌至0，主榜却反升9.3

Claude Sonnet 4.6在“SQL：疑似重复支付识别”一题从100分直接归零，但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口，导致自连接爆炸式匹配，暴露严格题下的逻辑断层。

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 250

测评

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分，Grok 4 以 89.90 分登顶，DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出，旧榜单结构被彻底打破。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 281

测评

DeepSeek V4 Pro Smoke测试主榜暴涨48.7，工程判断却暴跌28.4

DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99，代码执行从20分直接拉满至100分，但工程判断从38.4暴跌至10分，诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化，值得关注。

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性

2026年5月29日 310

测评

文心一言4.5工程判断从50暴跌至10，主榜却逆涨14.5

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分，但材料约束暴涨24.7拉动主榜升至88.48，诚信从fail升至warn，单日抽签波动可能是主因。

文心一言4.5 工程判断 Smoke评测百度AI

2026年5月24日 308

测评

Gemini 2.5 Pro主榜暴跌22.6分，工程判断直接腰斩

Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74，工程判断从66.7跌至30，任务表达从50跌至10，诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化，值得重点关注。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 299

测评

11个AI同答甩锅题，仅8款给出正确排序：工程判断力差异拉满

同一道“项目延期甩锅”题，11款主流模型中8款输出A>B>D>C并获60分，Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前，仅得0分。核心发现显示，工程判断与诚信排序能力在当前模型间已出现明显断层。

工程判断诚信评级甩锅测试项目延期

2026年5月18日 322

测评

11 个 AI 解同一道逻辑题，5 家正确 6 家集体出错

11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化：豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E，而 Claude、DeepSeek、文心一言等

工程判断逻辑推理模型对比排名测试

2026年5月18日 326

测评

Gemini 2.5 Pro Smoke评测主榜飙升13.5分，诚信翻盘却工程判断崩跌28分

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54，诚信评级从fail转为pass，但工程判断（侧榜）暴跌28.4分至30.00。分析显示，这或是抽签波动而非真实退化，但需警惕潜在不稳定性。核心维度材料约束

Gemini 2.5 Pro 赢政指数 Smoke评测诚信评级

2026年5月13日 413

工程判断 相关资讯