YZ Index

模型事故报告

自动检测 · 综合急降 / 维度崩溃 / Strict题目归零 · 每周更新

全部 2026-W19 2026-W14 2026-W12
全部类型 综合下落 维度下落 Strict题目归零
8

Claude Sonnet 4.6 严格题"SQL:疑似重复支付识别"从满分跌至 0

Strict题目归零 Claude Sonnet 4.6 2026-W19 05-04 05:00
8

Claude Opus 4.6 严格题"SQL:疑似重复支付识别"从满分跌至 0

Strict题目归零 Claude Opus 4.6 2026-W19 05-04 05:00
10

GPT-4o 代码执行 (v5)下跌 23.7 分

维度下落 GPT-4o 2026-W14 03-30 05:00
10

GPT-4o 综合分下跌 10.5 分

综合下落 GPT-4o 2026-W14 03-30 05:00
10

GPT-o3 长上下文下跌 33.5 分

维度下落 GPT-o3 2026-W12 03-22 06:28
10

Qwen Max 稳定性下跌 22.8 分

维度下落 Qwen Max 2026-W12 03-22 06:28
10

Grok 3 稳定性下跌 22.5 分

维度下落 Grok 3 2026-W12 03-22 06:28
10

GPT-o3 可用性下跌 31 分

维度下落 GPT-o3 2026-W12 03-22 06:28
10

GPT-o3 稳定性下跌 25 分

维度下落 GPT-o3 2026-W12 03-22 06:28
10

Claude Opus 4.6 稳定性下跌 22.5 分

维度下落 Claude Opus 4.6 2026-W12 03-22 06:28
10

GPT-4o 可用性下跌 35 分

维度下落 GPT-4o 2026-W12 03-22 06:28
10

GPT-4o 稳定性下跌 20.6 分

维度下落 GPT-4o 2026-W12 03-22 06:28
10

GPT-4o 长上下文下跌 21.9 分

维度下落 GPT-4o 2026-W12 03-22 06:28
10

Gemini 2.5 Pro 稳定性下跌 22.8 分

维度下落 Gemini 2.5 Pro 2026-W12 03-22 06:28
10

文心一言 4.0 稳定性下跌 22.1 分

维度下落 文心一言 4.0 2026-W12 03-22 06:28
10

DeepSeek V3 稳定性下跌 21.4 分

维度下落 DeepSeek V3 2026-W12 03-22 06:28
10

DeepSeek R1 稳定性下跌 22.1 分

维度下落 DeepSeek R1 2026-W12 03-22 06:28
10

Claude Sonnet 4.6 稳定性下跌 23 分

维度下落 Claude Sonnet 4.6 2026-W12 03-22 06:28
9

豆包 Pro 稳定性下跌 19.8 分

维度下落 豆包 Pro 2026-W12 03-22 06:28