commitment test 相关AI资讯

WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points

WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average instruction decay of -5

WDCD AI benchmark instruction decay multi-turn

5天前 197

原创

WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop

WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an average instruction de

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 200

原创

WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%

WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 topping the leaderboar

WDCD AI benchmark instruction decay multi-turn

2026年6月14日 161

原创

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 254

原创

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average i

WDCD AI benchmark instruction decay multi-turn

2026年6月11日 355

原创

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.

WDCD AI benchmark instruction decay multi-turn

2026年6月10日 247

原创

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio

WDCD AI benchmark instruction decay multi-turn

2026年6月3日 311

原创

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding an average instructi

WDCD AI benchmark instruction decay multi-turn

2026年5月31日 224

原创

WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%

WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding an average commitmen

WDCD AI benchmark instruction decay multi-turn

2026年5月27日 278

原创

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with average instruction

WDCD AI benchmark instruction decay multi-turn

2026年5月20日 345

原创

WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%

WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an average instruction de

WDCD AI benchmark instruction decay multi-turn

2026年5月17日 345

原创

WDCD Run #115: Average Instruction Decay Hits 49.2% as Gemini 3.1 Pro and Qwen3 Max Tie for First

WDCD Run #115 evaluated 11 frontier models on multi-turn commitment integrity, recording a 49.2% average instruction dec

WDCD AI benchmark instruction decay multi-turn

2026年5月13日 339

原创

WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads

WDCD Run #100 (2026-05-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio

WDCD AI benchmark instruction decay multi-turn

2026年5月5日 394

commitment test 相关资讯

WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points

WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop

WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%

WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%

WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop

WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%

WDCD Run #115: Average Instruction Decay Hits 49.2% as Gemini 3.1 Pro and Qwen3 Max Tie for First

WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads