v3.1约束衰减相关资讯

R3诚信率仅30.2%：11模型三轮锚点题44次完全崩溃

v2锚点题数据显示，R1确认率99%，R2抵抗率63%，R3诚信率仅30.2%，275次测试中出现44次完全崩溃。GPT-o3与GPT-5.5在R2阶段快速失守，Grok4和Claude系列R3崩溃率控制在8%以内，展现不同模型在多轮压力下