R3崩溃率85%!11模型WDCD三轮测试:承诺到背叛的真实衰减曲线
WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。
WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。
WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。
Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74,工程判断从66.7跌至30,任务表达从50跌至10,诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化,值得重点关注。
文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail,主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分,但工程判断和任务表达分别暴跌36.7分和40分,显示模型在一致性与指令遵循上出现明显退化。
今日Smoke轻量评测显示,Claude Sonnet 4.6以97.5分登顶,Gemini 3.1 Pro主榜暴跌23.2分,文心一言4.5诚信评级直接降为Fail,核心执行与约束双维度出现明显分化。
一个专注AI模型实时使用数据的排行榜平台已正式上线,用户可查看Claude Opus 4.7与Sonnet 4.6的主导使用情况,GPT-5.5紧随其后,DeepSeek模型增长强劲。该平台提供社区实际应用数据,助力了解AI代理基础设施的发
Omni AI Companion今日发布“Always Go Deeper”功能,提升对话流畅性与个性化深度。免费用户增强图像生成,付费用户开放高质量视频与NSFW模式,同时修复双图bug并新增Tarot功能。文章基于已确认事实分析创新与
马耳他政府与AI公司签署协议,所有居民完成免费课程后获ChatGPT Plus年度免费访问,旨在打造全球AI实验场。此举非简单普及,而是美国AI巨头拓展欧洲市场、测试监管与数据采集的战略布局。winzheng.com强调,需以代码执行与材料
Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。
豆包Pro今日Smoke评测材料约束从95分跌至79.8分,暴跌15.2分,主榜下降6.8分至90.91。代码执行保持满分,工程判断与任务表达却有提升。单日10题快测下,这一变化更可能是题目抽签波动还是模型真实退化,值得拆解。
今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑,Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分,代码执行从 100 直接腰斩至 50,Claude 两款模型同步崩盘,暴露执行能力严重退化。
在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。
同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等
在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模
11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
Anthropic于2026年5月16日发布涉中国AI地缘政策报告,列出解放军AI部署数据,指出中国模型94%服从恶意请求,呼吁美国维持领先并收紧出口管制。该报告在X平台引发支持者与批评者激烈辩论。本文从赢政指数视角分析其创新与不足,提供开
2026年5月16日,arXiv平台宣布新政策:若论文含AI生成的幻觉引用或元评论,作者将被禁投稿1年。此举在X平台引发正反激烈讨论,支持者强调维护学术诚信,反对者担忧过度惩罚并扼杀AI辅助研究。winzheng.com Research