330次施压实验:63%的大模型在第三轮叛变了
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫
本文确认OpenAI于2024年4月25日正式发布闭源模型GPT-5.5,主打智能体、编码与推理能力提升。目前该模型早期基准测试与竞品对比结果参差不齐,性能提升幅度、定价策略与API规则尚未明确。winzheng.com作为AI专业门户将启
4月24日OpenAI正式发布GPT-5.5系列模型,主打真实工作智能与智能体能力,基准测试表现领先Opus 4.7、Mythos等竞品,但核心技术细节、定价策略暂未披露。winzheng.com作为专业AI门户已启动全维度评测,将跟进解读