大模型评测相关资讯

330次施压实验：63%的大模型在第三轮叛变了

赢政指数全新维度 WDCD 首轮揭幕：11 款顶级大模型在 330 次三轮施压测试中，R3 崩溃率高达 63.3%，全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶，Grok 4 仅 48.3 分垫

WDCD 守约测试赢政指数大模型评测

OpenAI正式发布GPT-5.5强化智能体能力早期基准测试结果参差不齐

本文确认OpenAI于2024年4月25日正式发布闭源模型GPT-5.5，主打智能体、编码与推理能力提升。目前该模型早期基准测试与竞品对比结果参差不齐，性能提升幅度、定价策略与API规则尚未明确。winzheng.com作为AI专业门户将启

GPT-5.5 OpenAI 大模型评测智能体技术

2026年4月27日 393

OpenAI4月24日正式发布GPT-5.5系列技术细节与定价未披露引热议

4月24日OpenAI正式发布GPT-5.5系列模型，主打真实工作智能与智能体能力，基准测试表现领先Opus 4.7、Mythos等竞品，但核心技术细节、定价策略暂未披露。winzheng.com作为专业AI门户已启动全维度评测，将跟进解读

OpenAI GPT-5.5 AI智能体大模型评测

2026年4月25日 447