WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。
2026-06-17 Smoke评测显示,Qwen3 Max材料约束暴跌28.9分至71.1,主榜仅73.25分;Claude Opus 4.7以执行与约束双100稳居第一,Gemini 2.5 Pro与GPT-5.5主榜同为98.83分,
近日,一篇关于Claude Code架构的深度分析在X平台引发热议。研究显示,该系统98%代码为传统软件工程,仅1.6%直接调用AI模型,依靠权限系统、上下文压缩和子代理隔离等机制有效抑制幻觉。开发者开始重新审视AI agent的可靠性设计
纽约等州检察长近日对OpenAI发起传票调查,重点关注用户数据隐私、未成年人保护、广告模式及模型谄媚倾向等问题。此举正值OpenAI筹备IPO关键期,监管压力显著上升。调查凸显AI企业在数据安全与伦理合规方面的挑战,可能对公司估值与上市计划
xAI 近日为 Grok iOS 与 Android 应用推出实时屏幕分享功能,支持用户在调试代码、App 操作指导和文档分析等场景下获得即时协助。这一升级将 Grok 从传统被动问答模式转变为主动任务参与,引发 X 平台广泛讨论,标志着生
美国政府以国家安全为由限制Anthropic旗下Fable 5和Mythos 5模型访问,引发jailbreak漏洞与出口管制争议。Anthropic被迫暂停相关服务,导致开源AI替代方案迅速涌现。多方讨论聚焦地缘政治影响与AI安全平衡,行
SpaceX通过全股票交易收购Cursor AI,目标构建最有用AI模型。双方过去数月已联合训练模型,即将在Cursor与Grok Build平台发布。Elon Musk表示AI编码能力将达Stockfish级别,引发行业对AI编程竞赛的广
纽约州于2026年6月14日牵头多州检察长向OpenAI发出传票,调查用户数据收集、未成年人保护、广告模式及模型输出倾向等问题。公司正准备大规模IPO,此举直接增加合规成本与时间压力。支持者认为调查可推动行业标准建立,批评者指出时机与IPO
2026年6月12日晚5:21,美国商务部向Anthropic下达紧急指令,要求立即停止Claude Fable 5和Mythos 5全球访问。Anthropic称漏洞发现与GPT-5.5相当,且已公开,拒绝将此作为召回理由。事件发生前两天
2026年6月15日,导演Martin Scorsese正式担任Black Forest Labs顾问,此事在好莱坞引发支持与反对两派争论。支持者强调AI可提升视觉效率,反对者担心传统岗位流失与艺术真实性受损。事件直接指向具体人事任命,双方
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。
2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌
OpenAI正式宣布GPT-5.2系列模型退役,全面切换至GPT-5.5,同时为ChatGPT新增安全路由与心理健康支持功能。此次更新引发用户广泛讨论,聚焦模型迭代速度与AI安全改进,体现OpenAI持续优化用户体验的决心。文章将深入分析技
CoreWeave等公司将NVIDIA芯片相关债务包装成A3评级债券进入二级市场,Meta等大额订单提供支撑。此举引发退休基金涉险担忧,AI算力金融化成为新争议焦点。市场对潜在泡沫的讨论升温,需关注风险传导与监管动态。
Anthropic近日推出Claude 4.7版本,新增一键生成专业PPT演示文稿功能,用户仅需输入提示即可在60秒内获得完整演示文件。该功能融合多模态与代理能力,引发提示工程分享热潮,X平台相关互动量已超百万。业界关注其对传统办公软件的影
NVIDIA与Naver、SK Telecom等韩国企业深化AI数据中心合作,800V电源架构加速落地,SK AI工厂计划2027年上线。AI算力需求激增下,供应链紧张问题凸显,行业正快速重构基础设施格局。