11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成
v6评测中GPT-o3主榜上涨7分至82.82,但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分,材料约束提升14分,稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断,暴露算法实现一致性缺陷。
Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。
本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
今日Smoke评测中,Claude Opus 4.7与GPT-5.5并列主榜第一(92.53分),代码执行均满分,材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底,材料约束仍是区分顶级模型的核心变量。
本周 Smoke 快测显示,GPT-5.5 从 86.95 滑落至 63.89,趋势 -23.1;Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro
2026年5月6日美国时间凌晨2:30,Anthropic旗舰模型Claude Opus 4.8突发大规模“Service is busy”错误。开发者使用Claude Code进行代码生成、调试、补全时,连续遭遇服务中断,界面弹出“云朵被
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
近期X平台上,AI代理(AI Agents)迅速成为科技讨论的最热话题。从多模态能力扩展到企业级自动化应用,业界充满期待,但现实中技术成熟度、部署挑战与实际效果之间仍存在明显差距。本文将客观分析这一趋势的背景、核心进展及其对产业的影响,帮助
Alphabet 宣布以创纪录规模筹集 850 亿美元资金,专项投入 Google AI 业务发展。此举凸显资本对人工智能领域的持续高投入,预计将加速模型训练、基础设施建设及产品落地,同时加剧与微软、OpenAI 等竞争对手的角力。行业观察
Anthropic正式提交IPO文件,标志着生成式AI正从概念炒作阶段转向企业级实用工具。市场对此反应积极,反映出投资者对AI商业化前景的乐观预期。本文将深入分析这一事件对行业格局、企业应用及监管环境的影响,探讨AI技术如何逐步融入主流商业
英国议员近日起诉xAI公司,指控其AI模型Grok生成性化图像,引发关于人工智能伦理与内容安全的广泛讨论。该案件可能对AI行业监管产生深远影响,凸显技术发展与社会责任之间的平衡挑战。
台积电首席执行官表示,人工智能芯片需求持续强劲,未来几年增长前景乐观,此言论推动半导体相关股票上涨,成为过去24小时AI行业焦点。文章深入分析TSMC在AI领域的布局、对全球供应链的影响以及行业未来趋势。
近期科技圈大V热议AI是否存在泡沫,指出微软与OpenAI之间的循环营收模式与dot-com时代高度相似,引发股市波动与行业广泛讨论。文章客观分析双方商业逻辑、潜在风险及对投资者的影响,强调需理性看待AI发展,避免盲目乐观或恐慌。
Cloudflare最新数据显示,AI代理生成的网络流量首次超过人类用户,远超此前预测。这一现象引发行业广泛讨论,Cloudflare CEO Matthew Prince等大V积极参与,探讨agentic AI的快速增长及其对互联网架构、
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
微软在 Build 2026 发布 Project Solara——面向 agent-first 设备、不运行传统应用的芯片到云端平台。它将系统底座建在 Android(MDEP)而非 Windows 之上,以 Agent Shell 动态
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的