豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。
2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌
OpenAI正式宣布GPT-5.2系列模型退役,全面切换至GPT-5.5,同时为ChatGPT新增安全路由与心理健康支持功能。此次更新引发用户广泛讨论,聚焦模型迭代速度与AI安全改进,体现OpenAI持续优化用户体验的决心。文章将深入分析技
CoreWeave等公司将NVIDIA芯片相关债务包装成A3评级债券进入二级市场,Meta等大额订单提供支撑。此举引发退休基金涉险担忧,AI算力金融化成为新争议焦点。市场对潜在泡沫的讨论升温,需关注风险传导与监管动态。
Anthropic近日推出Claude 4.7版本,新增一键生成专业PPT演示文稿功能,用户仅需输入提示即可在60秒内获得完整演示文件。该功能融合多模态与代理能力,引发提示工程分享热潮,X平台相关互动量已超百万。业界关注其对传统办公软件的影
NVIDIA与Naver、SK Telecom等韩国企业深化AI数据中心合作,800V电源架构加速落地,SK AI工厂计划2027年上线。AI算力需求激增下,供应链紧张问题凸显,行业正快速重构基础设施格局。
WWDC后,苹果iOS 27让Siri支持跨应用记忆与智能操作,Apple Intelligence从概念走向实际应用。尽管起步晚于ChatGPT多年,此次升级仍被视为苹果AI战略转折点,引发用户与开发者广泛讨论,凸显本地化AI的独特优势与
Meta因中国政府施压,宣布取消对AI初创公司Manus价值20亿美元的收购计划。Manus创始人将回购公司并组建中美合资实体。此事件凸显中美AI技术脱钩加剧,Meta首席执行官扎克伯格公开承认AI团队重组出现失误。行业内对未来跨境投资前景
OpenAI正面临佛罗里达等多州总检察长刑事调查,以及多起涉及自杀与枪击事件的wrongful death诉讼。19起类似案件指控其AI产品安全护栏失效,引发公众对AI开发者法律责任的激烈辩论。文章客观分析事件背景、法律挑战及行业影响。
美国政府以国家安全与网络能力为由,要求Anthropic暂停Fable 5和Mythos 5对外国用户访问,疑涉中国访问。模型刚发布即下架,引发AI地缘政治与监管风暴,X平台互动破百万,讨论AI是否已成武器化技术。
中国政府与企业联合推出2950亿美元AI数据中心建设计划,目标直指减少对NVIDIA依赖、加速本土大模型训练。这一规模空前的算力基建投资,正在重塑全球AI供应链格局,也将地缘科技竞争推向新的拐点。
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
谷歌DeepMind于2026年6月11日发布DiffusionGemma模型,总参数260亿,采用混合专家架构,推理仅激活约38亿参数。在NVIDIA H100上文本生成速度超过1000 token/秒,较传统自回归模型快约4倍。该模型支
2026年6月13日OpenRouter发布Fusion API,支持多模型并行融合运行,宣称在多项任务中达到Fable级别智能且成本减半。该产品引发行业两极评价,乐观者认为性能与性价比提升,批评者质疑合成机制可靠性及其对单一模型生态的影响
2026年6月13日美国政府以国家安全为由要求Anthropic停止向外国用户提供Fable 5和Mythos 5模型。此举直接切断前沿模型的跨境访问,引发AI社区对技术保护与地缘分裂的激烈争论。支持者认为可守住核心技术,反对者指出政策将加
今日Smoke评测中,豆包Pro材料约束从84.80降至60.80,跌24分;代码执行从38.40升至100.00,主榜从59.28升至82.36。单日10题快测下,两个核心维度出现极端反向波动,需区分题目抽签与真实能力变化。
赢政指数今日Smoke评测显示,Grok 4材料约束从83.00降至61.30,跌21.7分,而代码执行从80.90升至100.00,主榜微升0.7分至82.59。单日10题快测下,此幅度波动是否为抽签随机还是真实能力变化值得追踪。
2026年6月15日Smoke评测显示,11个模型材料约束平均下滑30分以上,Grok 4以主榜82.59分(执行100、约束61.3)暂居第一,豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分,执行从97
Mistral AI于2026年6月推出优化设备端推理的紧凑开源语言模型,支持强多语言性能,针对移动AI优化。该模型预计加速边缘部署和本地应用开发,引发行业对小型高效模型与大模型竞争的讨论。文章分析其创新点、不足及与同类产品对比,并为开发者