文心一言主榜暴跌40.3分,Smoke评测揭露执行约束双崩
2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一,文心一言4.5主榜仅47.98分暴跌40.3分,Gemini 2.5 Pro主榜71.33分大降28分,Qwen3 Max材料约束跌26.7分,执行与
2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一,文心一言4.5主榜仅47.98分暴跌40.3分,Gemini 2.5 Pro主榜71.33分大降28分,Qwen3 Max材料约束跌26.7分,执行与
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
今日Smoke轻量评测中,文心一言4.5执行分直接腰斩至50,主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分,Claude Opus 4.7以99.42分继续领跑,材料约束成为拉开差距的关键。
今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。
本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05,Claude Sonnet与豆包Pro同步逆袭;GPT-o3下滑7.8、Grok波动79.2居首,多模型诚信评级出现fail或warn信号,暴露一致性隐患。
2026年5月12日Smoke评测显示,GPT-5.5和GPT-o3并列主榜第一85.69分,但文心一言主榜暴涨24.7分却诚信降为Fail;Gemini系列暴跌超14分,多模型约束维度崩盘,揭示AI稳定性隐忧。
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。