文心一言相关AI资讯 | 赢政天下 AI

文心一言主榜暴跌40.3分，Smoke评测揭露执行约束双崩

2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一，文心一言4.5主榜仅47.98分暴跌40.3分，Gemini 2.5 Pro主榜71.33分大降28分，Qwen3 Max材料约束跌26.7分，执行与

文心一言材料约束 GPT-5.5 Smoke轻量评测

9小时前 72

测评

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 351

测评

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

今日Smoke轻量评测中，文心一言4.5执行分直接腰斩至50，主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分，Claude Opus 4.7以99.42分继续领跑，材料约束成为拉开差距的关键。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 251

测评

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 225

测评

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05，Claude Sonnet与豆包Pro同步逆袭；GPT-o3下滑7.8、Grok波动79.2居首，多模型诚信评级出现fail或warn信号，暴露一致性隐患。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 336

测评

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 376

测评

WDCD 周期巨震：三强齐跌文心独涨，守约能力为何集体退化？

本期 WDCD 守约测试出现罕见的"三跌一涨"格局：Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分，GPT-5.5 下挫 5.8 分跌出榜首梯队，唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4

WDCD 守约测试模型周期追踪 Gemini退步

2026年5月3日 524

测评

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

赢政指数第13周评测显示，GPT-4o材料约束维度大跌10.3分，成为本周最大输家；文心一言4.0代码执行提升6.8分，是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首，GPT-4o跌至垫底。

GPT-4o 文心一言材料约束代码执行

2026年3月24日 684

测评

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。

文心一言模型稳定性性能评测 AI测评

2026年3月22日 474

文心一言 相关资讯