测评 AI大模型惊变!文心一言暴涨24.7分却诚信崩盘,Gemini三连跌16分 2026年5月12日Smoke评测显示,GPT-5.5和GPT-o3并列主榜第一85.69分,但文心一言主榜暴涨24.7分却诚信降为Fail;Gemini系列暴跌超14分,多模型约束维度崩盘,揭示AI稳定性隐忧。 GPT-5.5 文心一言 代码执行 材料约束 6小时前 31