AI评测异常相关资讯

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。