测评 Gemini 2.5 Pro时区推理100分变0:大模型的常识盲区有多可怕 Gemini 2.5 Pro在最新评测中遭遇滑铁卢:时区推理题从满分直接跌至0分,综合评分下降2.9分。这道看似简单的题目暴露了大模型在处理现实世界常识问题时的致命缺陷。 Gemini 2.5 Pro 严格题测试 时区推理 模型可靠性 2026年3月21日 341
测评 AI模型时区推理能力对比:细节决定成败 在这道看似简单的时区转换题目中,8个顶级AI模型展现出了明显的能力分化。题目要求从北京时间(UTC+8)3月15日周六15:00出发,计算4个城市的当地时间和星期几。完全正确组(5个模型):Claude Sonnet 3.5、Gemini 赢政指数 模型横评 时区推理 AI评测 2026年3月20日 416