测评 Claude Sonnet 4.6主榜91.77断层领先,GPT-o3执行50分直接垫底 今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。 Claude Sonnet 4.6 材料约束 Smoke轻量评测 执行维度 2026年5月29日 266