执行维度相关资讯

Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶，代码执行满分、材料约束81.7分；GPT-o3执行仅50分垫底11名；DeepSeek V4 Pro诚信评级突降为fail，11模型中仅3个pass。