原创 Claude 3.5 Sonnet刷新AI基准纪录:多项测试超GPT-4o,编码能力引爆讨论 Anthropic推出Claude 3.5 Sonnet,在GPQA、SWE-bench等基准测试中超越GPT-4o,用户反馈编码任务表现惊人。互动超20万,焦点转向实际应用与安全优先策略,凸显前沿大模型竞赛白热化。 Claude 3.5 Sonnet Anthropic 基准测试 GPT-4o 2026年2月7日 476