测评 二叉树序列化实测:11 模型 7 满分 4 直接归零 11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出 代码执行 材料约束 二叉树序列化 工程实现 10小时前 67
测评 11模型括号匹配同题测试:7个满分4个零分 11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。 代码执行 材料约束 括号匹配 调试对比 10小时前 69