测评 MLCommons 为可辩护越狱基准测试奠基 随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射 MLC MLCommons 越狱攻击 基准测试 2026年2月18日 796