Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患
Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。
Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。
AI作为当今采用速度最快的通用技术,其全球普及却存在显著差距,反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark,针对亚太地区开发文化特定的多语言多模
随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射
谷歌Gemini遭模型蒸馏攻击曝光后,winzheng Research Lab最新报告剖析DeepSeek事件,揭示攻击链条全貌。从API异常调用到混合训练路径,事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系,
MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 S