AI可靠性相关资讯

WDCD横评揭秘：业务规则成11模型集体滑铁卢，安全合规区分度拉满2分

WDCD测试显示业务规则场景整体得分最低，垫底仅1/4；安全合规区分度最大达2分；gemini-2.5-pro、gpt-5.5等模型偏科差距2分，企业选型必须按场景匹配。

WDCD 守约测试模型选型场景偏科

2026年5月27日 419

AI可靠性地图：规则与环境

AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性，这不仅能推动市场增长，还能保护社会安全。通过制定详细计划并实施，确保AI系统在不同阶段的可靠性。

MLC AI可靠性 MLCommons AI风险管理

2026年4月25日 458

豆包Pro稳定性暴跌19.8分，同题不同答成最大软肋

赢政指数最新评测显示，豆包Pro稳定性从54.5分骤降至34.7分，跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性，同样的问题可能得到截然不同的答案，这对需要稳定输出的生产环境构成重大隐患。

豆包Pro 稳定性模型一致性评测分析

2026年3月24日 755

Claude 4.6版本崩了：23分暴跌背后的算法黑洞

Claude Sonnet最新4.6版本稳定性暴跌23分，从54.2跌至31.2。测试数据显示，该模型在处理实际工程问题时出现严重退化，暴露出当前AI模型在面对真实复杂场景时的脆弱性。

Claude 稳定性测试模型退化算法缺陷

2026年3月22日 698