风险评估相关资讯

WDCD选型指南：企业选模型，不要再只问"谁第一"

总分只反映平均水平，场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首，但同为2.5的ERNIE 4.5以R3=0.8最抗压，Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首，要匹配自身风险场景。

AI行业每隔几个月就会推出新一代前沿模型，这些模型的能力不断提升，同时也改变了监管机构、企业和公众需要评估的风险格局。然而，用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous