测评 WDCD选型指南:企业选模型,不要再只问"谁第一" 总分只反映平均水平,场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首,但同为2.5的ERNIE 4.5以R3=0.8最抗压,Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首,要匹配自身风险场景。 WDCD 企业选型 场景矩阵 模型对比 2026年5月11日 343
测评 新鲜基准,可靠分数:引入AI风险评估的持续提示管理 AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous MLC AI基准 风险评估 持续管理 2026年4月22日 463