海外精选

海外

AI基准测试失效了,我们需要什么替代方案?

数十年来,人工智能评估一直围绕机器是否超越人类展开,从国际象棋到高级数学、编程和散文写作,AI模型的表现总被与个体人类在孤立任务上的成绩对比。这种框架虽诱人,却忽略了AI在复杂、真实世界中的局限。基准测试饱和、数据污染等问题频发,导致评估失

AI基准测试 人工智能评估 机器学习 技术基准
286