测评 ATX基准专家面板深度解析 MLCommons近日举办的ATX(Agent Testing eXploration)基准专家面板讨论,由LMSYS Org等机构参与,聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径, MLC ATX基准 AI代理评估 Chatbot Arena 2026年2月10日 755