声称全球第三、支持8小时长时推理:未官宣的GLM-5.1真能刷新开源模型天花板?
winzheng.com Research Lab监测到突发行业信号:Z AI发布未官宣的GLM-5.1模型,声称位列全球关键基准第三、属开源顶流,当前该信号尚未经独立核实。本文梳理已披露信息、待验证疑点及潜在行业价值,后续将推出实测报告。
winzheng.com Research Lab监测到突发行业信号:Z AI发布未官宣的GLM-5.1模型,声称位列全球关键基准第三、属开源顶流,当前该信号尚未经独立核实。本文梳理已披露信息、待验证疑点及潜在行业价值,后续将推出实测报告。
MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量
本期《下载》专栏聚焦两大热点:尼日利亚医学生Zeus等全球零工通过VR设备在家远程操控人形机器人,助力Figure AI和Tesla Optimus等项目积累训练数据,开启低成本机器人训练新时代。同时,AI基准测试迎来革新,新标准更准确评估
MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展
数十年来,人工智能评估一直围绕机器是否超越人类展开,从国际象棋到高级数学、编程和散文写作,AI模型的表现总被与个体人类在孤立任务上的成绩对比。这种框架虽诱人,却忽略了AI在复杂、真实世界中的局限。基准测试饱和、数据污染等问题频发,导致评估失
Anthropic发布Claude 3.5 Sonnet模型,在SWE-bench编码基准达75%,数学和视觉任务超越GPT-4o。X平台互动超10万,转发量暴增,开发者赞其推理能力革命性提升,点燃OpenAI与Anthropic新一轮AI
MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instru