MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化
MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,
MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,
MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11,这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP
OpenAI近日发布的o1-preview模型在多项基准测试中大幅领先GPT-4o和Claude 3.5 Sonnet,尤其在数学和编程领域表现卓越,ARC-AGI得分达83%。其‘思考链’优化机制被誉为AI推理革命的关键,X平台#o1话题
人工智能行业正处于转折点,企业将AI从实验阶段推向金融、医疗和制造等关键业务时,可靠性验证成为核心障碍。MLCommons联盟(包括KPMG、Google、Microsoft和Qualcomm)推出AILuminate全球保障计划(AIL
谷歌最新发布的Gemini 3.1 Pro模型在多项基准测试中取得历史性成绩,再次刷新纪录。该模型承诺提供更强大的大语言模型(LLM)能力,能够处理更复杂的任务形式,包括多模态推理、长上下文理解和高级代码生成。相比前代,Gemini 3.1
谷歌DeepMind呼吁对大语言模型(LLM)的道德行为进行与编程或数学能力同等的严谨审查。随着LLM性能提升,人们越来越依赖它们扮演伴侣、治疗师、医疗顾问等角色。DeepMind强调,需要开发标准化基准来评估AI在道德困境中的真实表现,而
随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射
人工智能正从消费级聊天工具转型为驱动企业服务的通用技术,却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠,方能广泛部署。克服此挑战依赖评估标准,将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为
计算规模扩展遵循神经缩放定律,已显著减少自然语言处理和计算机视觉领域的手动特征工程需求,转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统,传统依赖MLP、GNN和嵌入表架构,如今大型序列
MLCommons近日公布MLPerf Tiny v1.3基准测试结果,聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果,在Image Classification、Keyword Spotting、Anomaly D
MLCommons 旗下开源平台 MedPerf 近日推出 WebUI 支持,用户无需本地安装即可通过浏览器轻松运行隐私保护的机器学习基准测试。新功能集成了 SGLang 等后端,简化了模型评估流程,支持多种任务如图像分类和 NLP。Web
Anthropic推出Claude 3.5 Sonnet,在GPQA、SWE-bench等基准测试中超越GPT-4o,用户反馈编码任务表现惊人。互动超20万,焦点转向实际应用与安全优先策略,凸显前沿大模型竞赛白热化。
NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内
Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para
OpenAI近日发布o1-preview和o1-mini模型,在数学、编码及科学推理基准上大幅超越GPT-4o,ARC-AGI得分高达87.5%。其‘思考链’机制模拟人类推理过程,引发X平台热议,互动超10万次,用户测试分享刷屏,标志AI迈