AI可靠性地图:规则与环境
AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性,这不仅能推动市场增长,还能保护社会安全。通过制定详细计划并实施,确保AI系统在不同阶段的可靠性。
AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性,这不仅能推动市场增长,还能保护社会安全。通过制定详细计划并实施,确保AI系统在不同阶段的可靠性。
AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous
MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量
AI作为当今采用速度最快的通用技术,其全球普及却存在显著差距,反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark,针对亚太地区开发文化特定的多语言多模
人工智能行业正处于转折点,企业将AI从实验阶段推向金融、医疗和制造等关键业务时,可靠性验证成为核心障碍。MLCommons联盟(包括KPMG、Google、Microsoft和Qualcomm)推出AILuminate全球保障计划(AIL
随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射
人工智能正从消费级聊天工具转型为驱动企业服务的通用技术,却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠,方能广泛部署。克服此挑战依赖评估标准,将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为
MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引
MLCommons组织近日推出Ailuminate基准的法语数据集版本,进一步扩展多语言大语言模型(LLM)评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务,总计超过10万条高质量法语样本,由专业标注团队构建,确保文化适应性和准确性
MLCommons 宣布印度国家软件与服务公司协会(NASSCOM)正式加入其联盟,成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展,推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企
MLCommons近日举办的ATX(Agent Testing eXploration)基准专家面板讨论,由LMSYS Org等机构参与,聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径,
MLCommons 发布了 2025 MLC Rising Stars 榜单,表彰在 MLPerf Inference v5.0 基准测试中使用 MLC(ML Compiler)框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 L
MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批
MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、
MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标
MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SL
MLCommons 近日发布了 Croissant MCP(Model Card Profile),这是基于 Croissant 格式的创新扩展,旨在标准化 AI 模型的元数据描述。该标准简化了模型卡片的创建与共享,支持自动生成文档、提升可
MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 S
MLCommons 发布的《Training Flux.1》报告详解了 Black Forest Labs 的 Flux.1 模型训练过程。该模型采用 12B 参数的 DiT 架构,在海量高质量数据集上训练,支持文本到图像生成,性能媲美 M
MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H1