SGLang 与 Miles 为 Nemotron 3 Ultra 提供 Day-0 支持

SGLang 与 Miles 为 Nemotron 3 Ultra 提供 Day-0 支持

SGLang 与 Miles 团队宣布对 NVIDIA Nemotron 3 Ultra 实现 Day-0 支持,助力长时程自主代理系统从短交互转向持久化工作流。

代理 AI 系统正从简短提示-响应模式转向需要规划、工具调用、结果检验、错误恢复并跨长任务持续工作的持久化流程。这些代理需要强大的推理能力、快速推理、长上下文理解以及可靠的工具使用能力。

图1

Nemotron 3 Ultra 核心特性

Nemotron 3 Ultra 是 Nemotron 家族中的开放前沿推理模型,专为长时程自主代理优化,适用于编码、深度研究、企业工作流和 EDA 等场景。

  • 架构:混合 Transformer-Mamba 的 MoE 架构,总参数 550B,激活参数 55B,上下文长度达 1M token。
  • 效率:支持 NVFP4 与 BF16 高吞吐推理,NVFP4 检查点可在 Blackwell GPU 上运行。
  • 训练:采用多环境强化学习后训练,强化代理行为。
  • 部署:开放权重、数据与配方,支持多 GPU 配置。
图2

快速开始与部署

用户可通过 SGLang Docker 容器快速部署,推荐使用官方 cookbook 或 NVIDIA Brev launchable。

启动服务命令支持 8x B200 配置,并可通过 OpenAI 兼容客户端调用,获取 reasoning_content 与生成结果。

图3

专为长时程代理工作负载设计

Nemotron 3 Ultra 集成主要代理框架,支持 GRPO RL 训练。关键创新包括:

  • 针对代理 harness 的后训练
  • Hybrid Mamba-Transformer 架构
  • Latent MoE 与 Multi-Token Prediction
  • NVFP4 精度跨架构兼容

在代理生产力、指令遵循和长上下文任务上领先开源模型,成本最高可节省 30%。

图4

Miles 强化学习支持

Miles 框架已在 128 张 H200 GPU 上验证 GRPO RL 训练,支持 TP/PP/EP/DP 并行策略与 DP attention,训练与 rollout log-prob 差异保持在 0.01 左右,证明 pipeline 高度 on-policy。

图5