NVIDIA 将拥有 6710 亿参数的 DeepSeek-R1 模型引入了位于 https://t.co/IcE1W0bOLM 上的 NVIDIA NIM 微服务:
- 使用单台 NVIDIA HGX H200 服务器即可实现每秒最多 3,872 个 Token 的推理吞吐量。
- 依托 NVIDIA Hopper 架构,DeepSeek-R1 利用 FP8 Transformer Engine 和 900 GB/s 的 NVLink 带宽进行专家通信,从而提供高速推理性能。
- 一如既往,NVIDIA NIM 面向企业级应用,能够在安全环境中使用行业标准 API 实验并部署 AI 代理。