[Kubernetes专题] Kubernetes 挂载 /dev/nvdia 设备

2025-07-02

一、背景

在人工智能和机器学习领域，GPU（图形处理单元）凭借其强大的并行计算能力，成为加速深度学习训练和推理任务的关键硬件。Kubernetes（简称 K8s）作为一个广泛使用的容器编排平台，能够高效地管理和调度容器化应用。将 GPU 设备挂载到 K8s 集群中的 POD 里，能让开发者充分利用 GPU 的计算能力，提升 AI 任务的执行效率。

二、为什么需要挂载 NVIDIA 设备

2.1 计算能力

NVIDIA GPU 专为并行计算设计，拥有大量的计算核心，能够同时处理多个计算任务。在深度学习训练中，如卷积神经网络（CNN）、循环神经网络（RNN）等模型的训练，GPU 可以将训练时间从数天甚至数周缩短至数小时。

2.2 生态支持

NVIDIA 为其 GPU 提供了丰富的软件库和工具，如 CUDA、cuDNN 等。这些库和工具能够与深度学习框架（如 TensorFlow、PyTorch 等）无缝集成，进一步提升计算效率和开发便利性。

2.3 稳定性和可靠性

NVIDIA 的 GPU 硬件和驱动程序经过了严格的测试和优化，具有较高的稳定性和可靠性。在大规模的生产环境中，能够保证 AI 任务的持续稳定运行。

三、搭建 K8S GPU 集群

3.1 环境准备

硬件：具备 NVIDIA GPU 的服务器，建议使用 Tesla 系列 GPU，如 V100、A100 等。

操作系统：建议使用 Ubuntu 18.04 或 CentOS 7 及以上版本。

Kubernetes 版本：建议使用 v1.11 及以上版本。

3.2 准备 GPU 节点

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html 可以根据这个nvidia文档安装GPU节点

在所有的 GPU 节点上执行以下步骤。此部分假设已经预安装了 NVIDIA 驱动和 nvidia-container-toolkit，并且已经将 nvidia-container-runtime 配置为默认的底层运行时。

3.3 安装 NVIDIA K8s 设备插件

NVIDIA K8s 设备插件可以帮助 K8s 集群发现和管理 NVIDIA GPU 设备。

下载设备插件 YAML 文件

wget https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.17.1/deployments/static/nvidia-device-plugin.yml

部署设备插件

kubectl apply -f nvidia-device-plugin.yml

3.4 验证 GPU 设备是否被 K8s 集群识别

kubectl describe nodes | grep -i nvidia

如果输出中包含 GPU 设备信息，则说明 GPU 设备已被 K8s 集群识别。

四、挂载 NVIDIA 设备到 POD 中使用

4.1 创建一个使用 GPU 的 POD

以下是一个使用 GPU 的 POD 的 YAML 示例：

# gpu-pod.yaml
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  restartPolicy: Never
  containers:
    - name: cuda-container
      image: nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda12.5.0
      resources:
        limits:
          nvidia.com/gpu: 1 # requesting 1 GPU
  tolerations:
  - key: nvidia.com/gpu
    operator: Exists
    effect: NoSchedule

4.2 部署 POD

kubectl apply -f gpu-pod.yaml

4.3 验证 POD 是否成功使用 GPU

kubectl logs gpu-pod

如果输出中包含 GPU 设备信息，则说明 POD 已成功使用 GPU。

五、总结

通过以上步骤，我们成功搭建了 K8S GPU 集群，并将 NVIDIA 设备挂载到 POD 中使用。在实际应用中，我们可以根据具体的业务需求，调整 POD 的资源配置，以充分发挥 GPU 的计算能力。同时，我们还需要定期维护和监控 GPU 设备，确保其稳定运行。

三、Rust 从基础到实战应用（函数、闭包与迭代器）

一、Airflow 3.0.2 从基础到实战应用（快速上手）

NexaGrid技术博客