Install NVIDIA LLM Models on Docker

A guide to setting up NVIDIA LLM models using Docker containers.

Add NVIDIA Container Toolkit repository

bash

1curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
2  | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
3
4curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
5  | sed 's#deb #deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] #' \
6  | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list > /dev/null

Install NVIDIA Container Toolkit

bash

1sudo apt install -y nvidia-container-toolkit

Configure Docker runtime

bash

1sudo nvidia-ctk runtime configure --runtime=docker

bash

1sudo systemctl restart docker

Pull a HuggingFace model into Docker

bash

1sudo docker run --gpus all --ipc=host -p 8000:8000 \
2  -v $HOME/.cache/huggingface:/root/.cache/huggingface \
3  vllm/vllm-openai:latest \
4  --model Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8