为一台全新的服务器配置Nvidia GPU环境!

Table of Contents

最近由我负责进行运维,现对Nvidia相关的GPU硬件的配置进行整理。

服务器的配置如下:

OS: Ubuntu 18.04
GPU: Tesla V100s

安装流程:

  1. 安装driver。
  2. 安装cuda环境。

0.1. 安装driver

这里查看合适的驱动版本号。保留以该服务器的配置,可查询如:

screenshot_20220330_181327.png

点search,查询结果为:

screenshot_20220330_181346.png

说明我的驱动版本是450可以支持cuda11.0

之后运行以下命令查看有无450:

sudo add-apt-repository ppa:graphics-drivers  #添加NVIDA显卡驱动库
sudo apt update
ubuntu-drivers devices  #显示可安装驱动
## 也可以用下面的命令查看支持的driver
sudo apt list nvidia-driver*

screenshot_20220330_181643.png

然后选择自己想安装的去安装。

比如我的是:

sudo apt install nvidia-driver-450-server

之后可以用 sudo reboot 重启电脑,然后输入 nvidia-smi 就可以看得见安装结果了。

0.2. 安装cuda

然而,安装驱动后,虽然nvidia-smi弹出的框右上角显示有cuda版本, 但真实的cuda还没有安装。可以先去这里查找目标版本号对应的cuda,但是 不要执行 其自带的安装建议,因为这样的结果是,安装最新版的cuda,导致 最终驱动与cuda匹配失败。

比如cuda11.0的页面,如果我选择deb network,会提示我如此安装:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudomv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
sudo apt-get update
sudo apt-get -y install cuda

最后一步千万不要执行!这样会安装成最新版。

应改成:

sudo apt install cuda-toolkit-11-0

版本号可以根据实际需求进行调整。

安装成功之后,加入路径并检查:

export PATH=$PATH:/usr/local/cuda/bin  #添加环境变量
nvcc -V  #检查CUDA版本

很贴心的,参考文献中给出了验证cuda是否有效的方法(不要忘记修改为你自己的版本号)

cuda-install-samples-10.x.sh ~  #安装cuda 10.x的样本到~目录下,替换x为你的版本号
cd ~/NVIDIA_CUDA-10.x_Samples  #进入Sample目录
make  #有点耗时,如果系统版本不匹配,gcc版本可能会导致报错。
./1_Utilities/deviceQuery/deviceQuery  #执行检查程序

0.3. 安装失败

如果版本不兼容,需要卸载掉驱动和cuda从头再来。

卸载方法是:

sudo apt-get --purge remove "nvidia*"  #删除驱动(20.04用过这个代码过后可能会导致简便方法无法使用)
sudo apt-get --purge remove "*cuda*" "*cublas*"  #删除cuda

1. 参考文献:


Author: zi liang (2273067585@qq.com) Create Date: Wed Mar 30 18:00:57 2022 Last modified: 2024-03-09 Sat 20:56 Creator: Emacs 28.1 (Org mode 9.5.2)