为一台全新的服务器配置Nvidia GPU环境!
Table of Contents
最近由我负责进行运维,现对Nvidia相关的GPU硬件的配置进行整理。
服务器的配置如下:
OS: Ubuntu 18.04 GPU: Tesla V100s
安装流程:
- 安装driver。
- 安装cuda环境。
0.1. 安装driver
从这里查看合适的驱动版本号。保留以该服务器的配置,可查询如:
点search,查询结果为:
说明我的驱动版本是450可以支持cuda11.0
之后运行以下命令查看有无450:
sudo add-apt-repository ppa:graphics-drivers #添加NVIDA显卡驱动库 sudo apt update ubuntu-drivers devices #显示可安装驱动 ## 也可以用下面的命令查看支持的driver sudo apt list nvidia-driver*
然后选择自己想安装的去安装。
比如我的是:
sudo apt install nvidia-driver-450-server
之后可以用 sudo reboot
重启电脑,然后输入 nvidia-smi
就可以看得见安装结果了。
0.2. 安装cuda
然而,安装驱动后,虽然nvidia-smi弹出的框右上角显示有cuda版本, 但真实的cuda还没有安装。可以先去这里查找目标版本号对应的cuda,但是 不要执行 其自带的安装建议,因为这样的结果是,安装最新版的cuda,导致 最终驱动与cuda匹配失败。
比如cuda11.0的页面,如果我选择deb network,会提示我如此安装:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudomv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
sudo add-apt-repository "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
sudo apt-get update
sudo apt-get -y install cuda
最后一步千万不要执行!这样会安装成最新版。
应改成:
sudo apt install cuda-toolkit-11-0
版本号可以根据实际需求进行调整。
安装成功之后,加入路径并检查:
export PATH=$PATH:/usr/local/cuda/bin #添加环境变量 nvcc -V #检查CUDA版本
很贴心的,参考文献中给出了验证cuda是否有效的方法(不要忘记修改为你自己的版本号)
cuda-install-samples-10.x.sh ~ #安装cuda 10.x的样本到~目录下,替换x为你的版本号 cd ~/NVIDIA_CUDA-10.x_Samples #进入Sample目录 make #有点耗时,如果系统版本不匹配,gcc版本可能会导致报错。 ./1_Utilities/deviceQuery/deviceQuery #执行检查程序
0.3. 安装失败
如果版本不兼容,需要卸载掉驱动和cuda从头再来。
卸载方法是:
sudo apt-get --purge remove "nvidia*" #删除驱动(20.04用过这个代码过后可能会导致简便方法无法使用) sudo apt-get --purge remove "*cuda*" "*cublas*" #删除cuda