记录安装显卡驱动过程
| Bash |
|---|
| 服务器: Dell T630
显卡: NVIDIA-Tesla V100 * 2
系统: Rocky9.6
|
准备工作
更新系统并安装编译依赖
| Bash |
|---|
| sudo dnf update
sudo dnf install kernel-devel kernel-headers gcc make
|
禁用开源Nouveau驱动(关键步骤)
| Bash |
|---|
| # 1. 将驱动加入黑名单
echo -e 'blacklist nouveau\noptions nouveau modeset=0' | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
# 2. 重建初始内存盘
sudo dracut --force
# 3. 重启
sudo reboot
# 重启后,使用
lsmod | grep nouveau
# 命令检查,没有输出即表示禁用成功
|
处理安全启动 (Secure Boot):建议在BIOS中暂时关闭Secure Boot,传统BIOS引导跳过,如果是UEFI引导需要修改
通过ELRepo仓库安装驱动
导入ELRepo仓库的GPG密钥并启用仓库
| Bash |
|---|
| sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
sudo dnf install https://www.elrepo.org/elrepo-release-9.el9.elrepo.noarch.rpm
# 如果源很慢,可以更换国内镜像源
## 清华大学 TUNA 镜像
http://mirrors.tuna.tsinghua.edu.cn/elrepo
## 阿里云镜像
http://mirrors.aliyun.com/elrepo
# 编辑/etc/yum.repos.d/elrepo.repo
# 修改[elrepo] 和 [elrepo-kernel] 这两个
|
安装NVIDIA驱动包
| Bash |
|---|
| sudo dnf install kmod-nvidia
# 此时可以用命令查看nvidia-smi
#----
#0 Tesla V100-PCIE-16GB Off
#1 Tesla V100-PCIE-16GB Off
|
这个kmod-nvidia包是带有DKMS支持的,当内核更新时,驱动模块会自动重新编译,非常方便
重启并验证
| Bash |
|---|
| reboot
nvidia-smi
# 如果安装成功,这个命令会显示一张表格,包含GPU型号、驱动版本、GPU使用情况等信息
#---
0 Tesla V100-PCIE-16GB On
1 Tesla V100-PCIE-16GB On
|
可选后续:安装CUDA工具包
在Rocky Linux 9.6上安装CUDA工具包,最关键的是确保CUDA版本与已安装的NVIDIA驱动版本兼容
先使用 nvidia-smi 命令确认驱动版本
NVIDIA-SMI 580.105.08 Driver Version: 580.105.08 CUDA Version: 13.0
nvidia-smi输出的CUDA Version: 13.0代表支持的版本
CUDA不是显卡驱动,而是一个必须安装才能让普通程序利用NVIDIA GPU进行并行计算的“工具箱”和“编程平台”
通过官方仓库: https://developer.nvidia.com/cuda-downloads
选择Linux -> x86_64 -> RHEL 9 -> rpm (network)
安装
| Bash |
|---|
| sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/cuda-rhel9.repo
sudo dnf clean all
sudo dnf -y install cuda-toolkit-13-1
|
配置环境变量
将CUDA的路径添加到系统环境变量中
| Bash |
|---|
| echo 'export PATH=/usr/local/cuda-13/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-13/lib64:$LD_LIBRARY_PATH' | sudo tee -a /etc/profile.d/cuda.sh
source /etc/profile.d/cuda.sh
# 验证
nvcc --version
|