问题1
实验室新装了几台服务器,加入vSphere集群,配置显卡直通后,创建的windows虚拟机可以正常安装Nvidia驱动,nvidia-smi命令可以显示显卡信息,但是创建的ubuntu虚拟机nvidia-smi一直无法显示显卡信息,返回no devices were found。
sudo lspci |grep -i VGA
1
| 03:00.0 VGA compatible controller: NVIDIA Corporation Device xxxxx
|
dmesg
1 2 3 4
| [ 1606.332778] NVRM: GPU 0000:03:00.0: RmInitAdapter failed! (0x26:0x56:1463) [ 1606.332912] NVRM: GPU 0000:03:00.0: rm_init_adapter failed, device minor number 0 [ 1607.004207] NVRM: GPU 0000:03:00.0: RmInitAdapter failed! (0x26:0x56:1463) [ 1607.004349] NVRM: GPU 0000:03:00.0: rm_init_adapter failed, device minor number 0
|
环境
解决方案
NVDIA论坛有类似问题,中文社区貌似没有搬运过类似的方法,大多是设置高级参数,打补丁之类的方法。传送门
-
禁用nouveau
1 2 3 4 5 6
| touch /etc/modprobe.d/blacklist-nvidia-nouveau.conf
cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf << EOF blacklist nouveau options nouveau modeset=0 EOF
|
-
NVDIA内核参数
1 2 3 4 5
| touch /etc/modprobe.d/nvidia.conf
cat >> /etc/modprobe.d/nvidia.conf << EOF options nvidia NVreg_OpenRmEnableUnsupportedGpus=1 EOF
|
-
应用更改
1
| sudo update-initramfs -u
|
-
重启
-
下载驱动(官网)
-
安装驱动
1
| sudo .\nvidia-derive-filename.run -m=kernel-open
|
-
重启
问题2
vsphere中的虚拟机配置直通GPU后,启动时出现模块“DevicePowerOn”打开电源失败。
环境
解决方案
设置高级参数
1 2
| pciPassthru.use64bitMMIO=TRUE pciPassthru.64bitMMIOSizeGB=64
|
具体操作如下:

