Nouveau源码分析(六):NVIDIA设备初始化之nouveau_drm_load (3)

本文是Nouveau源码分析系列的第六篇,主要探讨NVIDIA设备的初始化过程,详细解析nouveau_drm_load函数的实现,揭示Linux下NVIDIA驱动的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Nouveau源码分析(六)

上一篇中我们暂时忽略了两个函数,第一个是用于创建nvif_device对应的nouveau_object的ctor函数:
// /drivers/gpu/drm/nouveau/core/engine/device/base.c
488 static struct nouveau_ofuncs
489 nouveau_devobj_ofuncs = {
490         .ctor = nouveau_devobj_ctor,
491         .dtor = nouveau_devobj_dtor,
492         .init = _nouveau_parent_init,
493         .fini = _nouveau_parent_fini,
494         .mthd = nouveau_devobj_mthd,
495 };
也就是对应的nouveau_devobj_ctor,这个函数的主要功能就是识别NVIDIA设备类型,然后初始化每一个subdev.
// /drivers/gpu/drm/nouveau/core/engine/device/base.c
274 static int
275 nouveau_devobj_ctor(struct nouveau_object *parent,
276                     struct nouveau_object *engine,
277                     struct nouveau_oclass *oclass, void *data, u32 size,
278                     struct nouveau_object **pobject)
279 {
280         union {
281                 struct nv_device_v0 v0;
282         } *args = data;
283         struct nouveau_client *client = nv_client(parent);
284         struct nouveau_device *device;
285         struct nouveau_devobj *devobj;
286         u32 boot0, strap;
287         u64 disable, mmio_base, mmio_size;
288         void __iomem *map;
289         int ret, i, c;
290 
291         nv_ioctl(parent, "create device size %d\n", size);
292         if (nvif_unpack(args->v0, 0, 0, false)) {
293                 nv_ioctl(parent, "create device v%d device %016llx "
294                                  "disable %016llx debug0 %016llx\n",
295                          args->v0.version, args->v0.device,
296                          args->v0.disable, args->v0.debug0);
297         } else
298                 return ret;
299 
300         /* give priviledged clients register access */
301         if (client->super)
302                 oclass = &nouveau_devobj_oclass_super;
303 
304         /* find the device subdev that matches what the client requested */
305         device = nv_device(client->device);
306         if (args->v0.device != ~0) {
307                 device = nouveau_device_find(args->v0.device);
308                 if (!device)
309                         return -ENODEV;
310         }
311 
312         ret = nouveau_parent_create(parent, nv_object(device), oclass, 0,
313                                     nouveau_control_oclass,
314                                     (1ULL << NVDEV_ENGINE_DMAOBJ) |
315                                     (1ULL << NVDEV_ENGINE_FIFO) |
316                                     (1ULL << NVDEV_ENGINE_DISP) |
317                                     (1ULL << NVDEV_ENGINE_PERFMON), &devobj);
318         *pobject = nv_object(devobj);
319         if (ret)
320                 return ret;
321 
322         mmio_base = nv_device_resource_start(device, 0);
323         mmio_size = nv_device_resource_len(device, 0);
324 
325         /* translate api disable mask into internal mapping */
326         disable = args->v0.debug0;
327         for (i = 0; i < NVDEV_SUBDEV_NR; i++) {
328                 if (args->v0.disable & disable_map[i])
329                         disable |= (1ULL << i);
330         }
331 
332         /* identify the chipset, and determine classes of subdev/engines */
333         if (!(args->v0.disable & NV_DEVICE_V0_DISABLE_IDENTIFY) &&
334             !device->card_type) {
335                 map = ioremap(mmio_base, 0x102000);
336                 if (map == NULL)
337                         return -ENOMEM;
338 
339                 /* switch mmio to cpu's native endianness */
340 #ifndef __BIG_ENDIAN
341                 if (ioread32_native(map + 0x000004) != 0x00000000)
342 #else
343                 if (ioread32_native(map + 0x000004) == 0x00000000)
344 #endif
345                         iowrite32_native(0x01000001, map + 0x000004);
346 
347                 /* read boot0 and strapping information */
348                 boot0 = ioread32_native(map + 0x000000);
349                 strap = ioread32_native(map + 0x101000);
350                 iounmap(map);
351 
352                 /* determine chipset and derive architecture from it */
353                 if ((boot0 & 0x1f000000) > 0) {
354                         device->chipset = (boot0 & 0x1ff00000) >> 20;
355                         switch (device->chipset & 0x1f0) {
356                         case 0x010: {
357                                 if (0x461 & (1 << (device->chipset & 0xf)))
358                                         device->card_type = NV_10;
359                                 else
360                                         device->card_type = NV_11;
361                                 break;
362                         }
363                         case 0x020: device->card_type = NV_20; break;
364                         case 0x030: device->card_type = NV_30; break;
365                         case 0x040:
366                         case 0x060: device->card_type = NV_40; break;
367                         case 0x050:
368                         case 0x080:
369                         case 0x090:
370                         case 0x0a0: device->card_type = NV_50; break;
371                         case 0x0c0:
372                         case 0x0d0: device->card_type = NV_C0; break;
373                         case 0x0e0:
374                         case 0x0f0:
375                         case 0x100: device->card_type = NV_E0; break;
376                         case 0x110: device->card_type = GM100; break;
377                         default:
378                                 break;
379              
<think>嗯,用户遇到了Linux启动时的报错信息“drm:nv_drm_load [nvidia_drm] failed to allocate nvkmskapidevice”。首先,我需要确定这个错误的大致原因。通常,涉及NVIDIADRM模块的错误可能与显卡驱动有关。可能的情况包括驱动未正确安装、版本冲突,或者内核模块加载的问题。 接下来,我应该考虑用户可能的环境。用户可能是在安装或更新NVIDIA驱动后遇到这个问题,或者在系统更新(比如内核升级)之后出现的。此外,用户可能使用的是Ubuntu、Fedora等常见发行版,或者Arch Linux等滚动更新的系统,不同发行版的解决方法可能略有不同。 然后,我需要分解错误信息本身。错误提到“nv_drm_load”失败,无法分配“nvkmskapidevice”。这通常指向NVIDIA的内核模块(如nvidia-drm)在加载时遇到了问题。可能的原因包括驱动与当前运行的内核版本不兼容,或者多个驱动版本冲突,比如同时存在开源驱动nouveau和闭源NVIDIA驱动。 接下来,思考可能的解决步骤。首先建议用户检查NVIDIA驱动是否正确安装,使用命令如`nvidia-smi`来验证驱动是否正常。如果驱动未安装,可能需要安装合适的版本。如果已经安装,可能需要重新配置或更新驱动。 另外,考虑内核模块的问题。用户可能需要重建initramfs,特别是在内核升级后,确保模块正确集成。或者,检查是否有多个驱动版本存在,导致冲突,需要禁用nouveau驱动,并确保NVIDIA驱动正确加载。 还可能涉及到GRUB配置,比如在引导参数中添加`nomodeset`来暂时禁用图形模式,或者修改模块黑名单。此外,检查Xorg的日志(/var/log/Xorg.0.log)可能会有更详细的错误信息,帮助诊断问题。 还要考虑用户可能尝试过的操作,比如自行安装驱动时是否使用了正确的仓库或方法,或者是否在安装后运行了必要的配置步骤。比如,使用`ubuntu-drivers`自动安装推荐驱动,或者手动安装后运行`nvidia-xconfig`生成Xorg配置。 另外,如果用户使用的是Secure Boot,可能需要签名NVIDIA内核模块,否则驱动无法加载。这种情况下,用户需要禁用Secure Boot或进行模块签名。 最后,可能需要建议用户在恢复模式下操作,比如进入恢复模式后卸载并重新安装驱动,或者使用低图形模式启动系统进行调整。 总结可能的解决步骤:1. 检查驱动状态;2. 禁用nouveau3. 重新安装或更新驱动;4. 重建initramfs;5. 检查Secure Boot设置;6. 调整GRUB参数;7. 检查日志获取更多信息。需要逐步引导用户排查,确保每个步骤清晰,避免遗漏关键点。</think>### Linux启动报错 `drm:nv_drm_load [nvidia_drm] failed to allocate nvkmskapidevice` 分析与解决 该报错通常与 **NVIDIA显卡驱动** 的加载问题相关,可能由驱动未正确安装、版本冲突、内核模块加载失败等原因导致。以下是逐步排查和解决方法: --- #### 1. **检查NVIDIA驱动状态** - **验证驱动是否安装**: 终端输入以下命令,检查驱动是否正常加载: ```bash nvidia-smi ``` - 若输出显卡信息,说明驱动已加载。 - 若提示`command not found`,说明驱动未安装或未正确加载。 - **查看已安装的驱动版本**: ```bash dkms status # 查看内核模块状态 apt list --installed | grep nvidia # Ubuntu/Debian rpm -qa | grep nvidia # Fedora/CentOS ``` --- #### 2. **禁用开源驱动 `nouveau`** NVIDIA闭源驱动可能与开源的`nouveau`驱动冲突,需禁用后者: - **编辑黑名单文件**: ```bash sudo nano /etc/modprobe.d/blacklist-nouveau.conf ``` 添加以下内容: ```conf blacklist nouveau options nouveau modeset=0 ``` - **更新initramfs**: ```bash sudo update-initramfs -u ``` - **重启系统**。 --- #### 3. **重新安装NVIDIA驱动** - **卸载旧驱动**: ```bash sudo apt purge nvidia-* # Ubuntu/Debian sudo dnf remove nvidia-* # Fedora ``` - **安装推荐版本**(以Ubuntu为例): ```bash sudo ubuntu-drivers autoinstall ``` 或手动指定版本: ```bash sudo apt install nvidia-driver-535 # 替换为推荐版本号 ``` - **重启并验证**: ```bash nvidia-smi ``` --- #### 4. **修复内核模块问题** - **重建内核模块**: ```bash sudo dkms remove -m nvidia -v <驱动版本> --all sudo dkms install -m nvidia -v <驱动版本> sudo update-initramfs -u ``` - **检查Secure Boot**: 若系统启用Secure Boot,需禁用或为NVIDIA模块签名(需密钥)。 --- #### 5. **调整GRUB引导参数** - **临时禁用图形模式**: 在GRUB启动菜单中按`e`键,在`linux`行末尾添加: ```text nomodeset ``` - **永久生效**(编辑`/etc/default/grub`): ```text GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset" ``` ```bash sudo update-grub ``` --- #### 6. **检查日志定位问题** - **查看启动日志**: ```bash journalctl -b | grep nvidia dmesg | grep nvidia ``` - **Xorg日志**: ```bash cat /var/log/Xorg.0.log | grep EE ``` --- ### 常见原因总结 | 可能原因 | 解决方法 | |-------------------------|-----------------------------| | 驱动未安装/版本不兼容 | 重新安装适配当前内核的驱动 | | `nouveau`驱动冲突 | 彻底禁用`nouveau` | | Secure Boot阻止加载模块 | 禁用Secure Boot或签名模块 | | 内核更新后未重建模块 | 通过`dkms`重新生成模块 | 如果问题仍未解决,请提供以下信息: 1. 系统发行版及版本 2. 内核版本(`uname -r`) 3. NVIDIA驱动版本 4. 相关日志片段(`dmesg`或`Xorg.0.log`)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值