RuntimeError: CUDA error: unspecified launch failure
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
После этого GPU пропал. Ввод nvidia-smi
дал
Не удалось определить дескриптор устройства для GPU 0000:02.00.0: неизвестная ошибка
К сожалению, это вся информация, отображаемая терминалом. Однако, пройдя через это обсуждение 2, я могу условно запустить код, выполнив одно из следующих действий:
1. Set CUDA_LAUNCH_BLOCKING=1. Surprisingly, this did not provide additional error info. Instead, the program ran properly after setting this, with the cost of 5x-6x training time.
2. Reduce number of workers to 0 and set non_blocking=False when transferring input images/labels to GPU. This also worked, with the cost of 6x-8x data loading time.
Еще одно наблюдение: когда я увеличивал размер пакета, иногда возникали ошибки, хотя программа использовала только 2/3 памяти графического процессора.
Вот конфигурация моей системы:
GPU: 2080Ti
OS: Ubuntu 18.04
Nvidia driver version: 495.29.05
CUDA version: 11.5
PyTorch version: tried 1.9 to 1.11, they all had similar issues
Описание проблемы
/lib/python3.8/site-packages/torch/autograd/ init .py
Variable._execution_engine.run_backward(
RuntimeError: ошибка CUDA: неуказанный сбой запуска
Системная информация
Версия PyTorch: 1.10.2+cu113
Является отладочной сборкой: False
CUDA используется для сборки PyTorch: 11.3
ROCM используется для сборки PyTorch: н/д
ОС: Pop!_OS 20.04 LTS (x86_64)
Версия GCC: (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0
Версия Clang: не удалось собрать
версию CMake: не удалось собрать
версию Libc: glibc-2.31
Версия Python: 3.8.10 (по умолчанию, 26 ноября 2021 г., 20:14:08) [GCC 9.3.0] (64-разрядная среда выполнения)
Платформа Python: Linux-5.15.15-76051515-generic-x86_64-with-glibc2. 29
Доступна ли CUDA: Настоящая
версия среды выполнения CUDA: 11.2.67
Модели и конфигурация GPU:
GPU 0: NVIDIA RTX A6000
GPU 1: NVIDIA RTX A6000
Версия драйвера Nvidia: 470.86
Версия cuDNN: Вероятно, одна из следующих:
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64 -linux/lib/libcudnn_adv_infer.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn_adv_train.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux /lib/libcudnn_cnn_infer.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn_cnn_train.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib /libcudnn_ops_infer.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn_ops_train.so.8.1.1
Версия среды выполнения HIP: Н/Д
Версия среды выполнения MIOpen: Н/Д
Доступен ли XNNPACK: Истинный
Версии соответствующих библиотек:
[pip3] numpy==1.22.3
[pip3] torch==1.10.2+cu113
[pip3] torchaudio==0.10.2+cu113
[pip3] torchvision==0.11.3+cu113
[conda] Не удалось собрать