Главная » Error » Error unspecified launch failure

Error unspecified launch failure

 
RuntimeError: CUDA error: unspecified launch failure
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.

После этого GPU пропал. Ввод nvidia-smiдал

Не удалось определить дескриптор устройства для GPU 0000:02.00.0: неизвестная ошибка

К сожалению, это вся информация, отображаемая терминалом. Однако, пройдя через это обсуждение 2, я могу условно запустить код, выполнив одно из следующих действий:

1. Set CUDA_LAUNCH_BLOCKING=1. Surprisingly, this did not provide additional error info. Instead, the program ran properly after setting this, with the cost of 5x-6x training time.
2. Reduce number of workers to 0 and set non_blocking=False when transferring input images/labels to GPU. This also worked, with the cost of 6x-8x data loading time. 

Еще одно наблюдение: когда я увеличивал размер пакета, иногда возникали ошибки, хотя программа использовала только 2/3 памяти графического процессора.

Вот конфигурация моей системы:

GPU: 2080Ti
OS: Ubuntu 18.04
Nvidia driver version: 495.29.05
CUDA version: 11.5
PyTorch version: tried 1.9 to 1.11, they all had similar issues

RuntimeError: ошибка CUDA: неуказанный сбой запуска # 74235

отредактировал pytorch-bot бот 

Описание проблемы

RuntimeError: ошибка CUDA: неопределенная ошибка запуска.
Ошибка возникает в любом обучающем сценарии. Возникновение не является детерминированным. Может произойти в любой момент во время тренировки.
Все коды отлично работают на RTX 3090.

/lib/python3.8/site-packages/torch/autograd/ init .py
Variable._execution_engine.run_backward(
RuntimeError: ошибка CUDA: неуказанный сбой запуска

Системная информация

Версия PyTorch: 1.10.2+cu113
Является отладочной сборкой: False
CUDA используется для сборки PyTorch: 11.3
ROCM используется для сборки PyTorch: н/д

ОС: Pop!_OS 20.04 LTS (x86_64)
Версия GCC: (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0
Версия Clang: не удалось собрать
версию CMake: не удалось собрать
версию Libc: glibc-2.31

Версия Python: 3.8.10 (по умолчанию, 26 ноября 2021 г., 20:14:08) [GCC 9.3.0] (64-разрядная среда выполнения)
Платформа Python: Linux-5.15.15-76051515-generic-x86_64-with-glibc2. 29
Доступна ли CUDA: Настоящая
версия среды выполнения CUDA: 11.2.67
Модели и конфигурация GPU:
GPU 0: NVIDIA RTX A6000
GPU 1: NVIDIA RTX A6000

Версия драйвера Nvidia: 470.86
Версия cuDNN: Вероятно, одна из следующих:
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64 -linux/lib/libcudnn_adv_infer.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn_adv_train.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux /lib/libcudnn_cnn_infer.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn_cnn_train.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib /libcudnn_ops_infer.so.8.1.1
/usr/lib/cuda-11.2/targets/x86_64-linux/lib/libcudnn_ops_train.so.8.1.1
Версия среды выполнения HIP: Н/Д
Версия среды выполнения MIOpen: Н/Д
Доступен ли XNNPACK: Истинный

Версии соответствующих библиотек:
[pip3] numpy==1.22.3
[pip3] torch==1.10.2+cu113
[pip3] torchaudio==0.10.2+cu113
[pip3] torchvision==0.11.3+cu113
[conda] Не удалось собрать


- PyTorch or Caffe2: PyTorch
- How you installed PyTorch (conda, pip, source): pip
- Build command you used (if compiling from source):
- OS: Pop OS 20.04
- PyTorch version: '1.10.2+cu113'
- Python version: 3.8
- CUDA/cuDNN version: 11.3
- GPU models and configuration: A6000
- GCC version (if compiling from source):
- CMake version:
- Versions of any other relevant libraries:


cc @csarofeen @ptrblck @xwang233 @ngimel
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Добавить комментарий

Ваш адрес email не будет опубликован.

Adblock
detector