Ubuntu 24.04でWhisperXを動かす: Dockerによる環境構築

最近ローカルLLMにハマっているのだが、ひょんなことから「WhisperXで話者分離&字幕作成」をやってみようと思い立った。
ところが、RTX 4080を積んだ Ubuntu 24.04 環境で実行しようとすると libcudnn_cnn_infer.so.8 がないというエラーが発生。調べたところ、Ubuntu 24.04 では CUDA 11.8 + cuDNN 8 の組み合わせが直接インストールできない模様。

色々試した結果、DockerでUbuntu 22.04ベースの環境を作るのが一番スムーズだった。構築手順を備忘録として残す。

NVIDIA Container Toolkitのインストール

DockerからGPUを使うには、まず NVIDIA Container Toolkit をセットアップする。手順は公式ドキュメント ⧉通り。以下、参考まで。

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.17.8-1
sudo apt-get install -y \
      nvidia-container-toolkit=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
      nvidia-container-toolkit-base=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
      libnvidia-container-tools=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \
      libnvidia-container1=${NVIDIA_CONTAINER_TOOLKIT_VERSION}

ベースイメージを取得

Ubuntu 22.04（Jammy）の最新イメージを取得する。

docker pull ubuntu:jammy-20250730

Dockerfile作成

以下のDockerfileを作成する。 CUDA 11.8 + cuDNN 8 をインストールし、WhisperXと依存ライブラリを入れる。 CUDA 12もcublasで求められるのでインストールする。

1
FROM ubuntu:jammy-20250730
2

3
# コンテナ内のシステムを最新の状態に更新
4
RUN apt update && apt install -y --no-install-recommends \
5
    build-essential \
6
    software-properties-common \
7
    wget \
8
    gnupg \
9
    git \
10
    ffmpeg \
11
    python3-pip \
12
    ca-certificates
13

14
# NVIDIA CUDAリポジトリ追加 & CUDA 11.8 + cuDNN 8 + CUDA 12.3 インストール
15
RUN wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb && \
16
    dpkg -i cuda-keyring_1.0-1_all.deb && \
17
    apt update && \
18
    apt -y install cuda-11-8 libcudnn8 libcudnn8-dev cuda-12-3
19

20
# パス設定
21
ENV PATH="/usr/local/cuda-11.8/bin:${PATH}"
22
ENV LD_LIBRARY_PATH="/usr/local/cuda-11.8/lib64:/usr/local/cuda-12.3/lib64:${LD_LIBRARY_PATH}"
23

24
# WhisperX & pyannote.audioインストール
25
RUN pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 && \
26
    pip install whisperx && \
27
    pip install "pyannote.audio"
28

29
# コンテナが起動した際のデフォルトコマンド
30
CMD ["/bin/bash"]

イメージのビルド

docker build -t ubuntu:whisperx .

WhisperXの実行

ホストに音声ファイルを用意して、コンテナから実行する。

例: /home/me/Documents/makesrt/audio.wav

docker run \
  -v /home/me/Documents/makesrt:/root/makesrt \
  --gpus all \
  --rm \
  -w /root/makesrt \
  ubuntu:whisperx \
  whisperx "audio.wav" \
    --compute_type "float16" \
    --device "cuda" \
    --language "en"
    --diarize \
    --hf_token <HUGGINGFACE_TOKEN> \
    --output_dir "./output" \
    --output_format "all" \

オプション解説

-v: ホストとコンテナ間でディレクトリを共有
-w: ワーキングディレクトリ
--gpus all: GPUを全て利用
--diarize: 話者分離を有効化（要Hugging Face Token）
--compute_type "float16": RTX 4080などのGPUで高速化

これでWhisperXがGPUで実行される。CPUに比べて爆速。

まとめ

Ubuntu 24.04でWhisperXを動かそうとすると、CUDA/cuDNNのバージョン制約に引っかかる。

色々やりようはあると思うが、今回は Ubuntu 22.04ベースのDockerイメージを作ることで解決した。

ローカル環境を汚さない
GPUをフル活用できる
他の環境でも再現性が高い

結論：やっぱりDockerは正義。

Ubuntu 24.04でWhisperXを動かす: Dockerによる環境構築

NVIDIA Container Toolkitのインストール

ベースイメージを取得

Dockerfile作成

イメージのビルド

WhisperXの実行

オプション解説

まとめ

Author

入谷史人

Ubuntu 24.04でWhisperXを動かす: Dockerによる環境構築

NVIDIA Container Toolkitのインストール

ベースイメージを取得

Dockerfile作成

イメージのビルド

WhisperXの実行

オプション解説

まとめ

Author

入谷 史人

入谷史人