VOBからMOVへ変換｜音声抽出で効率的に文字起こし

はじめに

古いDVDコレクションを扱うアーキビスト、ポッドキャスター、インディーズ映画制作者にとって、VOBファイルをMOV形式へ変換したり、高音質の音声だけを抽出する作業は、現代の文字起こしワークフローに欠かせない工程となっています。タイムスタンプや話者情報を正確に記録した文字起こしを目指すなら、元となる音声の品質は予想以上に重要です。だからこそ、単に動画コンテナを変換するのではなく、文字起こし前にロスレス抽出を行うことが、結果の精度向上に直結します。

このガイドでは、オープンソースツール、特にFFmpegを使って、VOBファイルから高品質な音声（WAVまたはFLAC）を抽出する方法を解説します。VIDEO_TSフォルダ全体のバッチ処理、破損したセグメントの修復、そしてタイムスタンプを保持しながらシームレスに文字起こしできるパイプラインの構築方法も紹介します。ワークフローの初期段階でSkyScribeを活用すれば、ロスレスでクリーンな音声トラックから正確な文字起こしを作成でき、話者ラベルや適切な区切りも自動的に付与されるため、字幕や台本のズレによる面倒な修正作業を大幅に減らせます。

なぜ音声抽出を先に行うのか

VOB動画ファイルから直接文字起こしする方が手っ取り早く感じられるかもしれませんが、このコンテナ形式には、文字起こしエンジンを混乱させる要素が多く含まれています。VOBにはMPEG動画と複数の音声ストリーム、ナビゲーションパケット、多言語トラックなどが混在しており、音声認識処理に悪影響を与えることがあります。

先に音声をWAVやFLACに抽出しておくことで、次のようなメリットがあります。

デコード時の遅延を減らし、タイムスタンプのズレを防ぐ
動画ビットレートによるスペクトログラム処理への干渉を回避
純粋な音声データを渡すことで話者識別（ダイアリゼーション）の精度が向上
アップロード前に音量や無音部分の調整が可能

2025年の研究報告でも、マルチトラックDVDなど複雑なソースにおいて、ロスレス音声から文字起こしした方が精度が20〜30％向上するという結果が示されています。

音声フォーマットの選び方：ロスレスか圧縮か

アーカイブ目的の文字起こしには、ロスレスフォーマットが圧倒的に有利です。

WAV（PCM s16le）：非圧縮、大容量、互換性抜群
FLAC：ロスレス圧縮で容量はWAVの半分〜7割程度、音質は同じ

容量に余裕がある場合はWAV、大量処理やストレージ効率を求める場合はFLACがおすすめです。MP3やAACのような非可逆圧縮は扱いやすいものの、話者分離やタイムスタンプ精度に必要な周波数成分が失われる可能性があります。

高音質抽出のためのFFmpegコマンド

FFmpegは柔軟性が高く、VOBからの音声抽出に最適です。以下はロスレスステレオWAVの基本コマンドです。

```bash
ffmpeg -i input.vob -vn -ac 2 -ar 48000 -c:a pcm_s16le output.wav
```

コマンドの解説：

-i input.vob：入力ファイルの指定
-vn：映像を除去（音声のみ取得）
-ac 2：ステレオにダウンミックス
-ar 48000：DVD標準のサンプリングレート（後の同期に重要）
-c:a pcm_s16le：非圧縮16bit PCM音声

FLACに切り替える場合は：

```bash
ffmpeg -i input.vob -vn -ac 2 -ar 48000 -c:a flac output.flac
```

破損したセグメントや隠れたマルチトラック音声がある場合は、FFmpegのプローブ設定を増やします。

```bash
ffmpeg -analyzeduration 100M -probesize 100M -i input.vob ...
```

これにより、通常のプローブでは検出されないAC3/DTS音声も取得可能です。

VIDEO_TSフォルダのバッチ処理

アーキビストにとって厄介なのが、VIDEO_TSディレクトリに並ぶ多数の連番号VOBファイル。一つずつ変換していては時間がかかりすぎます。以下のように一括処理しましょう。

Bashの場合：
```bash
for f in *.vob; do
ffmpeg -i "$f" -vn -acodec pcm_s16le "${f%.vob}.wav"
done
```

PowerShellの場合：
```powershell
Get-ChildItem *.vob | ForEach-Object {
$outfile = $_.BaseName + ".wav"
ffmpeg -i $_.FullName -vn -acodec pcm_s16le $outfile
}
```

複数音声トラックがある場合は、ffprobeで対象ストリームを確認し、抽出対象を指定します。

```bash
ffprobe -show_streams input.vob
```
その後、-map 0:a:0 のように必要なトラックを選びます。

文字起こし前の音声調整

ロスレス音声を抽出したら、音量の正規化や無音部分の除去を行うとより高精度になります。FFmpegでは以下のように簡単にできます。

```bash
ffmpeg -i input.wav -af loudnorm=I=-19:TP=-1.5:LRA=11 output_norm.wav
```

長い無音部分を削除することで、認識速度が向上し、話者識別がアクティブな発話に集中します。

音声を文字起こしパイプラインへ投入

クリーンな音声ができたら、いよいよ文字起こしです。SkyScribeを使えば、WAVやFLACをローカルからアップロードし、タイムスタンプ付きの正確な文字起こしを生成できます。クラウド再エンコードによる音質劣化の心配もありません。話者ラベルはデフォルトで付与されるため、複数人の会話でも内容整理が容易です。

さらに、不要なつなぎ言葉の削除や大文字小文字の補正、句読点の統一などをワンクリックで実行できるので、複雑な手作業を減らし、すぐ使える状態で書き出せます。

字幕用の編集・再分割

字幕作成や映像コンテンツとの同期が必要な場合、効率的な再分割がポイントです。長い文字起こしを字幕サイズに合わせて分割したり、インタビューの発話順を整える作業は手動では時間がかかります。自動再分割機能を使えば、タイムスタンプを保ちながら一括で整形できます。

SRTやVTT形式で書き出し、抽出時と文字起こし後のサンプリングレートを一致させれば、iMovieやPremiereへのインポート時のズレも防げます。

プライバシーとデータ取り扱い

機密性の高いコンテンツや未公開素材を扱う際は、次の点に注意しましょう。

できる限りローカル処理：FFmpegは完全オフラインで動作可能
クラウド保存を行わないローカルアップロード対応の文字起こしサービスを利用
アップロード前に正規化・同期調整：未処理音声を外部に残さない

法定保存アーカイブ、機密インタビュー、未公開映像作品などでは特に重要です。

まとめ

VOBファイルから直接文字起こしする方法から、ロスレス音声抽出を軸にした「音声ファースト」なパイプラインに切り替えることで、精度向上が確実に得られます。特定の音声ストリーム抽出やバッチ処理、サンプリングレート保持など、FFmpegの柔軟性はアーキビストや映像制作者にとって強力な武器です。クリアな音声をタイムスタンプに強い文字起こしツール（SkyScribeなど）へ渡せば、話者ラベルから字幕まで整理された出力が簡単に得られます。オープンソースの前処理とプロ仕様の文字起こしを組み合わせれば、アーカイブから創作まで、常に高品質な成果物が得られるでしょう。

よくある質問

1. VOBファイルから直接文字起こししない方がいい理由は？ VOBには映像データやナビゲーションパケット、複数の音声ストリームが含まれます。これらが原因でタイムスタンプのズレや音声認識精度低下が起きます。先に音声を抽出することで不要なデータを取り除き、精度が向上します。

2. FLACは本当にWAVと同音質なのですか？ はい。FLACはロスレス圧縮のため、展開後の音声はWAVと全く同じです。文字起こし用として容量を節約しながら品質を保つことができます。

3. サンプリングレートは字幕同期にどう影響しますか？ 文字起こしエンジンが48kHzを想定している場合、44.1kHzの音声を使うと字幕との同期がズレる可能性があります。DVD標準の48kHzで抽出することを推奨します。

4. ステレオダウンミックスとマルチトラック抽出の違いは？ ステレオダウンミックスはほとんどの文字起こしエンジンで互換性があり、扱いやすい形式です。一方、マルチトラック抽出は別言語やチャンネル別の音声を個別に文字起こししたい場合に有効です。

5. 手動編集なしで再分割はできますか？ はい。自動再分割機能などを使えば、字幕用の長さに合わせて文字起こしを一括分割したり、インタビューの発話順を整えることが可能です。