はじめに:.mts ファイルという壁を乗り越える
ソニーやパナソニックのビデオカメラで撮った昔の映像を発掘すると、多くの場合ファイル形式は AVCHD の .mts になっています。2000年代後半〜2010年代前半にかけて、家庭用HDカメラの定番だったこの形式は、H.264映像とAC3音声を高ビットレートで効率よく保存し、Blu-ray互換のコンパクトなコンテナとして設計されていました。
ところが、この .mts は再生・編集の面で厄介な点が多いのです。例えば macOS Ventura以降では、映像が荒れる、DaVinci Resolveで一部のクリップが読み込めない、そもそもインポートが失敗するなどの報告が出ています(関連事例はこちら)。QuickTime や VLC ですら、CPU負荷の高いデコード処理が必要なため、カクつくことがあります。
特に家庭ビデオやインタビューの書き起こしが目的の場合、「まずは別の形式に変換して…」と考えがちですが、再エンコードは音質劣化(世代劣化)を招きやすく、誤認識や同期ズレの原因になりかねません。そこで有効なのが、音声だけを可逆的に抽出し、そのまま文字起こしにかけるワークフロー。こうすれば音声の細部やタイミングを損なうことなく正確な文字データを作れます。
この記事では、.mts の生データから、話者ラベルやタイムスタンプ付きの、編集・公開できる仕上がりの書き起こしを作るまでの手順を、順を追って解説します。
再生ソフトがつまずく理由と、安易な再エンコードが危険な理由
.mts には、高ビットレートのインターレースまたはプログレッシブH.264映像とドルビーAC3音声が一緒に格納されています。これは撮影当時のハードウェア環境では理にかなっていましたが、現代のPCではむしろ扱いづらくなっています。
大きな要因のひとつは、.mts がカメラメディアから順番に読み込む前提で作られているため、現代の編集ソフト(NLE)でランダムアクセス編集するのに向いていないこと。ソニーHDRやパナソニックLumixのAVCHD映像は高ビットレートが多く、Premiere Proでフリーズしたり、Lightworksやムービーメーカーでコマ落ちや音ズレを起こしたりします。
MP4やAVIに変換して「簡単にする」つもりが、実は…
- 音ズレ:サンプリングレートやコーデック変換で長時間録音の同期が崩れる
- 音質劣化:再エンコードで微妙なノイズやこもりが加わる
- 無駄に巨大化:再圧縮したのにファイルサイズは増える、扱いやすさは変わらない
…という事態にもなり得ます。文字起こしで重要なのは、純粋な音声品質と正しい同期。この条件を守るには、まず音声を分離するのが一番です。
ファイル全体を処理せず音声だけ抜き出す
「正確な書き起こし」が目的とわかれば、やるべきこともシンプルになります。映像込みで .mts を重たい処理にかけるのではなく、劣化なしの音声抽出が最短ルートです。
理想は、サンプリングレート・ビット深度・コーデックを元のまま維持すること。手順は以下の通りです。
- ffmpeg(コマンドラインまたはGUI)で
.mtsを開く - 音声のみ「コピー」するコマンドを実行(変換はしない)
```
ffmpeg -i input.mts -vn -acodec copy output.ac3
``` - 抜き出した音声をVLCで再生し、途切れや歪みがないか確認
- 必要ならAC3をWAVやFLACに変換(文字起こしソフトがPCM指定の場合)
こうすればタイムラインの遅延やインポート制限(DaVinci Resolveのビットレート制限など)を回避できます。
結果は驚くほどクリア。映像のデコード負担なし、フレーム依存のズレなし、認識精度を最大限引き出せます。
即時文字起こしのコツ
音声さえ用意できれば、すぐ書き起こしに移れます。ただし、使うツールによって仕上がりに雲泥の差があります。YouTubeの自動字幕をコピーしたり、旧式の字幕DLツールを使うと、タイムスタンプが不完全、話者が区分されない…と結局何時間も手直しが必要になります。
おすすめは、抽出した音声をそのままアップロードできるリンクまたはファイルベースの文字起こしサービス。はじめから正確なセグメント分割と話者認識が入り、スムーズに編集できます。特にSkyScribeのように.mts 直読みや音声ファイル対応があるサービスなら、ダウンローダー経由の複雑な準備は不要。音声を投げれば話者タグ付きのタイムスタンプ完備テキストが返ってきます。
精度を上げるポイント:
- 長時間録音(2GB超)は分割してアップロード
- 話者検出をオンにして会話を明確化
- 元ファイルのメタデータは必ず保存しておく
これで数分後には、誰が何を話したか明確な「使える書き起こし」が完成します。
ワンクリックで行う仕上げ編集
家庭用カメラ音声は、雑音や言いよどみ、「えーっと」などの口癖、句読点や大文字小文字の揺れが入りがち。手作業で直すのは大変です。
最近は自動整形ルールを備えた編集機能が進化しています。「えー」「あの」など不要なフィラーを削除しつつ、文脈が大事な部分は残す処理も可能です。私は主にSkyScribeのクリーンアップ機能をワンクリックで適用し、以下を一気に整えます。
- フィラー除去:口癖を削って読みやすく
- 文頭・句読点修正:文法的な境界を回復
- タイムスタンプ統一:書式を一定に保つ
家族のインタビューや聞き書きのように会話の温度感を残しつつ、読みやすくするのに最適です。
字幕・ブログ用データの出力
整えた書き起こしは、そのまま2タイプの出力に活用できます。
- 字幕用ファイル(SRT, VTT)— タイムスタンプを保ったままYouTube等に投入可能
- テキスト形式(DOCX, TXT, HTML)— ブログ記事や検索可能なアーカイブに
多言語化するなら、字幕と翻訳の同期が命。タイムスタンプを維持したまま翻訳できるサービス(SkyScribeの翻訳出力など)は作業時間を大幅短縮します。
ブログ展開も簡単で、インタビューの一部を引用ブロックに、背景説明をナラティブとして加えるなど、映像リンクと合わせてコンテンツを強化できます。
保存時のチェックリスト
.mts を処理・書き起こしする前に、以下の確認を必ず。
- ファイルの健全性確認:VLCで頭から終わりまで再生
- 無劣化音声抽出:再エンコードせずサンプルレート維持
- 大容量分割:2GB超は分割して安定アップロード
- オリジナル保持:
.mtsは必ず原本をそのまま保存 - メタデータ記録:撮影日・機種・設定をテキスト化して残す
これで手戻りを防ぎ、元音質・元内容に忠実な書き起こしが確実にできます。
まとめ
.mts は今や古い形式に見えるかもしれませんが、その中には家族の思い出や大切な記録が詰まっています。再生トラブルや編集の重さから、「互換性のための再エンコード」という間違った近道を選ぶと、文字起こしに不可欠な音声品質を失ってしまいます。
無劣化抽出 → 構造的な文字起こし → 自動クリーンアップという流れを使えば、.mts から正確で読みやすい文字データや字幕がすぐ完成します。オリジナルの価値を守りつつ、字幕化やブログ化など多用途に活用できる手法です。
要するに──危険な再エンコードは避け、クリーンな音声処理の流れを採用し、精度と手間を両立した文字起こしワークフローに投資すること。映像はそのまま、音声は鮮明に、コンテンツはより広く、確実に届くようになります。
FAQ
1. .mts ファイルとは?なぜ使われていたのですか? .mts はAVCHD形式のコンテナで、ソニーやパナソニックのビデオカメラが高画質H.264映像とAC3音声を記録するために採用していました。カメラメディアやBlu-ray再生向けに設計されています。
2. なぜ現代のプレーヤーでカクつくのですか?
コンテナ内の高ビットレートH.264をデコードする負荷が高く、再生やプレビュー時に処理が追いつかなくなるためです。OS更新で古い形式への互換性が低下している場合もあります。
3. 書き起こし用にMP4へ変換すれば良いのでは?
可能ですが、再エンコードによる音質劣化や同期ズレの危険があります。書き起こし目的なら、無劣化で音声を抽出して使う方が安全です。
4. 音声品質を保ちつつ抽出するには?
再エンコードせずコピーできるツール(ffmpeg の -acodec copy オプションなど)を使えば、元のサンプルレートやビットレートを保持できます。
5. 書き起こし後はどの形式で出力すべき?
字幕用ならタイムスタンプ入りのSRTやVTT、テキスト公開ならDOCX, TXT, HTMLなど。翻訳も行う場合はタイムスタンプ維持に対応したツールを選びましょう。
