はじめに
「Wordで音声を文字に起こす方法ってどうするの?」と思ったことがある方に朗報です。Microsoftは、ウェブ版Wordに直接「文字起こし(Transcribe)」機能を搭載しており、外部ツールを併用することなく話した内容を編集可能なテキストに変換できます。講義の記録を残す学生、インタビューを文章化するジャーナリスト、会議の議事録を作成するビジネスパーソンなど、幅広い用途でスピーディかつシームレスに活用できます。
とはいえ、「1文書につき音声は1つ」という制限や、ウェブ版とデスクトップ版の違いなど、注意点もあります。この記事では、Wordの文字起こし機能の使い方をステップごとに解説し、精度を高めるための音声準備方法を紹介します。また、ダウンロードや字幕の整理不要でリンクから直接文字起こしできる SkyScribe のようなツールとの比較も行います。
Wordの文字起こし機能の流れを理解する
Microsoftの文字起こし機能は、ウェブ版Wordの「ディクテーション(Dictate)」メニューの中にあります。「ディクテーション」がリアルタイムで話す内容を入力するのに対し、「文字起こし」は事前に録音・録画したファイルを分析して構造化されたテキストに変換します。
どこにあるか
ウェブ版Wordの場合:
- office.com にMicrosoft 365アカウントでログイン。
- 新規または既存のWord文書を開く。
- ホームタブで「ディクテーション」横の小さい矢印をクリック。
- ドロップダウンから文字起こし(Transcribe)を選択。
見つからない理由の多くは、ウェブ版ではなくデスクトップ版を使っていることや、場所を勘違いしていることです。公式サポートによれば、この機能は基本的にウェブ版専用で、EdgeとChromeのみ対応しています(サポートガイド)。
対応ファイル形式とアップロード手順
文字起こしパネルが開くと、Word内で録音するか、既存の音声・動画ファイルをアップロードできます。対応している形式は以下の通り:
- MP3
- WAV
- MP4
- M4A
最適な精度と話者分離を得るには、16kHz以上のモノラル録音がおすすめです。雑音やBGMが多い場合は、誤変換が増えたり欠落したりします。
アップロードすると、ファイルはMicrosoftのサーバーに送られ、処理後にOneDriveを介して文書にリンクされた文字起こしが表示されます。
Wordで音声を文字起こしする手順
概要は以下の通りです:
- ウェブ版Wordにアクセス ChromeまたはEdgeでMicrosoft 365にサインインし、文書を開く。
- 文字起こしツールを開く ホーム > ディクテーションのドロップダウン > 文字起こし。 アクセシビリティ用ショートカット:Alt + Win + H, D, T, S(参考動画)。
- アップロードまたは録音 「音声をアップロード」からファイルを選択するか、「録音開始」で生音声を取り込む。
- 処理を待つ 短いファイルは数分、1時間程度の講義はより時間がかかります。
- 文字起こしを確認 パネル内で音声を再生し、テキストを修正、話者ラベルを確認。
- 文書へ挿入 テキストのみ、話者付き、タイムスタンプ付きから選択。タイムスタンプは法務や編集作業に便利です。
制限「1文書につき音声は1つ」の対処法
Microsoftは1つの文書に同時に保持できる文字起こしを1つに限定しています。複数のファイルを扱う場合、別々の文書を作成するか、「新しい文字起こし」を選択して既存のものを削除してから再アップロードが必要です。複数ファイルをまとめて扱うなら、SkyScribe のように制限なしで一括文字起こし・整理できるサービスが便利です。
精度を高める音声準備のポイント
入力音声の品質が精度を大きく左右します。アップロード前のチェックリスト:
- 静かな環境とある程度の品質のマイクを使用。
- 話者同士の発話が重ならないようにする。
- モノラル録音で16kHz〜48kHzのサンプルレート。
- 簡易編集で雑音を除去してからアップロード。
- 1時間以内のファイルだと処理も速い。
これは他の文字起こしツールでも共通する基本です。リンク型の SkyScribe のように話者ラベル付きの文字起こしを即時生成できる場合でも、きれいな音声を使う方が修正が少なく、精度も向上します。
ウェブ版とデスクトップ版の違い
大きな違いは、文字起こし機能がウェブ版専用という点です。デスクトップ版で開いた文書でも挿入されたテキストは編集可能ですが、文字起こし処理自体はブラウザ経由で行われ、OneDrive保存およびMicrosoft 365の利用制限が適用されます。
利用制限:
- 無料プランでは月5時間までアップロード可能、生録音は無制限。
- フルアクセスにはMicrosoft 365(Personal、Family、Work)が必要。
ブラウザ要件:
- Microsoft EdgeまたはGoogle Chromeのみ対応。
- 生録音にはマイクアクセス許可が必須。
挿入と編集のオプション
挿入時は次の形式から選べます:
- テキストのみ: タイムスタンプや話者ラベルがない普通の段落。
- 話者付き: 「話者1」「話者2」などのラベルを付与。
- タイムスタンプ付き: クリックで再生できる時間情報付き。
挿入後は普通のWordテキストと同じように整形できます。ただし、文書内の編集はパネル内の元データには反映されません。
よくあるトラブルと解決法
文字起こしが見つからない:
- ウェブ版Wordを使っているか確認。
- ホーム > ディクテーションのドロップダウンを確認。
- 対応ブラウザとMicrosoft 365契約状況をチェック。
アップロードエラー:
- ファイル形式が対応しているか(MP3、WAV、MP4、M4A)。
- サイズを縮小するか対応コーデックに変換。
OneDrive容量不足:
- 過去の文字起こしや音声ファイルを削除。
Wordの文字起こしとリンク型プラットフォームの比較
複数ファイルを一度に扱いたい、OneDrive経由のクラウドアップロードを避けたい場合は、リンク型サービスが便利です。
YouTubeリンクやアップロードファイルから直接文字起こしし、瞬時に整形済みのテキストを生成するツールもあります。SkyScribe の再分割機能では、字幕サイズに合わせた短文や長文の段落を自在に調整でき、生の字幕データを扱う必要がありません。
この方法なら、1音声制限や整理の手間を省き、プラットフォームの利用規約にも準拠できます。Wordの内蔵機能は単発録音に最適ですが、連続講義やインタビュー、多言語プロジェクトにはリンク型が有利です。
まとめ
Wordで音声を文字に起こす方法は、場所と使い方を理解していればシンプルです。講義・会議・インタビューなど単一音声の記録には、ウェブ版Wordの文字起こし機能が文書との統合性やフォーマット自由度、挿入オプションを含めて非常に便利です。
一方で、音声制限や利用上限、OneDrive依存などはヘビーユーザーにとって障害になります。その場合は、音声をきれいに準備しつつ、リンク型文字起こしや SkyScribe の即時話者ラベル機能を組み合わせることで、柔軟で効率的なワークフローを構築できます。
両方のアプローチを把握しておけば、単発記録から大量コンテンツの処理まで、精度と効率を両立させたプロフェッショナルな文字起こしが可能になります。
よくある質問
1. Wordの文字起こしはオフラインで使えますか? 使えません。クラウド処理のため、インターネット接続・OneDrive保存・Microsoft 365アカウントが必要です。
2. 1つの文書に複数音声ファイルを文字起こしできますか? 不可です。1文書につき1つまで。既存の文字起こしを削除するか、新しい文書に切り替える必要があります。
3. 対応音声形式は? MP3、WAV、MP4、M4Aに対応。16kHz以上のモノラル録音を推奨。
4. SkyScribeとWordの違いは? SkyScribeはリンクやアップロードから直接文字起こしでき、メディアを丸ごとダウンロードせずに済みます。一括処理や再分割機能で自由なフォーマット調整が可能。Wordは文書内での単一ファイル処理が得意。
5. タイムスタンプは編集後も残りますか? はい。タイムスタンプ付きで挿入した場合は文書内に残ります。ただし、文書の編集結果はパネル内の元データには反映されません。
