はじめに
Wordで音声を文字起こしする方法を知っておくことは、卒論執筆中の学生、インタビューを行うジャーナリスト、会議録を文書化する社会人などにとって、今や欠かせないスキルになっています。Microsoft 365の契約者が使えるWordの「文字起こし」機能なら、複数のツールを行き来することなく、話した内容を直接編集可能なテキストに変換できます。とはいえ一見シンプルなこの機能にも、操作の流れやフォーマットの制限、利用可能時間の上限など、慣れていないと戸惑うポイントがいくつかあります。
このガイドでは、Word内で音声をテキスト化する手順を詳しく説明し、対応ファイルや設定、よくあるつまずき、そしてWordが使いにくくなる場面で役立つ専用ツール SkyScribe との比較までご紹介します。
Wordの文字起こし機能を使い始める
機能の呼び出し方
Word(デスクトップ版またはWeb版)でMicrosoft 365契約がある場合は、
ホーム ➜ ディクテーション の横の ▼ をクリック ➜ 文字起こし を選択
すると画面右側に専用パネルが表示されます。ここで、
- 音声や動画ファイルをアップロードする
- Word内で直接録音する
のどちらかを選びます。録音中やアップロード中にパネルを閉じると処理が中断されるので注意してください。
対応ファイル形式
Wordが受け付けるのは .wav、.mp3、.m4a、.mp4 です。.flac のような非対応形式は事前に変換が必要。対応外のファイルをアップロードするとエラーが出て処理が止まります。
Microsoft 365契約が必須
無料版のWordには文字起こし機能はありません。Microsoft 365契約が必須で、作成されたテキストや音声ファイルは自動的にOneDrive内の「Transcribed Files」フォルダへ保存されます。機密性の高い内容を扱う場合は、この保存先にも注意が必要です。
ファイルアップロードとライブ録音
既存ファイルをアップロード
すでに収録済みのインタビューや講義、会議録音などを文字化する場合は、
- パネルで 音声をアップロード をクリック
- ファイルを選択
- クリップの長さや音質に応じて数分~数時間かかる場合があります
Wordで直接録音
その場で録音して文字起こしする場合は、
- 録音開始 をクリック
- マイクアイコンで一時停止や再開が可能
- 終了後に 一時停止 ➜ 保存して今すぐ文字起こし を選択
録音中はパネルを閉じないよう注意。またアップロードと録音の両方に月間制限があり、現在は合計約 300分 が上限です。
利用時間制限と作業計画
多くのユーザーが見落としがちなのが、時間制限です。Wordでは月あたり約5時間分までしか文字起こしできません。卒論の大量インタビューや複数の取材音源を扱う場合、途中で上限に達してしまい作業計画の見直しが必要になることも。
大量処理が必要な場合は、SkyScribe のように無制限で利用できるサービスが便利です。YouTubeリンクやファイルを直接入力すれば、保存せずとも規約に沿って音声を抽出し、話者ラベル付きの構造化されたテキストを即編集可能にしてくれます。
Wordでの確認と編集
処理が完了するとパネルに、話者ラベル(例:「スピーカー1」)とタイムスタンプ付きのテキストが表示されます。
- 「+」にカーソルを合わせる:文単位で文書に挿入
- 全挿入オプション:テキストのみ、話者とタイムスタンプ付き、音声リンク付き全文などを選択
2026年の更新で「話者[番号]を一括変更」チェックボックスが追加され、複数人の発言がある場合にラベル変更が効率化されました。
とはいえ編集には根気が必要です。
- 会話が重なると話者誤判定
- 話し言葉の不要な部分が残る
- パネル内の音声再生がうまく同期しないため繰り返し聞く必要あり
そのため、ジャーナリストや研究者は事前に専用ツールで整形してからWordに入れることも多くなっています。たとえばSkyScribeのエディタでは不要語の削除や句読点修正、フォーマット統一をワンクリックで行えるため、大幅に編集時間を短縮できます。
よくあるトラブルと対処法
音声がない
ライブ録音時はマイク許可を確認。アップロードの場合は音声トラック付きのファイルであることを必ず確認。音声なし動画は失敗します。
言語設定ミス
開始前に言語ドロップダウンが収録言語と合っているか確認。誤設定すると特に英語以外では誤認率が20%以上になることも。
上限超過
上限に達すると翌月まで待つ必要があります。一部ユーザーはOneDriveの古い文字起こしファイルを削除して再利用を試みますが、文書内リンクは残る場合があります。
ファイル形式エラー
非対応形式は .wav、.mp3、.m4a、.mp4 に変換してからアップロード。
Wordと専用ツール、使い分けの目安
Wordのメリット
- 既存文書にそのまま統合できる
- 操作に慣れているユーザーが多く学習不要
- Microsoft 365契約者は月300分まで無料利用可能
Wordの弱点
- 長時間案件には不向きな時間制限
- OneDrive保存が必須でプライバシー面の懸念
- 話者誤認や編集に時間がかかる
専用ツールが活きる場面
長時間録音や雑音環境下でも精度を求める場合は、リンクやアップロードだけで処理できるツールが効率的です。たとえば SkyScribe の 簡易分割機能 を使えば、字幕や要約用に最適なブロックサイズへ瞬時に整形できます。
まとめ
Wordで音声をテキスト化する方法を使いこなすには、手順・制限・編集の流れを理解することが大事です。ホーム > ディクテーション > 文字起こし から呼び出せるこの機能は、短くシンプルな録音には最適で、慣れた文書環境内で作業できます。しかし時間上限や対応ファイル形式、編集負担から、大量処理をする人は併用を考えるのが賢明です。
多言語や長時間の案件では、SkyScribe のようなサービスを使えば上限や保存の手間を避け、話者ラベルやタイムスタンプ付きのクリーンな出力を即利用できます。Wordと専用ツールを状況に応じて切り替えることで、効率と精度の両立が可能になります。
よくある質問
1. Microsoft 365なしで文字起こしできますか?
できません。Microsoft 365契約者のみ利用でき、ファイルはOneDriveの「Transcribed Files」フォルダに保存されます。
2. 月間の最大文字起こし時間は?
アップロードと録音の合計で約300分(5時間)までです。超えると上限通知が表示されます。
3. 話者ラベルが間違うのはなぜ?
複数人同時発話やアクセントでAIの判定がぶれるためです。「話者[番号]を一括変更」機能でまとめて修正できますが、最終的な確認は必要です。
4. 非対応形式はどうすればいい?
.wav、.mp3、.m4a、.mp4 へ変換してからアップロードしてください。SkyScribeならさらに多くの形式に直接対応します。
5. Wordに挿入する前の整形を早くする方法は?
不要語の一括削除や句読点修正、タイムスタンプ統一など自動整形機能を持つツールを使うと大幅に効率化できます。SkyScribeのAI補助編集はその好例です。
