はじめに
インディペンデントなポッドキャスターや個人クリエイター、フリーランスの文字起こし担当者にとって、「文字起こし分数」から「メディア分数+AIクレジット」への移行(Descriptなどのプラットフォームで導入された新料金体系)は、単なる表面的な値段の変更ではありません。これは、コストの見積もり方法、請求額の予測、そしてワークフローの組み立て方そのものに大きく影響します。今まで月ごとの利用状況を「何時間分文字起こししたか」で大まかに把握していた人は、これからはその旧データを新しい単位に換算するためのフレームが必要になります。特に文字起こし中心のワークフローでは、ファイルの長さ、再アップロード、派生ファイルの書き出しなどが、以前は課金の対象外だったものも消費量として計上されるようになります。
このガイドでは、過去の文字起こし利用実績を新料金モデルに落とし込むための具体的な手順を解説します。例えば、月5エピソードのポッドキャスト、複数インタビューのまとめ作業、音声+映像混在の講座制作など、典型的なケース別に「メディア分数」と「AIクレジット」がどれくらい消費されるかを計算します。また、利用料を増やしがちな行動パターンと、それを抑えるための“Transcript First”の運用方針、さらに整った構造化テキスト生成といったSkyScribeのようなツールを活用し、無駄を減らしコスト予測を安定させる方法も紹介します。
新しいDescript料金モデルを理解する
旧モデルでは「文字起こし分数」で課金され、例えば1時間のインタビューをアップロードすると、その60分分の文字起こし利用料が発生していました。
新モデルでは以下の2つの単位が導入されています:
- メディア分数 — アップロードしたファイルの総再生時間。途中で音声だけを取り出す、テキストだけを抽出するなど用途に関わらず、60分の動画はそのまま60分として計上されます。
- AIクレジット — 初回アップロード後にAIを使った処理(文字起こし再出力、整形、要約生成、字幕作成など)をすると消費されます。
この変更はプラットフォーム側の処理負荷の増加を反映したものですが、例えばフォーマット試験のために同じファイルを再アップロードすると、二重に課金されるといったケースも発生します。
月に5〜10エピソードを持つポッドキャスターにとって、この二重構造は「隠れ消費」のリスクを生みます。見た目には些細な操作(再書き出しや区切り直し)が実は課金対象になっていることもあります。
過去の分数を新単位に変換する
将来のコストを予測するには、まず旧モデルでの直近3〜6か月の処理時間を平均で出しましょう。それをメディア分数に換算し、さらにAIクレジットの推定値を加えます。
目安としては:
- メディア分数:旧文字起こし分数 × 1.4 (音声部分だけでなくメディア全体を計上するための係数)
- AIクレジット:メディア分数 × 0.3 (話者識別、整形、派生書き出しなどのための消費分)
例:月に300分の文字起こしをしていた場合、新モデルでは約420メディア分数+およそ126AIクレジットとして計上されます。編集方法を変えていなくても、初期費用が上がる可能性があります。
シナリオ1:月5本のポッドキャスト
毎週配信するインタビュー番組で、各回45分だとします。
- メディア分数:45分 × 5回 = 計225分
- AIクレジット:
- インポート時の話者識別:225 × 0.1 = 22.5クレジット
- YouTube用字幕書き出し:225 × 0.2 = 45クレジット
- 番組ノート用要約生成:225 × 0.1 = 22.5クレジット 合計:約90クレジット
旧モデルなら一律225分で計算されていましたが、新モデルではメディア分数は同じでも、AIクレジット分が追加されます。
コスト削減の方法としては、一つの文字起こしから複数の用途用書き出しをまとめて行うこと。SkyScribeなら元メディアからタイムスタンプ付きの正確なラベル付き文字起こしを取得でき、字幕や要約をオフラインで作成できるので重複したクレジット消費を防げます。
シナリオ2:30分インタビュー10本
フリーの文字起こし担当者が、異なるクライアント向けに10本の録音を処理するケース。
- メディア分数:30分 × 10本 = 300分
- AIクレジット:
- 読みやすい整形書き出し:300 × 0.15 = 45クレジット
- SRT字幕作成:300 × 0.15 = 45クレジット
- 話者ラベルの軽微な修正:300 × 0.05 = 15クレジット 合計:約105クレジット
ありがちな落とし穴は、クライアントごとのスタイルガイドに合わせて修正版を何度も再アップロードしてしまうこと。新モデルではこれがもう一度300分として計上されます。代わりに一つのマスター文字起こしを作り、整形は1回だけ行い各クライアント向けにローカルで調整するのが吉。自動再セグメント機能を活用すれば、1回の文字起こしから字幕用やナレーション用のブロック分けが可能で、新たなメディア分数消費を避けられます。
シナリオ3:混合メディアの講座制作
講義動画2時間+20分のQ&Aセッション6回を収録する場合。
- メディア分数:講義120分 + Q&A120分 = 計240分
- AIクレジット:
- チャプター要約:240 × 0.15 = 36クレジット
- 多言語字幕書き出し:240 × 0.3 = 72クレジット
- Q&A話者分離:120 × 0.15 = 18クレジット 合計:約126クレジット
映像を含む案件はメディア分数がフルランタイムで計上されるほか、派生ファイルの生成ごとにAIクレジットが消費されます。たとえば多言語化対応では、瞬時にクレジット消費が倍になることも。タイムスタンプを維持したまま翻訳できるツールを使えば、最終的に利用する形だけを生成でき、無駄な書き出しを減らせます。
コストを増やしやすい行動パターン
新モデルで課金を膨らませる典型的な行動は次の通りです:
- 同じ素材の複数アップロード — 内容が同じでも、その都度メディア分数が課金されます
- 不要な書き出しの繰り返し — 内部テスト用に別々の書き出しを連続で作成
- 細かすぎる切り分け — 同じ文字起こしから字幕用短フラグメントを何度も生成
- 動画直書き出しワークフロー — 文字起こしプレビューなしで直接字幕・編集出力
AI処理を新たに走らせる操作はすべて追加クレジット消費になります。インポート→字幕→話者修正→要約生成と別々に回してしまうと、クレジットが積み上がっていきます。
Transcript First方針の導入
「Transcript First」とは、アップロード後すぐに文字起こしを抽出・整形して基盤テキストを作り、その単一ファイルからすべての派生データを生成する運用です。これにより再アップロードや重複処理を減らせます。
実践例:
- 最初のアップロードのみで話者ラベルとタイムスタンプを確認
- 早い段階で整形 — 句読点や大文字小文字、不要語を修正
- 派生書き出しは一括で — 字幕、要約、ハイライトをひとまとめに生成
- ローカルでの調整 — メディア再アップロードではなく、手元でファイルを変更
SkyScribeのようなツールなら、インポート直後に話者ラベル付きのきれいなタイムスタンプ付き文字起こしを作成でき、見た目の修正によるメディア分数の再課金を防げます。
移行初月の請求予測に使える目安
正確な利用レポートが出るまでは、以下の計算式が参考になります:
- 旧文字起こし分数 × 1.4 = 想定メディア分数
- メディア分数 × 0.3 = 基本的な編集・書き出しに必要なAIクレジット
- +20〜25%のバッファ = フォーマット変更や翻訳が多い場合の予備枠
例:旧モデルで月400分だった場合
- メディア分数 = 400 × 1.4 = 560
- AIクレジット = 560 × 0.3 = 168
- バッファ込み = 168 × 1.25 ≈ 210クレジット
これで初回請求前におおよその目安が立てられます。
まとめ
Descriptの「文字起こし分数」から「メディア分数+AIクレジット」への移行は、請求書の形式を変えるだけでなく、クリエイターの作業習慣にも影響します。ポッドキャスター、講座制作者、フリーの文字起こし担当者で、派生書き出しや繰り返し処理が多い人は、消費量が増えてコストが不安定になりやすいです。過去の利用実績を新単位に換算し、無駄の多い行動を減らし、“Transcript First”を意識した運用を行うことで、請求額を抑えられます。
またこの変化は必ずしも悪い話ではありません。計画的に構築すれば、新モデルでもインディー予算に収められます。特にSkyScribeのようなツールを使って一度のインポートで整ったタイムスタンプ付き文字起こしを作成すれば、毎月の消費量が予測しやすくなり、予期せぬ超過を防ぎながらスムーズに新料金へ移行できます。
よくある質問(FAQ)
1. 「メディア分数」と「文字起こし分数」は何が違いますか? メディア分数はアップロードしたファイルの再生時間全体(映像部分も含む)を計測します。旧モデルの文字起こし分数は処理された音声部分のみでした。
2. AIクレジットとは何ですか? AIクレジットは、話者識別、要約作成、字幕書き出し、翻訳など、AIを使う操作を行った際に消費されます。
3. 混合メディア案件が新モデルで高額になる理由は? 動画はメディア分数が全再生時間で計上され、さらにAIを用いた処理(話者分離など)ごとにクレジットが消費されるためです。
4. Transcript First方針とは?なぜ節約になるのですか? 初回アップロードで文字起こしを作成・完成させ、それを元にすべての派生データを生成する運用です。アップロードやAI処理の繰り返しを避けられるため、コストが減ります。
5. SkyScribeはどうコスト削減に役立ちますか? SkyScribeはアップロード時に正確なラベル付きのきれいな文字起こしを生成し、再アップロードなしで再セグメントや翻訳(タイムスタンプ保持)を可能にするため、メディア分数課金の重複を避けられます。
