Geminiで文字起こしする方法!出力上限や他ツール比の精度
Geminiで文字起こしってできるの?
無料でどこまでできるんだろう…
音声や動画の文字起こしにGeminiが使えないか気になっている人は多いですよね。
ただ、いざ試そうにも無料でどこまで使えるのか、どう操作すればいいのかわからず試せていない人もいるはず。
そこでこの記事では他ツールとの精度比較も交え、Geminiで文字起こしする方法を解説します。できない時の対処法やおすすめプロンプトも紹介するので、ぜひ参考にしてください。
なお、Geminiの特徴を詳しく知りたい人は次の記事を参考にしてください。

- Geminiは無料でMP3・MP4・WAVなど主要形式の文字起こしができる
- 精度は日本語で95%以上だが、ノイズや複数話者には精度が落ちる
- セキュリティリスクを理解したうえで業務利用の判断をすべき
『ClaudeCodeに興味はあるけど、どうやって使えばいいんだろう…』
そんな方へ、
- ClaudeCodeに作業や仕事を任せる方法
- ClaudeCodeを使いこなすたった1つのコツ
- 業務効率化や収入獲得に活かすClaudeCodeの実演
を、無料のオンラインセミナーで凝縮してお伝えします!
パソコンはもちろん、スマホから気軽に参加OK。この時間が、あなたを変える大きなきっかけになりますよ。
Geminiは文字起こし用途で活用可能

Geminiは音声・動画ファイルをアップロードするだけで文字起こしができる、Googleの生成AIです。単純なテキスト化だけでなく要約や議事録整形まで1ツールで完結できます。
さらに、YouTube動画のURLを貼り付けるだけで内容を文字起こしできる点は、他の文字起こしツールにはないGemini独自の強みです。公開動画であればダウンロード不要で直接処理できるため、情報収集やリサーチの効率が大幅に上がります。
無料のGoogleアカウントがあればすぐに使い始められるため、専用ツールを導入する前の手軽な選択肢として活用できます。
対応している音声・動画形式

Geminiが対応している主な音声・動画形式は、MP3・WAV・M4A・FLAC・MP4・AVIです。
一般的に使われるほぼすべての形式をカバーしているため、変換作業なしでそのまま使えるケースがほとんどです。
ファイルサイズの上限については、音声・動画以外のファイルは100MB、動画ファイルは最大2GBが目安とされています。ただし、公式情報は変更される場合があるため、利用前にGeminiの公式ヘルプページで最新の制限を確認することをおすすめします。
また、YouTube動画のURLを貼り付けるだけで、ダウンロードせずに文字起こしできる機能も備えています。公開動画であれば直接処理できる点は、他ツールにはない強みです。
無料・有料での精度差異

無料版と有料プランの最大の違いは、使用できるモデルの性能と利用回数の上限です。具体的な違いは次のとおりです。
| 項目 | 無料版 | 有料プラン |
|---|---|---|
| 使用モデル | Gemini 2.5 Flash など | Gemini 2.5 Pro など |
| 利用回数 | 制限あり | 大幅に緩和 |
有料プランでは、より高性能なGemini 2.5 Proモデルが使われるため、長時間音声や専門用語が多い音声での精度が上がります。週に何度も文字起こしをする人や、1時間を超える会議音声を扱う人には有料版が向いています。
短い音声を月数回だけ処理するなら、無料版で十分対応できます。上記を含め、Geminiの無料版と有料プランの違いをより詳しく知りたい人は、次の記事を参考にしてください。

文字起こしにGeminiは活用すべき?

Geminiの文字起こしは万能ではなく、用途や頻度によって向き不向きがあります。無料で手軽に使える反面、専用ツールと比べて苦手な場面も存在します。
ここからは、Geminiを選ぶべき人とそうでない人の特徴をそれぞれ解説します。
- こんな人はGeminiでの文字起こしがおすすめ
- こんな人は他ツールを選ぶべき
こんな人はGeminiがおすすめ
次のいずれかに当てはまる人は、Geminiでの文字起こしが適しています。
- 月に数回程度の頻度で、短い音声(30分以内)を文字起こしする人
- 文字起こしだけでなく、要約や議事録の整形まで1ツールで済ませたい人
- YouTube動画のURLを貼るだけで内容を把握したい人
- すでにGoogleアカウントを持っており、新しいツールを導入せずに始めたい人
Geminiの最大の強みは、テキスト化と要約・整形を同時にこなせる点です。「文字起こし→議事録作成」のように後工程まで一気に依頼できるため、単純な音声テキスト化以上の作業効率化が期待できます。
こんな人は他ツールを選ぶべき
一方、次のケースに該当する人はGemini以外のツールを検討すべきです。
- 1時間を超える会議音声を日常的に処理する人
- 話者が4名以上いる音声で、発言者ごとの自動識別が必要な人
- 医療・法律・金融など専門用語の変換精度を重視する人
- 社内規定でクラウドAIへの音声データ送信が制限されている人
Geminiは話者分離(ダイアライゼーション)の精度が専用ツールほど高くありません。複数話者の正確な識別が必須な場面では、「Notta」といった話者分離に特化したツールが適しています。
また、機密性の高い音声を扱う場合は、オンプレミス型やISO認証を取得した専用サービスを選ぶ方が安全です。なお、文字起こしができる主要な生成AIの特徴を詳しく知りたい人は、次の記事を参考にしてください。

【ブラウザ版】Geminiで文字起こしする手順

Geminiを使った文字起こしは、シンプルな3ステップで完了する使いやすい仕組みになっています。初心者でも迷うことなく操作できるよう設計されており、特別な設定や準備は必要ありません。
ここからは、実際の操作手順について次の流れで詳しく説明していきます。
- ステップ1:音声ファイルを準備する
- ステップ2:Geminiにファイルをアップロードする
- ステップ3:変換結果を確認・保存する
それぞれ詳しく解説していきます。
ステップ1:音声ファイルを準備する

文字起こし前に、ファイル形式とサイズを確認することが最初のステップです。
Geminiが対応している形式(MP3・WAV・M4A・FLAC・MP4)であることを確認してください。
対応形式以外のファイルは、無料の音声変換ツールを使ってMP3またはWAV形式に変換してから使用します。動画ファイルは最大2GB、それ以外のファイルは100MBを超える場合はファイルを分割しておくと処理がスムーズです。
音声の品質は精度に直結するため、次の点も確認することをおすすめします。
- 音量が極端に小さくないか
- 激しいノイズや雑音が含まれていないか
- 話者の声が明瞭に録音されているか
録音環境を整えるだけで、文字起こしの精度が大きく改善するケースも多いです。
ステップ2:Geminiにファイルをアップロードする

音声ファイルのアップロードは、Geminiのチャット画面でクリップアイコンをクリックして行います。
ファイルを選択すると自動的にアップロードが開始され、処理完了まで数分程度時間が必要です。YouTube動画を使用する場合は、動画のURLをそのままチャットに貼り付けるだけで、Geminiが自動的に音声を抽出して文字起こしを開始してくれます。
YouTube連携機能は非常に便利で、公開されている動画であればプライベートなダウンロードをすることなく直接処理が可能です。
ただし、著作権で保護されているコンテンツや、非公開設定の動画については処理できない場合があります。アップロード中にエラーが発生した場合は、ファイル形式やサイズを確認してから再度試してみてください。
ステップ3:変換結果を確認・保存する

文字起こしが完了すると、Geminiから変換結果がテキスト形式で出力されます。結果は読みやすく整理された形で表示され、必要に応じて追加の編集や要約を依頼することも可能です。
変換結果に誤りがある場合は、Geminiに「この部分を修正してください」と具体的に指示することで、より正確な内容に調整できます。出力形式も柔軟にカスタマイズ可能で、箇条書き、段落分け、タイムスタンプ付きなど、用途に応じた形式で出力してもらえます。
保存については、出力されたテキストをコピーしてWordやGoogleドキュメントなどに貼り付けるか、テキストファイルとして保存可能です。また、Geminiの会話履歴にも残るため、後から再度確認や編集もできます。
Geminiの使い方を詳しく知りたい人は、次の記事を参考にしてください。

【スマホ版】Geminiで文字起こするやり方

スマホ版のGeminiアプリでも、基本的な文字起こし手順はブラウザ版と同じです。iOSとAndroidのどちらでも、Geminiアプリをインストールしていれば利用できます。
手順は次のとおりです。
- Geminiアプリを開き、チャット画面下部の「+」アイコンをタップする
- 「ファイルをアップロード」を選択し、端末内の音声・動画ファイルを選ぶ
- アップロード完了後、「この音声を文字起こししてください」とプロンプトを入力して送信する
スマホで録音した音声をそのまま処理できるため、会議や打ち合わせの直後にその場で文字起こしを始められる点が大きなメリットです。
ただし、スマホ版にはいくつかの注意点があります。大容量ファイルのアップロードにはWi-Fi環境が推奨される点と、長時間音声の処理中はアプリを閉じないようにする点です。
ブラウザ版と比べて画面が狭いため、出力結果の確認や編集はパソコンで行う方が効率的です。Geminiのアプリについてより詳しく知りたい人は、次の記事を参考にしてください。

【ケース別】Geminiで文字起こしできない時の対処法

ここからは次のケース別に、Geminiで文字起こしできない時の対処法を解説します。
- ファイル形式・サイズが原因の場合
- 音質・ノイズが原因の場合
- 無料版の制限に該当する場合
- 言語設定が原因の場合
- 音声の長さ/時間制限が原因の場合
ファイル形式・サイズが原因の場合
Geminiが対応していない形式(例:OGGやWMA)のファイルは、アップロード時にエラーが発生します。
この場合の対処法は次のとおりです。
- 「Audacity」や「CloudConvert」などの無料ツールでMP3またはWAV形式に変換する
- 動画ファイルは2GB、それ以外のファイルは100MBを超える場合、音声編集ソフトで分割してからアップロードする
- 動画ファイルから音声のみ抽出して、軽量化してからアップロードする
ファイル形式とサイズの確認は、文字起こし前の基本チェックとして習慣化しておくと、無駄なエラーを防げます。
音質・ノイズが原因の場合
音声にノイズや雑音が多いと、Geminiの認識精度が大幅に低下します。
特に、空調の音・キーボードのタイプ音・複数人の同時発話が含まれる音声は誤変換が起きやすいです。
対処法は次のとおりです。
- 「Audacity」などの無料ソフトでノイズ除去処理を行ってからアップロードする
- 録音時にマイクを話者に近づけ、環境音を最小限にする
- Web会議ツールの場合は参加者にミュート徹底を依頼し、発言者以外の音声を抑える
ノイズ除去は後処理でも一定の効果がありますが、録音段階での音質確保が最も精度に影響する点を覚えておきましょう。
無料版の制限に該当する場合
無料版のGeminiには、1日あたりの処理回数とファイルサイズに制限があります。
制限に達すると「しばらく時間をおいてから試してください」などのエラーメッセージが表示されます。
対処法は次のとおりです。
- 時間をおいてから再試行する(翌日以降にリセットされるケースが多い)
- ファイルを複数に分割してサイズを小さくする
- 頻繁に使う場合は有料プラン(月額約2,900円)へのアップグレードを検討する
1回あたりの文字起こし量が多い場合は、無料版の制限にすぐ引っかかる点を事前に理解しておきましょう。
言語設定が原因の場合
日本語音声なのに英語や他言語として認識される場合は、プロンプトで言語を明示するだけで改善するケースが多いです。
対処法は次のとおりです。
- 「この音声を日本語で文字起こししてください」と言語を指定してプロンプトを送る
- 日本語と英語が混在する音声の場合は「日本語メインで、英語の固有名詞はそのまま英語表記にしてください」と指示する
- ブラウザの言語設定が英語になっている場合は、日本語に変更してから再試行する
Geminiは多言語に対応していますが、自動判定に任せると短い音声や冒頭が無音の音声で誤判定が起きることがあります。言語を明示する一手間を加えるだけで、認識精度が安定します。
音声の長さ/時間制限が原因の場合
Geminiの無料版では、1回の処理で扱える音声の長さにも上限があります。
目安として、1時間を超える音声は処理が途中で止まったり、出力が不完全になったりするケースがあります。
対処法は次のとおりです。
- 音声を15〜30分ごとに分割してから、複数回に分けてアップロードする
- 「Audacity」や「mp3DirectCut」などの無料ツールで分割作業ができる
- 長時間音声を定期的に扱う場合は、有料プランへのアップグレードが現実的な解決策になる
分割アップロードは手間がかかりますが、無料版の制限内で長時間音声を処理できる唯一の方法です。
文字起こし精度が増すGeminiのおすすめプロンプト

Geminiで文字起こしを行う際は、適切なプロンプトを使用することで、より精度の高い結果や目的に応じた出力形式を得られます。効果的なプロンプトの活用により、後工程の編集作業を大幅に短縮することが可能です。
ここからは、実際に使える実用的なプロンプト例を次のカテゴリーで紹介していきます。
それぞれ詳しく解説していきます。
全文をそのまま出力するプロンプト

基本的な文字起こしを行う場合は「この音声ファイルを文字起こししてください」というシンプルな指示で十分です。
ただし、より正確な結果を得るためには、音声の内容や話者について簡単な情報を追加することが効果的です。例えば「会議の録音を文字起こししてください。話者は3名で、マーケティング戦略について議論しています」のように、コンテキスト情報を提供することで認識精度が向上します。
専門用語が多い場合は事前に伝えることで、より適切な変換結果を得ることが可能です。
また「読みやすい文章形式で出力してください」「句読点を適切に挿入してください」などの指示を追加することで、そのまま使用できる品質の文章として出力されます。誤認識を防ぐために、重要な固有名詞や専門用語がある場合は、事前にリストアップして伝えることも有効です。
タイムスタンプ付きで出力するプロンプト

議事録や詳細な記録が必要な場合は、タイムスタンプ付きでの出力が非常に便利です。
「音声を文字起こしして、5分間隔でタイムスタンプを付けてください」のように、具体的な時間間隔を指定できます。より詳細な記録が必要な場合は「発言ごとにタイムスタンプを付けて、話者を識別して出力してください」という指示も可能です。
会議の進行管理や後からの検索において、タイムスタンプは非常に有用な情報となります。
出力形式の例として「[00:05:30] 田中:新製品の開発スケジュールについて説明します」のような形式を指定することもできます。インタビューや対談の場合は「質問と回答を明確に区別して、それぞれにタイムスタンプを付けてください」という指示も効果的です。
要約・箇条書きに変換するプロンプト

長時間の音声から要点を抽出したい場合は「音声の内容を要約して、重要なポイントを箇条書きで出力してください」という応用プロンプトが有効です。
会議の議事録作成においては「決定事項、検討事項、アクションアイテムに分けて整理してください」のような構造化された出力も可能です。学習用途では「講義の内容を章立てして、重要なキーワードを太字で強調してください」という指示により、復習しやすい形式での出力が得られます。
プレゼンテーションの原稿作成では「話し言葉を書き言葉に変換して、スライド用の簡潔な文章にしてください」という変換も可能です。また「音声の内容をブログ記事風に再構成してください」「SNS投稿用の短文に要約してください」など、最終的な用途に応じた形式変換も依頼できます。
複数の観点からの要約が必要な場合は「技術面、ビジネス面、リスク面の3つの観点で要約してください」のような多角的な分析も可能です。
Geminiといった生成AIから理想的な回答を引き出すプロンプトの作り方をより詳しく知りたい人は、次の記事を参考にしてください。

Geminiで文字起こしする際の注意点

Geminiで文字起こしを行う前に、次の3つの注意点を把握しておきましょう。
1つ目は、セキュリティとプライバシーのリスクです。
Geminiにアップロードした音声データは、Googleのサーバーで処理されます。社内の機密情報や個人情報を含む音声を扱う場合は、自社のセキュリティポリシーに照らして利用可否を判断してください。業務利用の際は、管理者へ事前に確認を取ることを推奨します。
2つ目は、出力結果の正確性が保証されない点です。
Geminiの文字起こしはAIによる自動処理のため、固有名詞や専門用語の誤変換が発生する可能性があります。特に議事録や契約関連の音声など、正確性が求められる用途では出力後に必ず人の目で確認・修正する工程を入れてください。
3つ目は、著作権への配慮です。
YouTube動画の文字起こし機能は便利ですが、他者が公開した動画の内容を無断で文字起こしして商用利用することは、著作権侵害に該当する場合があります。自身が権利を持つコンテンツ、または許諾を得たコンテンツに限って利用するようにしましょう。
生成AIの著作権についてより詳しく知りたい人は、次の記事を参考にしてください。

まとめ
この記事では、GeminiでできるMP3・MP4などの文字起こし手順と、精度や注意点を解説しました。
Geminiの文字起こしに関するポイントをまとめると次のとおりです。
- 対応形式はMP3・WAV・M4A・FLAC・MP4・AVIで、YouTube URLでも処理できる
- 日本語の精度は明瞭な音声で95%以上だが、ノイズや複数話者では低下する
- 動画ファイルは最大2GB、それ以外は100MBが上限の目安だが、公式情報の確認を推奨する
- できない時は形式・サイズ・ノイズ・制限・言語設定・音声の長さを順に確認する
- プロンプトで出力形式を指定すると、読みやすさと精度が大きく上がる
- 業務利用前にはセキュリティポリシーとの整合性を必ず確認する
Geminiは無料で手軽に使える文字起こしツールとして、個人用途や短い音声には最適な選択肢です。より高精度・大容量の処理が必要になったときは、有料プランや専用ツールへの乗り換えを検討してみてください。
