Geminiで無料！7時間分の音声を簡単に文字起こしする方法

はじめに

音声データをテキスト化（文字起こし）したいけれど、高価なツールや手間のかかる作業は避けたい…そんな方に朗報です！
GoogleのGemini APIの無料枠を活用すれば、7時間分の音声も簡単に文字起こしできます。
本記事では、その手順と実務でのコツをわかりやすく解説します。

1. Gemini APIとは？

Googleが提供する生成AIサービス「Gemini API」は、自然言語処理やマルチモーダルAI機能を持っており、**音声のテキスト化（Speech-to-Text）**にも対応しています。
無料枠でもかなりの処理量を扱えるため、7時間分程度の音声なら十分に対応可能です。

主な特徴

高精度な音声認識
長時間ファイル対応
日本語含む多言語対応
REST API or Pythonなどから簡単に利用可能

2. 無料枠の利用条件

Gemini APIの無料枠は時期やプランにより変動しますが、基本的に以下の条件で利用可能です：

項目	内容
無料リクエスト枠	月間数万トークン相当（音声なら数時間分に相当）
無料対象API	Gemini Pro, Speech-to-Text など
超過後の料金	トークン単位の課金（非常に低コスト）

👉 7時間分程度なら無料枠内で収まるケースが多い
👉 最新の料金・無料枠情報はGoogle Cloud Pricingページを確認

3. 文字起こしまでの準備手順

3.1 Google Cloudプロジェクト作成

Google Cloud Console にログイン
新しいプロジェクトを作成
「Speech-to-Text API」を有効化

3.2 APIキー取得

「APIとサービス」 → 「認証情報」 → APIキー作成
発行されたキーをメモ

3.3 ツールインストール（Python例）

pip install google-cloud-speech

4. 文字起こし実践手順（Python例）

4.1 音声ファイルの準備

WAV, FLAC, MP3 などの形式に対応
できるだけ 高音質・無圧縮 が精度向上のポイント

4.2 サンプルコード

from google.cloud import speech

client = speech.SpeechClient()

audio = speech.RecognitionAudio(uri="gs://YOUR_BUCKET/YOUR_AUDIO_FILE.wav")
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=16000,
    language_code="ja-JP",  # 日本語
)

operation = client.long_running_recognize(config=config, audio=audio)
response = operation.result(timeout=10000)

# 出力結果
for result in response.results:
    print("Transcript: {}".format(result.alternatives[0].transcript))

※ GCS（Google Cloud Storage）経由の方が長時間ファイル対応がスムーズです

5. 7時間分の音声をうまく処理するコツ

✅ ファイルを分割する

1ファイル 1時間程度 に分割
→ 長すぎるファイルはAPIの処理制限に引っかかることがあります

✅ 音質を整える

ノイズ除去や音量正規化を行うと認識精度が大幅にアップします

✅ バッチ処理を活用

複数ファイルを 順番にAPIへ投入するスクリプトを作成する

import glob

audio_files = glob.glob("audios/*.wav")
for audio_file in audio_files:
    # API呼び出し処理をここに組み込む

6. 無料枠活用時の注意点

🚧 API呼び出し回数の制限

無料枠内での回数やトークン量を意識
→ ダッシュボードで消費状況を確認しながら進めましょう

🚧 APIの一時的な制限やエラー

長時間の大量リクエスト時は少し間隔を空けて実行すると安定

まとめ

手順	ポイント
Google Cloudプロジェクト作成	Speech-to-Text API有効化
APIキー取得	認証情報の作成
音声ファイル準備	高音質・分割が効果的
PythonからAPI実行	長時間処理は `long_running_recognize` が便利
無料枠で7時間分対応	分割処理＋進行状況確認が重要