Gemini APIとは？できることから料金まで詳しく解説

最終更新日:2025/07/29

Gemini APIとは？

「Geminiを新しく開発するアプリに組み込みたいのでGemini APIを使用したい」
「だけど、具体的にどのようなことができるかわからない」

そんな方は多いのではないでしょうか。

APIはあるソフトウェアから別のソフトウェアの機能を利用するための窓口として、近年普及し続けています。GoogleのAIであるGeminiにもAPIがあり、これを使うことでGeminiの知識や能力を活用できるようになっています。

この記事では、Gemini APIでできることからかかる料金まで詳しく解説します。ぜひ参考にしてみてください。

Gemini APIとは？

Gemini APIとはGoogleが開発・提供するAIのGeminiを、アプリやシステムに組み込むための窓口です。

Gemini APIを使うことで、Geminiの高度なAI機能をアプリやシステムで活用できるようになります。

2025年3月現在、Gemini APIを通じて使用できる主なモデルは以下の3つです。

モデル名	概要
2.0 Flash	高速で低レイテンシ（データが送信されてから受信されるまでの時間が短いこと）の応答が求められるタスク向けリアルタイムでの処理に優れている
2.0 Flash-Lite	Flashよりも軽量で、省メモリ・低リソース環境向け速度重視のアプリに最適
2.0 Pro	より高度な自然言語理解と生成能力を持つ大規模で複雑なタスクや応用に向いている

どのモデルを選ぶかはアプリやシステムの用途に応じて検討しましょう。

参考：Google AI for Developers「Gemini Developer API」

Gemini APIでできること

Gemini APIでできることの中から主なものを6つご紹介します。

テキスト生成

Gemini APIではテキストや画像などさまざまな入力方法からテキストを生成できます。

また、マルチモーダル機能（テキストや画像、動画などを組み合わせて処理できる機能）が搭載されているため、「テキスト＋画像」や「テキスト＋動画」のような組み合わせからもテキストを生成できます。

入力方法と出力したテキストのユースケースの例は以下の通りです。

入力方法	出力したテキストのユースケースの例
テキスト	文章の要約文章の翻訳質問への回答
画像	キャプション生成図解の説明を生成
動画	動画の文字起こし動画の要約
音声	インタビューや講義などの文字起こし
テキスト＋画像	画像とそれに対する質問から回答を生成
テキスト＋動画	動画とそれに対する質問から回答を生成
テキスト＋音声	音声とそれを補足するテキストから文脈を理解して記事を生成

テキスト生成はGeminiのすべてのモデルで可能なので、2.0 Flash、1.5Flashなど複数のモデルで試してみるのがおすすめです。

参考：Google AI for Developers「テキスト生成」

画像生成

Gemini APIでは、Gemini 2.0 Flash 試験運用版と Imagen3の2つのモデルを使って画像生成ができます。

2つのモデルの違いは以下の通りです。

	入力	生成
Gemini 2.0 Flash 試験運用版	音声、画像、動画、テキスト	インライン画像、ネイティブ画像
Imagen 3	テキスト	ネイティブ画像

インライン画像とはテキストの一部として画像を埋め込む形で生成される画像のことです。

一方ネイティブ画像とは完全に独立した画像を生成することを指します。

またGemini 2.0 Flash 試験運用版を使った場合、生成した画像を編集することもできます。

モデルによってできることが異なるので、ニーズに合ったモデルを選んで活用しましょう。

参考：Google AI for Developers「画像を生成する」

参考：Google AI for Developers「Geminiモデル」

画像と動画を入力する

Gemini API

Gemini APIには画像と動画を入力して、上記のようなことができるビジョン機能があります。

オブジェクト検出とは、画像や動画の中から特定の物体を検出し、その位置や種類を特定する技術のことです。

例えば、写真や動画内に人が何人いるかを数えたり、背景にある植物の種類を特定したりするのに活用されます。

また画像や動画を入力する場合、次のいずれかの形式でなければならないため注意が必要です。

画像の形式	動画の形式
PNG – image/png JPEG – image/jpeg WEBP – image/webp HEIC – image/heic HEIF – image/heif	video/mp4 video/mpeg video/mov video/avi video/x-flv video/mpg video/webm video/wmv video/3gpp

画像と動画を便利に使えるアプリやサービスを作りたい場合、ビジョン機能を使ってみるのがおすすめです。

参考：Google AI for Developers「Gemini API でビジョン機能を試す」

音声を入力する

Gemini API

Gemini APIには音声を入力して、上記の画像のようなことができる音声機能があります。

「セグメント回答」とは音声の特定の部分に焦点を当てて、回答や文字変換ができる機能です。

例えば、長いインタビューの中から重要な部分だけを抽出して、それを要点として文字起こしすることができます。

また音声を入力する場合、次のいずれかの形式でなければなりません。

WAV – audio/wav
MP3 – audio/mp3
AIFF – audio/aiff
AAC – audio/aac
OGG Vorbis – audio/ogg
FLAC – audio/flac

Gemini APIの音声機能は音声で操作できるアプリや、会議の要点を抽出するサービスの制作などさまざまなシーンで活用できるでしょう。

参考：Google AI for Developers「Gemini API を使用した音声機能の詳細」

長いコンテキストの利用

Gemini APIでは例として、以下のような長いコンテキストを活用できます。

	Gemini 2.0 Flash	Gemini 1.5 Flash	Gemini 1.5 Pro
搭載されたコンテキストウィンドウの長さ	100万個のトークン	100万個のトークン	200 万個のトークン

コンテキストウィンドウとは、各モデルが理解できるテキストの最大の長さを表しています。

そのため長い会話や複雑な文脈で適切な回答を生成したい場合、コンテキストウィンドウが長ければ長いほど、AIが持つ情報量が増えてより精度の高い応答ができるようになる仕組みです。

またGemini APIでは、コンテキストウィンドウに長い音声や動画も組み込めるようになっています。

この機能により、プロンプトが長すぎてあきらめていた内容の開発を再度検討してみるといったことが可能となるでしょう。

参考：Google AI for Developers「長いコンテキスト」

コードの実行

Gemini APIにおけるコードの実行機能とは、ユーザーがやりたいことや解決したい課題を伝えると、Geminiがそれに合わせてPythonのコードを書き、実行する機能です。

例えばデータの処理や計算、グラフの生成、APIからの情報取得など、様々なプログラムを実行することができます。

コード実行環境にはaltair、chess、cv2、matplotlib、mpmath、numpy、pandas、pdfminer、reportlab、seaborn、sklearn、statsmodels、striprtf、sympy、tabulate のライブラリが含まれていますが、独自のライブラリをインストールすることはできないので注意しましょう。

コードの知識が深くなくてもプログラムを実行できるので、アプリやサービスのアイデアを形にしやすくなります。

参考：Google AI for Developers「コードの実行」

Gemini APIの使い方

Gemini APIの使い方を事前準備・セットアップの方法、テキスト生成の3つにわけてご紹介します。

事前準備

Gemini APIを使うには、クラウド環境（Google Colab）とローカル環境（自分のPC）の2つの方法があります。

それぞれの環境で必要な事前準備の内容は以下の通りです。

クラウド環境で使う場合

Google Colab（コラボ）というクラウド上のノートブックを使えば、すぐに実行できます。

ノートブックにはコードを書くスペース・説明を書くスペース・実行するスペースがすでに用意されているため、環境構築の手間なくすぐにコードを書いて実行できます。

ローカル環境で使う場合

ローカル環境でGemini APIを使用したい場合は、以下の準備が必要です。

Python 3.9 以降をインストールする
Jupyter Notebookをインストールする（コード実行用のノートブック）

どちらの環境で開発するかを決めて、準備を進めましょう。

セットアップ

Gemini APIのセットアップ手順は以下の通りです。

手順	概要
Python SDKをインストールする	Gemini APIをPythonで使うためのツールセットをインストールする
パッケージをインポートする	必要なパッケージをインポートして、Pythonコード内でGemini APIを使えるようにする
APIキーを生成する	Google AI StudioでAPIキーを生成し、APIへのアクセスを設定する
モデルを一覧表示する	利用可能なGeminiモデルを確認し、どのモデルを使うか決める

スタートガイドにはコードサンプルも記載されているため、確認しながらセットアップを完了させましょう。

テキスト生成

Gemini APIを通じてテキスト生成をする手順は次の通りです。

手順	概要
プロンプトを準備する	生成したいテキストの内容に合わせて、入力するテキスト（プロンプト）を用意する
APIを呼び出す	google.generativeaiを使って、準備した入力テキストをAPIに送信し、テキスト生成を依頼する
生成されたテキストを受け取る	APIから返ってきた、生成されたテキストを取得する
結果を表示する	生成されたテキストを画面に表示したり、ファイルに保存したりする