DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

Gemini APIとは?できることから料金まで詳しく解説

最終更新日:2025/04/22

Gemini APIとは?

Geminiを新しく開発するアプリに組み込みたいのでGemini APIを使用したい」
「だけど、具体的にどのようなことができるかわからない」

そんな方は多いのではないでしょうか。

APIはあるソフトウェアから別のソフトウェアの機能を利用するための窓口として、近年普及し続けています。GoogleのAIであるGeminiにもAPIがあり、これを使うことでGeminiの知識や能力を活用できるようになっています。

この記事では、Gemini APIでできることからかかる料金まで詳しく解説します。ぜひ参考にしてみてください。

Gemini APIとは?

Gemini APIとはGoogleが開発・提供するAIのGeminiを、アプリやシステムに組み込むための窓口です。

Gemini APIを使うことで、Geminiの高度なAI機能をアプリやシステムで活用できるようになります。

2025年3月現在、Gemini APIを通じて使用できる主なモデルは以下の3つです。

モデル名 概要
2.0 Flash
  • 高速で低レイテンシ(データが送信されてから受信されるまでの時間が短いこと)の応答が求められるタスク向け
  • リアルタイムでの処理に優れている
2.0 Flash-Lite
  • Flashよりも軽量で、省メモリ・低リソース環境向け
  • 速度重視のアプリに最適
2.0 Pro
  • より高度な自然言語理解と生成能力を持つ
  • 大規模で複雑なタスクや応用に向いている

どのモデルを選ぶかはアプリやシステムの用途に応じて検討しましょう。

参考:Google AI for Developers「Gemini Developer API」

Gemini APIでできること

Gemini APIでできることの中から主なものを6つご紹介します。

テキスト生成

Gemini APIではテキストや画像などさまざまな入力方法からテキストを生成できます。

また、マルチモーダル機能(テキストや画像、動画などを組み合わせて処理できる機能) が搭載されているため、「テキスト+画像」や「テキスト+動画」のような組み合わせからもテキストを生成できます。

入力方法と出力したテキストのユースケースの例は以下の通りです。

入力方法 出力したテキストのユースケースの例
テキスト
  • 文章の要約
  • 文章の翻訳
  • 質問への回答
画像
  • キャプション生成
  • 図解の説明を生成
動画
  • 動画の文字起こし
  • 動画の要約
音声
  • インタビューや講義などの文字起こし
テキスト+画像
  • 画像とそれに対する質問から回答を生成
テキスト+動画
  • 動画とそれに対する質問から回答を生成
テキスト+音声
  • 音声とそれを補足するテキストから文脈を理解して記事を生成

テキスト生成はGeminiのすべてのモデルで可能なので、2.0 Flash、1.5Flashなど複数のモデルで試してみるのがおすすめです。

参考:Google AI for Developers「テキスト生成」

画像生成

Gemini APIでは、Gemini 2.0 Flash 試験運用版と Imagen3の2つのモデルを使って画像生成ができます。

2つのモデルの違いは以下の通りです。

入力 生成
Gemini 2.0 Flash 試験運用版 音声、画像、動画、テキスト インライン画像、ネイティブ画像
Imagen 3 テキスト ネイティブ画像

インライン画像とはテキストの一部として画像を埋め込む形で生成される画像のことです。

一方ネイティブ画像とは完全に独立した画像を生成することを指します。

またGemini 2.0 Flash 試験運用版を使った場合、生成した画像を編集することもできます。

モデルによってできることが異なるので、ニーズに合ったモデルを選んで活用しましょう。

参考:Google AI for Developers「画像を生成する」

参考:Google AI for Developers「Geminiモデル」

画像と動画を入力する

Gemini API

Gemini APIには画像と動画を入力して、上記のようなことができるビジョン機能があります。

オブジェクト検出とは、画像や動画の中から特定の物体を検出し、その位置や種類を特定する技術のことです。

例えば、写真や動画内に人が何人いるかを数えたり、背景にある植物の種類を特定したりするのに活用されます。​

また画像や動画を入力する場合、次のいずれかの形式でなければならないため注意が必要です。

画像の形式 動画の形式
  • PNG – image/png
  • JPEG – image/jpeg
  • WEBP – image/webp
  • HEIC – image/heic
  • HEIF – image/heif
  • video/mp4
  • video/mpeg
  • video/mov
  • video/avi
  • video/x-flv
  • video/mpg
  • video/webm
  • video/wmv
  • video/3gpp

画像と動画を便利に使えるアプリやサービスを作りたい場合、ビジョン機能を使ってみるのがおすすめです。

参考:Google AI for Developers「Gemini API でビジョン機能を試す」

音声を入力する

Gemini API

Gemini API

Gemini APIには音声を入力して、上記の画像のようなことができる音声機能があります。

「セグメント回答」とは音声の特定の部分に焦点を当てて、回答や文字変換ができる機能です。

例えば、長いインタビューの中から重要な部分だけを抽出して、それを要点として文字起こしすることができます。

また音声を入力する場合、次のいずれかの形式でなければなりません。

  • WAV – audio/wav
  • MP3 – audio/mp3
  • AIFF – audio/aiff
  • AAC – audio/aac
  • OGG Vorbis – audio/ogg
  • FLAC – audio/flac

Gemini APIの音声機能は音声で操作できるアプリや、会議の要点を抽出するサービスの制作などさまざまなシーンで活用できるでしょう。

参考:Google AI for Developers「Gemini API を使用した音声機能の詳細」

長いコンテキストの利用

Gemini APIでは例として、以下のような長いコンテキストを活用できます。

Gemini 2.0 Flash Gemini 1.5 Flash Gemini 1.5 Pro
搭載されたコンテキストウィンドウの長さ 100万個のトークン 100万個のトークン 200 万個のトークン

コンテキストウィンドウとは、各モデルが理解できるテキストの最大の長さを表しています。

そのため長い会話や複雑な文脈で適切な回答を生成したい場合、コンテキストウィンドウが長ければ長いほど、AIが持つ情報量が増えてより精度の高い応答ができるようになる仕組みです。

またGemini APIでは、コンテキストウィンドウに長い音声や動画も組み込めるようになっています。

この機能により、プロンプトが長すぎてあきらめていた内容の開発を再度検討してみるといったことが可能となるでしょう。

参考:Google AI for Developers「長いコンテキスト」

コードの実行

Gemini APIにおけるコードの実行機能とは、ユーザーがやりたいことや解決したい課題を伝えると、Geminiがそれに合わせてPythonのコードを書き、実行する機能です。

例えばデータの処理や計算、グラフの生成、APIからの情報取得など、様々なプログラムを実行することができます。

コード実行環境にはaltair、chess、cv2、matplotlib、mpmath、numpy、pandas、pdfminer、reportlab、seaborn、sklearn、statsmodels、striprtf、sympy、tabulate のライブラリが含まれていますが、独自のライブラリをインストールすることはできないので注意しましょう。

コードの知識が深くなくてもプログラムを実行できるので、アプリやサービスのアイデアを形にしやすくなります。

参考:Google AI for Developers「コードの実行」

Gemini APIの使い方

Gemini APIの使い方を事前準備・セットアップの方法、テキスト生成の3つにわけてご紹介します。

事前準備

Gemini APIを使うには、クラウド環境(Google Colab) と ローカル環境(自分のPC) の2つの方法があります。

それぞれの環境で必要な事前準備の内容は以下の通りです。

クラウド環境で使う場合

Google Colab(コラボ)というクラウド上のノートブック を使えば、すぐに実行できます。

ノートブックにはコードを書くスペース・説明を書くスペース・実行するスペースがすでに用意されているため、環境構築の手間なくすぐにコードを書いて実行できます。

ローカル環境で使う場合

ローカル環境でGemini APIを使用したい場合は、以下の準備が必要です。

  • Python 3.9 以降をインストールする
  • Jupyter Notebookをインストールする(コード実行用のノートブック)

どちらの環境で開発するかを決めて、準備を進めましょう。

セットアップ

Gemini APIのセットアップ手順は以下の通りです。

手順 概要
Python SDKをインストールする
  • Gemini APIをPythonで使うためのツールセットをインストールする
パッケージをインポートする
  • 必要なパッケージをインポートして、Pythonコード内でGemini APIを使えるようにする
APIキーを生成する
  • Google AI StudioでAPIキーを生成し、APIへのアクセスを設定する
モデルを一覧表示する
  • 利用可能なGeminiモデルを確認し、どのモデルを使うか決める

スタートガイドにはコードサンプルも記載されているため、確認しながらセットアップを完了させましょう。

テキスト生成

Gemini APIを通じてテキスト生成をする手順は次の通りです。

手順 概要
プロンプトを準備する 生成したいテキストの内容に合わせて、入力するテキスト(プロンプト)を用意する
APIを呼び出す google.generativeaiを使って、準備した入力テキストをAPIに送信し、テキスト生成を依頼する
生成されたテキストを受け取る APIから返ってきた、生成されたテキストを取得する
結果を表示する 生成されたテキストを画面に表示したり、ファイルに保存したりする

具体的なコードのサンプルや細かい流れはスタートガイドに記載があるため、読みながら進めてみましょう。

参考:Google AI for Developers「チュートリアル: Gemini API のスタートガイド」

Gemini APIの使用にかかる料金

Gemini APIの使用にかかる料金はGoogle AI for Developersの「Gemini Developer API の料金」のページに、使用可能な以下のモデル別に記載されています。

  • Gemini 2.0 Flash
  • Gemini 2.0 Flash-Lite
  • Imagen 3
  • Gemma 3
  • Gemini 1.5 Flash
  • Gemini 1.5 Flash-8B
  • Gemini 1.5 Pro
  • テキスト エンベディング 004

無料枠は主にテストや学習用なので使用回数や機能が制限されていますが、有料階層では制限が緩和され、追加の機能も使えるようになります。

最初は無料枠で使ってみて、本格的に活用することになったら自社で開発したいアプリやサービスが実現できるモデルを選び、有料階層で使用するのがおすすめです。

参考:Google AI for Developers「Gemini Developer API の料金」

まとめ

Gemini APIとはGoogleが開発・提供するAIのGeminiを、アプリやシステムに組み込むための窓口です。

Gemini APIを使うことで、Geminiの高度なAI機能をアプリやシステムで活用できるようになります。

Gemini APIを積極的に活用してみてください。

アイスマイリーでは、生成AIサービスと提供企業の一覧を無料配布しています。課題や目的に応じた計51のサービスを比較検討できますので、ぜひこの機会にお問い合わせください。

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Xもフォローください
@AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aiaismiley1345

メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら