生成AI

最終更新日:2025/04/22
「Geminiを新しく開発するアプリに組み込みたいのでGemini APIを使用したい」
「だけど、具体的にどのようなことができるかわからない」
そんな方は多いのではないでしょうか。
APIはあるソフトウェアから別のソフトウェアの機能を利用するための窓口として、近年普及し続けています。GoogleのAIであるGeminiにもAPIがあり、これを使うことでGeminiの知識や能力を活用できるようになっています。
この記事では、Gemini APIでできることからかかる料金まで詳しく解説します。ぜひ参考にしてみてください。
Gemini APIとはGoogleが開発・提供するAIのGeminiを、アプリやシステムに組み込むための窓口です。
Gemini APIを使うことで、Geminiの高度なAI機能をアプリやシステムで活用できるようになります。
2025年3月現在、Gemini APIを通じて使用できる主なモデルは以下の3つです。
モデル名 | 概要 |
2.0 Flash |
|
2.0 Flash-Lite |
|
2.0 Pro |
|
どのモデルを選ぶかはアプリやシステムの用途に応じて検討しましょう。
参考:Google AI for Developers「Gemini Developer API」
Gemini APIでできることの中から主なものを6つご紹介します。
Gemini APIではテキストや画像などさまざまな入力方法からテキストを生成できます。
また、マルチモーダル機能(テキストや画像、動画などを組み合わせて処理できる機能) が搭載されているため、「テキスト+画像」や「テキスト+動画」のような組み合わせからもテキストを生成できます。
入力方法と出力したテキストのユースケースの例は以下の通りです。
入力方法 | 出力したテキストのユースケースの例 |
テキスト |
|
画像 |
|
動画 |
|
音声 |
|
テキスト+画像 |
|
テキスト+動画 |
|
テキスト+音声 |
|
テキスト生成はGeminiのすべてのモデルで可能なので、2.0 Flash、1.5Flashなど複数のモデルで試してみるのがおすすめです。
参考:Google AI for Developers「テキスト生成」
Gemini APIでは、Gemini 2.0 Flash 試験運用版と Imagen3の2つのモデルを使って画像生成ができます。
2つのモデルの違いは以下の通りです。
入力 | 生成 | |
Gemini 2.0 Flash 試験運用版 | 音声、画像、動画、テキスト | インライン画像、ネイティブ画像 |
Imagen 3 | テキスト | ネイティブ画像 |
インライン画像とはテキストの一部として画像を埋め込む形で生成される画像のことです。
一方ネイティブ画像とは完全に独立した画像を生成することを指します。
またGemini 2.0 Flash 試験運用版を使った場合、生成した画像を編集することもできます。
モデルによってできることが異なるので、ニーズに合ったモデルを選んで活用しましょう。
参考:Google AI for Developers「画像を生成する」
参考:Google AI for Developers「Geminiモデル」
Gemini APIには画像と動画を入力して、上記のようなことができるビジョン機能があります。
オブジェクト検出とは、画像や動画の中から特定の物体を検出し、その位置や種類を特定する技術のことです。
例えば、写真や動画内に人が何人いるかを数えたり、背景にある植物の種類を特定したりするのに活用されます。
また画像や動画を入力する場合、次のいずれかの形式でなければならないため注意が必要です。
画像の形式 | 動画の形式 |
|
|
画像と動画を便利に使えるアプリやサービスを作りたい場合、ビジョン機能を使ってみるのがおすすめです。
参考:Google AI for Developers「Gemini API でビジョン機能を試す」
Gemini API
Gemini APIには音声を入力して、上記の画像のようなことができる音声機能があります。
「セグメント回答」とは音声の特定の部分に焦点を当てて、回答や文字変換ができる機能です。
例えば、長いインタビューの中から重要な部分だけを抽出して、それを要点として文字起こしすることができます。
また音声を入力する場合、次のいずれかの形式でなければなりません。
Gemini APIの音声機能は音声で操作できるアプリや、会議の要点を抽出するサービスの制作などさまざまなシーンで活用できるでしょう。
参考:Google AI for Developers「Gemini API を使用した音声機能の詳細」
Gemini APIでは例として、以下のような長いコンテキストを活用できます。
Gemini 2.0 Flash | Gemini 1.5 Flash | Gemini 1.5 Pro | |
搭載されたコンテキストウィンドウの長さ | 100万個のトークン | 100万個のトークン | 200 万個のトークン |
コンテキストウィンドウとは、各モデルが理解できるテキストの最大の長さを表しています。
そのため長い会話や複雑な文脈で適切な回答を生成したい場合、コンテキストウィンドウが長ければ長いほど、AIが持つ情報量が増えてより精度の高い応答ができるようになる仕組みです。
またGemini APIでは、コンテキストウィンドウに長い音声や動画も組み込めるようになっています。
この機能により、プロンプトが長すぎてあきらめていた内容の開発を再度検討してみるといったことが可能となるでしょう。
参考:Google AI for Developers「長いコンテキスト」
Gemini APIにおけるコードの実行機能とは、ユーザーがやりたいことや解決したい課題を伝えると、Geminiがそれに合わせてPythonのコードを書き、実行する機能です。
例えばデータの処理や計算、グラフの生成、APIからの情報取得など、様々なプログラムを実行することができます。
コード実行環境にはaltair、chess、cv2、matplotlib、mpmath、numpy、pandas、pdfminer、reportlab、seaborn、sklearn、statsmodels、striprtf、sympy、tabulate のライブラリが含まれていますが、独自のライブラリをインストールすることはできないので注意しましょう。
コードの知識が深くなくてもプログラムを実行できるので、アプリやサービスのアイデアを形にしやすくなります。
参考:Google AI for Developers「コードの実行」
Gemini APIの使い方を事前準備・セットアップの方法、テキスト生成の3つにわけてご紹介します。
Gemini APIを使うには、クラウド環境(Google Colab) と ローカル環境(自分のPC) の2つの方法があります。
それぞれの環境で必要な事前準備の内容は以下の通りです。
Google Colab(コラボ)というクラウド上のノートブック を使えば、すぐに実行できます。
ノートブックにはコードを書くスペース・説明を書くスペース・実行するスペースがすでに用意されているため、環境構築の手間なくすぐにコードを書いて実行できます。
ローカル環境でGemini APIを使用したい場合は、以下の準備が必要です。
どちらの環境で開発するかを決めて、準備を進めましょう。
Gemini APIのセットアップ手順は以下の通りです。
手順 | 概要 |
Python SDKをインストールする |
|
パッケージをインポートする |
|
APIキーを生成する |
|
モデルを一覧表示する |
|
スタートガイドにはコードサンプルも記載されているため、確認しながらセットアップを完了させましょう。
Gemini APIを通じてテキスト生成をする手順は次の通りです。
手順 | 概要 |
プロンプトを準備する | 生成したいテキストの内容に合わせて、入力するテキスト(プロンプト)を用意する |
APIを呼び出す | google.generativeaiを使って、準備した入力テキストをAPIに送信し、テキスト生成を依頼する |
生成されたテキストを受け取る | APIから返ってきた、生成されたテキストを取得する |
結果を表示する | 生成されたテキストを画面に表示したり、ファイルに保存したりする |
具体的なコードのサンプルや細かい流れはスタートガイドに記載があるため、読みながら進めてみましょう。
参考:Google AI for Developers「チュートリアル: Gemini API のスタートガイド」
Gemini APIの使用にかかる料金はGoogle AI for Developersの「Gemini Developer API の料金」のページに、使用可能な以下のモデル別に記載されています。
無料枠は主にテストや学習用なので使用回数や機能が制限されていますが、有料階層では制限が緩和され、追加の機能も使えるようになります。
最初は無料枠で使ってみて、本格的に活用することになったら自社で開発したいアプリやサービスが実現できるモデルを選び、有料階層で使用するのがおすすめです。
参考:Google AI for Developers「Gemini Developer API の料金」
Gemini APIとはGoogleが開発・提供するAIのGeminiを、アプリやシステムに組み込むための窓口です。
Gemini APIを使うことで、Geminiの高度なAI機能をアプリやシステムで活用できるようになります。
Gemini APIを積極的に活用してみてください。
アイスマイリーでは、生成AIサービスと提供企業の一覧を無料配布しています。課題や目的に応じた計51のサービスを比較検討できますので、ぜひこの機会にお問い合わせください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら