Gemini 3.1 Flash-Liteとは？機能や料金・使い方を詳しく解説

最終更新日:2026/03/30

Gemini 3.1 Flash-Liteとは？

Google は 2026年3月、高速処理が可能で、コストパフォーマンスに優れた最新の生成AIモデル「Gemini 3.1 Flash-Lite」を公開しました。性能とコストのトレードオフを解消するとされる当モデルは、業務活用の有力な選択肢として注目されています。

本記事では、Gemini 3.1 Flash-Liteの概要や前モデルからの進化、料金、活用シーンについて整理します。AI導入の判断に役立つ情報を網羅していますので、ぜひ参考にしてください。

Gemini 3.1 Flash-Liteとは？

Gemini 3.1 Flash-Liteは、Googleが公開したGemini シリーズの中でも最もコストパフォーマンスと処理速度に優れた最新モデルです。Google AI Studio（Gemini API）および、Vertex AI経由でプレビュー版が利用できます。

Gemini 2.5 Flashからの進化

前モデルのGemini 2.5 Flashと比較すると、3.1 Flash-Liteはスピード・精度・機能の3点において進化が見られます。

主な比較ポイントを以下の表で整理します。

	Gemini 2.5 Flash	Gemini 3.1 Flash-Lite
出力速度	249トークン/秒	363トークン/秒
初回応答速度	基準	2.5倍
高速入力料金（1Mトークン）	$0.30	$0.25
出力料金（1Mトークン）	$2.50	$1.50
Thinkingレベル	あり	あり（4段階）
コンテキストウィンドウ	100万トークン	100万トークン

推論スピードにおいては、Gemini 2.5 Flashと比較して出力速度が約45%向上し、最初の回答が返るまでの時間も2.5倍ほど速くなりました。

また、大量のリクエストを処理する業務では、スピード差によってシステム全体のレスポンスが向上しています。

さらに、入出力ともに前モデルより料金が下がり、コストメリットがさらに拡大しました。

4段階のThinkingレベル：推論の深さ調整

Thinkingレベルとは、AIが1つの問いに対してどれだけ深く考えるかを制御できる機能です。タスクの複雑さに応じてレベルを切り替えることで、処理コストと回答品質のバランスを調整できます。

Thinkingレベルは、「minimal・low・medium・high」の4段階に分けられます。

各レベルの特性と適切なユースケースは以下のとおりです。

レベル	処理の特性	向いている業務の例
minimal	最速・最安定型	翻訳、テキスト分類、コンテンツの可否
low	軽い推論。速度とコストを優先	要約、FAQ自動応答、商品タグ付け
medium	中程度の推論。バランス型	資料分析、複数条件が絡む問い合わせ対応
high	深い推論。精度優先	UI画面の自動生成、複雑な指示への対応

目安として、繰り返し発生する定型業務はminimal〜low、判断の文脈が複雑な業務はmedium〜high、という使い分けることで、コストを抑えつつ必要な精度を確保できます。

日本語対応

Gemini 3.1 Flash-Liteの日本語対応力を知る上で参考になるのが、多言語QAベンチマーク「MMMLU」の指標です。MMMLU は英語以外の言語での知識理解と回答精度を測定する指標で、多言語対応では88.9%と、同価格帯のモデルの中でもトップクラスを打ち出しています。

ベンチマークスコアはあくまで参考値ですが、日本語を含む多言語対応業務の基準の1つとして認識できます。

Gemini 3主要モデル（Pro / Flash / Flash-Lite）比較

Gemini 3シリーズには、用途と予算に応じた3つのモデルがあります。

それぞれの役割を理解し、Flash-Liteの立ち位置を把握するために以下表で比較してみましょう。

項目	Gemini 3.1 Pro	Gemini 3 Flash	Gemini 3.1 Flash-Lite
位置づけ	複雑な推論・創造的タスク向け	バランス型・中位モデル	大量処理・低コスト特化
入力料金（1Mトークン）	$2.00	$0.50	$0.25
出力料金（1Mトークン）	$12.00	$3.00	$1.50
出力速度	ー	ー	363トークン/秒
Thinkingレベル	あり	あり	あり（4段階）
マルチモーダル対応	テキスト・画像・動画・音声	テキスト・画像・動画・音声	テキスト・画像・動画・音声・PDF

モデル別スペックとベンチマーク

各モデルの性能を定量的に把握するため、Google DeepMindが公表している主要ベンチマークの数値を以下にまとめました。

ベンチマーク	測定内容	Gemini 3.1 Flash-Lite	Gemini 2.5 Flash
GPQA Diamond	科学的推論（物理・化学・生物・数学）	86.9%	—
MMMU Pro	マルチモーダル推論	76.8%	—
Video-MMMU	動画理解	84.8%	79.2%
MMMLU	多言語QA	88.9%	86.6%
LiveCodeBench	コード生成	72.0%	—
SimpleQA	事実の正確性	43.3%	—
Humanity’s Last Exam	抽象的な難問・推論	16.0%	—

※―は非公開情報のため不明

Gemini 3.1 Flash-Liteは軽量モデルでありながら、前モデルの多くの指標を上回っています。中でも、特に科学的知識やマルチモーダル理解、動画処理で突出して高い数値を示しています。

一方で、コード生成と抽象的な難問推論はスコアが低い傾向があるため、タスク内容ごとの使い分けが望ましいでしょう。

使い方とシステム連携の注意点

Gemini 3.1 Flash-Liteは、Google AI StudioとVertex AIの2つで利用できます。それぞれの使用手順を紹介します。

Google AI Studioで試す方法

Google AI Studioは、Googleが提供するブラウザ上のAI開発・検証環境です。アカウント登録だけですぐに利用でき、Gemini 3.1 Flash-Liteの無料枠が用意されています。

使い方は、以下の通りです。

Google AI Studio にアクセスし、Googleアカウントでログインする
「Create prompt」からモデル選択画面を開く
モデルIDに「gemini-3.1-flash-lite-preview」を指定する
プロンプトを入力して動作を確認する
APIキーを発行し、自社システムへの連携テストを実施する

AI Studioでは、入力内容がGoogleのサービス改善に利用される可能性があるため、個人情報や守秘義務のある情報は入力しないよう注意が必要です。

Vertex AI経由で利用する方法

Vertex AIは、Google Cloudが提供するAI開発基盤です。本番運用のためのプラットフォームで、従量課金制で使えます。利用手順は以下の通りです。

Google Cloudアカウントを作成する
プロジェクトを用意し、Vertex AI APIを有効化する
請求先アカウントを設定する
コンソールまたはAPIからモデルID（gemini-3.1-flash-lite-preview）を呼び出す
チーム・プロジェクト単位でのアクセス権限と使用量上限を設定する

既存システム連携の注意点

Gemini 3.1 Flash-LiteをAPI経由で呼び出す仕組みは、既存の業務システムやSaaSツールへの組み込みに対応しやすいというメリットがあります。

ただし、スムーズに連携するために、以下のポイントをあらかじめ把握しておきましょう。

既存システムにHTTPリクエストを送れる環境があれば基本的に連携可能
JSON形式での出力（response_mime_type: application/json）を指定することで、AIの回答を決まったデータ形式（JSON）で受け取り可能
出力形式はテキストに限られる

料金体系と商用利用

Gemini 3.1 Flash-Liteは、Gemini 3シリーズの中で最もコスト効率に優れています。基本料金に加え、バッチAPIの割引や上位モデルとの価格差を把握することで、自社の目的に見合ったモデル選定が可能です。

基本料金（$0.25/1M入力・$1.50/1M出力）

Gemini 3シリーズ内の料金は、以下の通りです。

モデル	Gemini 3.1 Pro	Gemini 3 Flash	Gemini 3.1 Flash-Lite
入力（1Mトークン）	$2.00	$0.50	$0.25
出力（1Mトークン）	$12.00	$3.00	$1.50

※Pro：200Kトークン超の入力で料金アップ

Flash-Liteとの価格差は、用途や処理量によって異なりますが、コストを優先する際にはGemini 3.1 Flash-Liteが有利です。

バッチAPIで50%割引になる条件

バッチAPI（大量のリクエストをまとめて送信し非同期で結果を受け取る処理）を利用する場合、50%割引が適用されます。

例えば、夜間の大量ドキュメント分類・要約、商品説明や社内マニュアルの多言語一括翻訳、問い合わせ履歴の定期分析といった即時応答が不要なタスクは、バッチAPIを活用することで料金を半分に抑えられます。

チャットボット応答のようなリアルタイム処理と、バッチAPIでの処理とでモデルを使い分けることで、コストの最適化が可能です。

商用利用ライセンス

Gemini 3.1 Flash-LiteをAPIで利用する場合、適用される規約は利用経路によって異なります。

利用経路	適用規約	データの取り扱い
Google AI Studio （無料枠）	Gemini API追加利用規約	Googleの製品改善・学習に利用される可能性あり
Gemini API （有料）	Gemini API追加利用規約（有料版）	無料枠とは異なるデータ保護条件が適用される
Vertex AI	Google Cloud Platform 利用規約	指示・回答はモデル学習に使用されない

Googleの利用規約には、「Googleは生成されたコンテンツの所有権を主張しない」と明記されています。

ただし、著作権侵害リスクの判断・管理はユーザー側で責任を持って行う必要があります。

競合モデル（GPT-5 mini・Claude Haiku 4.5）との比較

Gemini 3.1 Flash-Liteと競合モデル（GPT-5 mini・Claude Haiku 4.5）との違いを、以下の比較表で整理します。

比較項目	Gemini 3.1 Flash-Lite	GPT-5 mini	Claude Haiku 4.5
入力料金（1Mトークン）	$0.25	$0.25	$1.00
出力料金（1Mトークン）	$1.50	$2.00	$5.00
コンテキストウィンドウ	100万トークン	40万トークン	20万トークン
出力速度	363トークン/秒	ー	ー
マルチモーダル入力	テキスト・画像・動画・音声・PDF	テキスト・画像	テキスト・画像
Thinking（推論制御）	あり（4段階）	あり	あり