生成AI

最終更新日:2025/01/31
Googleは、2024年12月19日(アメリカ現地時間)に「Gemini 2.0 Flash Thinking」をリリースしました。同月12日に発表されたばかりの「Gemini 2.0 Flash」の派生モデルで、推論能力が大幅に向上していることに加え、AIの思考過程を説明するという画期的な機能を備えています。
本記事では、Gemini 2.0 Flash Thinkingの主な特徴や機能、使い方、利用時の注意点などを解説します。ベースモデルとなっているGemini 2.0 Flashとの違いについてもまとめていますので、Googleの最新生成AIについて理解を深めるためにぜひご覧ください。
Gemini 2.0 Flash Thinkingとは、2024年12月にGoogleがローンチした最新の生成AIモデルです。同月に公開された高性能モデル「Gemini 2.0 Flash」をベースとし、推論能力などにおいてさらなる進化を遂げています。
思考モデルとも呼ばれるこのモデルは、Google CEOのスンダー・ピチャイ氏が「Google史上、最も思慮深いモデル」と評価する通り、推論能力が大幅に向上しています。特筆すべきは、AIの思考プロセスを可視化する機能で、OpenAIの推論モデルである「ChatGPT-o1」と同様に、複雑な課題について数秒間考える点が特徴です。
発表時のデモ動画では、人間でも容易ではないような機転の利かせ方や、トンチやなぞなぞのような問題への対応が映され、話題となりました。 現時点では、Google AI Studioにて試験運用β版が公開されており、登録ユーザーはプラットフォーム上で利用できます。
関連記事:Gemini(ジェミニ)とは?料金・使い方・活用事例、アプリ最新情報を紹介
Gemini 2.0 Flash Thinkingの主な3つの特徴を紹介します。
Gemini 2.0 Flash Thinkingの最大の特徴は、AIの思考プロセスを可視化できる点です。Thoughts機能とも呼ばれ、問題を解決するためにモデルがどのような手順で考え、どのような情報を参照したのか、という思考の過程を段階的に表示します。まるで人間が考えているかのように、モデルが推論を進めていく流れを確認できます。
従来のAIモデルは、質問に対する回答のみを出力するものが中心で、モデルがプロンプトに対してどう判断し、結論に至ったのかは明かされていませんでした。しかしGemini 2.0 Flash Thinkingでは「AIモデルのブラックボックス」とも呼ばれるこの課題がついに解消され、プロセスの表示が実現しました。
AIの判断過程は、ドロップダウンメニューで順番に追うことができます。また、桁数の多い小数の比較や複数の計算式を伴う問題の解答プロセスも、人間がわかりやすい表現を使って説明してくれます。
テキストと画像を同時に分析できる機能が盛り込まれています。モデルのマルチモーダル対応自体は Gemini 2.0の時点で搭載されていましたが、この思考モデルでは画像の内容を理解し、テキストと組み合わせて複雑な問題をスムーズに解決できます。
運用テストでも、テキストと画像などの視覚的な要素を含むパズルを解決できることが確認されています。ただし、β版が適切に分析できるのはシンプルな画像のみである可能性が指摘されています。情報量の多い画像など、場合によってはうまく機能しないことが考えられます。
Gemini 2.0 Flash Thinkingでは、従来のモデルでは難しいような難易度のタスクや推論問題に対応できる点も見逃せません。Googleは、人間でも難しいと感じるクイズをモデルが正しく解く様子をデモ動画内で公開しています。
クイズは、数字の異なるビリヤードボールが4つ並んでいる画像をモデルに見せて「数字の合計を30にする方法を考えて」というものです。通常の数値計算を行い、30を導き出すことができないと判断したAIは、発想の転換をします。
「ビリヤードボールに書かれている数字」という視覚的な情報から、新たな解決策を模索し始めます。そして「9」のボールは、上下反転させて「6」と読めることに気付き、残りの数字を組み合わせて見事に合計30というゴールに辿り着きました。
思考プロセスの可視化により、モデルが「数字をどうやったら変えられるのか」と考えを巡らせている様子を確認できる点は、当モデルならではの魅力です。
Gemini 2.0 Flash Thinkingの1週間前に発表された「Gemini 2.0 Flash」は、前モデルであるGemini 1.5の2倍の応答速度を実現しています。また、主要なAIモデルのベンチマークで、前モデルを上回る評価を出している点も特徴です。
ここでは、ベースモデルのGemini 2.0 Flashについて解説します。
Gemini 2.0 Flashでは、テキスト、画像、音声、動画といった多様なデータを、統合的に処理するマルチモーダル対応です。従来のAIモデルと異なり、複数のデータ形式をまとめて処理できます。
また、「Multimodal Live API」を用いることで、音声とカメラ映像を使った対話が実現します。カメラでリアルタイムのビジョンを提示し、音声ストリーミングでGeminiに指示を出すことも可能です。
例えば、画面共有だけで広告イメージの改善案を作成する、といった使い方もできます。
Deep Research機能は、Gemini 2.0 Flashの発表に伴い導入された新機能です。ユーザーのリサーチ作業を効率化するAIアシスタントとして設計されています。ユーザーが指定したトピックに対して、モデルが複数の情報源から自動で必要なデータを収集、分析します。
リサーチの要点をまとめたレポートを自動生成する際は、元の情報源へのリンクも提供してくれるため簡単に正確性を確認できます。また、Googleドキュメントへのエクスポートにも対応するなど、情報収集の効率化に貢献します。
2025年1月15日(日本時間)には、Deep Research機能が日本語に対応したことも発表されました。現在は、Gemini Advanced内の機能として提供されており、モバイルアプリまたはブラウザ版にて利用可能です。
Gemini 2.0 Flashでは、AIエージェントとしての実用化が進んでいます。マルチモーダルや高性能な推論・数学問題の解決、長文の自然な理解、複雑なタスクの実行、といった複合的なツールを連携して、新しいAIエージェント体験の実現を後押ししています。
例えば、デスクトップにモデルを常駐させ、指示するだけで自動的にインターネットや画面などを動いてタスクを実行してもらうといった使い方が可能になり、まるで秘書のような役割を果たしてくれます。
ただ、Geminiが作業している間は、人間が同じデバイス上で別の画面を見る、もしくはチェックする仕組みが必要になるでしょう。
関連記事:Google、次世代AIモデル「Gemini 2.0」発表。新機能をGemini Advancedで利用可能に
Gemini 2.0 Flash Thinkingは、現在Web版 Geminiもしくは Google AI Studioにて利用できます。手順は以下の通りです。
【Gemini ブラウザ版から利用する場合】
【Google AI Studioで利用する場合】
現在、無料プランのユーザーでも、上記手順でβ版を体験できます。
開発者向けに、Gemini 2.0 FlashのAPIも提供されています。以下の手順でAPIを使用し、独自のアプリケーションやシステムにGemini 2.0を組み込むことが可能です。
APIドキュメントに記載されている利用料金やサンプルコード、利用制限などを事前に確認することを推奨します。
実際に、Gemini 2.0 Flash Thinkingを活用してみましょう。今回は、大学入試史上最も難問と言われる数学の問題を問いてもらいます。
模範解答では、円周の長さを用いる方法と面積を求める方法の2つの解答が公開されていますが、ここでも同様に両方の方法で証明できます。
次に、画像とテキストを併用した質問を投げてみます。
画像に写っている天然石の種類を尋ねてみたところ、まず天然石が箱の中と、画像右上の2か所にあることを正しく認識できています。さらに、画像の情報から判断できる範囲で、可能性の高い天然石を複数答えてくれました。「画像だけでは正確に特定することは困難」という前置きをしている点も、性能の高さを感じさせます。
Gemini 2.0 Flash Thinkingの代表的な活用方法は、以下の通りです。
上記以外にも、さまざまな領域やシーンで有効活用が期待できます。
Gemini 2.0 Flash Thinkingを利用する上で知っておきたい注意点について解説します。
Gemini 2.0 Flash Thinkingは現在、試験運用中のβ版であり、下記の利用制限が設定されています。
一般公開時には、上限は撤廃される可能性もありますが、現時点ではトークンの上限に注意して使用しましょう。
最新のGeminiモデルにおいても、プライバシーや倫理的な問題について留意が必要です。Gemini 2.0 Flash Thinkingに個人情報や機密情報を入力する際には、Googleのポリシーでデータの取り扱いについて事前に確認し、必要なセキュリティ対策を講じる必要があります。
また、AIが学習したデータに偏りがあれば、不適切な情報を返す可能性も否めません。出力内容を鵜呑みにせず、ファクトチェックや内容の精査を行った上で活用することが重要です。
Gemini 2.0 Flash Thinkingは、従来のモデルでは叶わなかった「AIの思考プロセスを可視化」した画期的なモデルです。また、テキストと画像の同時分析機能を備え、前モデルを超える高度な推論や人間でも回答が難しいような複雑なタスクへの対応も実現しています。
現時点では試験運用版のみの公開ですが、無料で使える点が大きなアドバンテージといえます。また、開発者向けのAPIも提供されており、独自アプリケーションへの組み込みにも対応しています。Googleが誇る最新生成AIモデルをこの機会に体験してみることをおすすめします。
アイスマイリーでは、生成AIサービスと企業をまとめた比較データを無料配布しています。自社における生成AIの導入や運用に最適なサービスやシステムを選ぶために、必要な情報を参照できる資料です。この機会にぜひダウンロードいただき、ご活用ください。
Gemini 2.0 Flash Thinkingは、試験運用のβ版が無料で公開されています。Geminiのブラウザ上でモデルを変更するだけで、思考モデルを試すことが可能です。また、Google AI Studio上でも利用できます。
日本語のプロンプトも適切に処理できます。画像と日本語のテキストプロンプトを組み合わせたタスクにも、スピーディに対応できるケースが多く見られました。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら