生成AI

最終更新日:2024/12/16
「Gemini(ジェミニ)」は、2023年12月にGoogleから発表された生成AIモデルです。2024年2月には、同社のAIサービスである「Bard」がGeminiへと統合され、最上位バージョンもリリースされるなど急速な進化を遂げており、生成AI業界の新たな進歩を示しています。
本記事では、Geminiの料金や使い方、活用事例など概要について詳しく解説します。2024年5月公開の最新モデルやその機能についてまとめていますので、自社におけるAIサービスの活用を検討する上でぜひ参考にしてください。
「Gemini(ジェミニ)」は、2023年12月にGoogleが開発した高機能生成AIモデルです。テキストや画像、音声、動画を用いて、チャット形式で簡単に高度なタスクを指示できます。
Geminiは「マルチモーダルAI モデル」と呼ばれます。マルチモーダルモデルとは、テキストから画像、音声、動画といった、複数の異なるデータを同時に学習、処理できるように統合されたAIモデルのことです。
マルチモーダルAIの例には、大規模言語モデル(LLM)に画像入力を対応させることで進化したOpenAIの「GPT-4」などがあります。種類の異なる情報やデータを行き来し、関係性を作りながら推論する能力を、自然言語処理技術と組み合わせることで、より自然で効率的なタスク処理の実現が期待されています。
Geminiには現在、「Gemini Ultra」「Gemini Pro」「Gemini Nano」という3種類のモデルが存在します。各モデルの主な特徴は、以下の通りです。
Googleは、Geminiを「データセンターからモバイル端末まで柔軟に利用できるモデル」と位置づけており、用途や活用シーンに応じて種類を選ぶことで最適な利用環境を提供します。
Googleは、ChatGPTに対抗するように、Gemini以前に「Bard」という名称のAIチャットサービスを提供していました。Geminiのリリース当初は、Bardとは別のサービスとして提供されていましたが、2024年2月のGemini Ultra 1.0の登場と共に、BardそのものがGeminiへと変更されたと発表されています。
現時点ですでに「Google Bard」と検索するとGeminiが表示されます。
Geminiの料金は、2024年2月時点で無料です。Googleアカウントを持っている場合は、無料登録することで回数制限なしで自由に使えます。上位バージョンの「Gemini Advanced」にアップデートすると、月額2,900円で無料版よりも便利な機能を利用することが可能です。
また、開発者向けの「Gemini API」を利用してGemini Pro 1.5を使う場合には、別の料金体系が適用されます。公表されている価格は以下の通りです。
Googleは、Geminiが「テキスト、画像、音声、動画のベンチマークテストで最高水準を達成した」と公表しています。Geminiと他のAIモデルとの具体的な相違点としては、以下があります。
Geminiでは、マルチモーダルを用いて当初より異なるデータで事前学習させると共に、追加のマルチモーダルデータを使用しファインチューニングを行っています。その結果、あらゆる種類の入力をシームレスに理解し、高度な推論やコード生成にも対応できています。
また、Geminiでは以下のような機能を備えている点も特徴です。
Geminiは、Googleアカウントを使って簡単に始めることが可能です。主な手順は、以下の3ステップです。
Googleアカウントをまだ持っていない場合には、Googleアカウントを登録した後、Geminiにアクセスしましょう。
まず、Google GeminiのWebサイトを開きます。Googleの検索バーに「Gemini」と入力することでもすぐにページを開けます。「Geminiを試す」というボタンをクリックしましょう。
「利用規約とプライバシー」が表示されたら、下までスクロールします。
右下の「同意する」ボタンをクリックして進みます。
これで、Geminiの登録は完了です。以下の画面が表示されたら、メール配信を希望する場合はチェックを入れて「続ける」を選択しましょう。
チャット画面が表示されたら、プロンプトを入力していきます。
Geminiでは、チャット形式で質問やタスク処理を入力することが可能です。具体的なできることとしては、以下が挙げられます。
すでにGeminiは日本語に対応していますが、内容によっては英語入力により出力精度が上がる場合があります。
ここからは、Geminiの活用事例を7つ紹介します。企業やビジネスにおいて、どのような用途やシーンでGeminiが使えるのか、具体的な使い方の例を説明しますので、参考にしてください。
Gemini では、画像解析機能を用いて内容の要約やまとめを簡単に作成できます。例えば、スライド資料をアップロードし、プロンプトに「内容を説明してください」と入力するだけで、わかりやすく文章化してもらうことが可能です。
スライドには書かれていないような関連情報も付け足してくれるので、回答だけを読んでも内容を理解できる状態になります。情報量の多い資料や専門領域に特化した資料も、画像解析を活用することで、中身を把握できるでしょう。
また、文字を含まない写真やイラストといった画像の説明を依頼することも可能です。例えば、画像データをアップロードし、プロンプトで「画像について教えて下さい」と質問するだけで、文章で解説してもらえます。
ただ、現時点では人物など対応していない要素やテーマも存在するため注意しましょう。
Geminiは、画像だけでなく手書きのテキストや図も解析できます。この機能を活用することで、画像の内容を詳しく説明したり、要約としてまとめたりといった作業がスピーディに完了します。
例えば、電話を受けた際のメモを要約し、まとめてグループチャットに掲載すれば、情報共有が圧倒的に効率化します。また、出先での走り書きを画像データに起こしてGeminiにアップロードすることで、短時間で簡単にまとめを作成できます。
他にも、手書きアンケートの集計や案内図の清書など、さまざまな用途で活躍が期待できます。
Geminiでは、WebページのURLから記載されている内容を自動要約することが可能です。ChatGPTなど他のAIサービスでは、URLからWebサイトの名称やページタイトル、内容を読み取ることには対応しておらず、記載内容を自分で調べる必要がありました。
一方、Geminiでは該当ページのURLを貼りつけ、プロンプトとして「このWebページの内容を説明してださい」と入力するだけで回答が得られます。
海外のWebサイトの情報を知りたい場合や、専門的なWebページを解読したいときも、Geminiを利用することで簡単に読み取れるようになるでしょう。情報収集の効率化に役立ちます。
Geminiは、1つのプロンプト入力に対して、3つの回答を同時に提案してくれます。ブログやメディアに投稿する記事や企画について、同時に複数のアイデアを返してくれるため、比較検討がより効率的に進みます。
例えば、効率化や時短についてのブログで夕食の献立について記事にまとめたい場合に、食材や調理時間を指定すると3パターンの記事を提案してくれます。
パターン1
パターン2
パターン3
上記の例では献立はもちろん、記事のフォーマットや文章が1つずつ異なるため、もっとも適したものを選ぶことが可能です。
また、キーワードやターゲット層を指定してメディアの企画を考えてもらう、といった使い方もでき、コンテンツ製作の効率化も進むでしょう。
Gemini のプロンプト入力だけで、YouTube上の動画を検索することも可能です。例えば、自分が見たい内容のYouTube動画について「〜〜の動画が見たいです」と伝えれば、自動で該当する動画リストを作成してもらえます。
もちろん動画のリンクも付けてくれるので、選択するだけでYouTube動画に移動し、すぐに視聴できます。Geminiから移動することなく動画を探せることにより、作業効率化につながるでしょう。
また、情報収集の一環として使うことも可能です。プロジェクトの関連情報や新しく導入したツールの使い方、基礎知識などを共有したい場合に、チーム内で動画リストを共有しておけば、各自が都合の良い時間に閲覧して準備しておくことが可能です。
Geminiは音声入力にも対応しており、音声でプロンプトを入力することが可能です。音声で質問を入力するだけで、画面上にテキストで返してくれます。例えば、商談や会議の音声を録音しておいて、Geminiに「音声内容を要約して議事録を作成してください」と入力すれば、瞬時に内容のまとまった資料を出力してくれるでしょう。
インタビューや会議の録音自体はよく使われていますが、音声の文字起こしをした後で資料として清書するのが一般的でした。Geminiを活用することで、文字起こし作業が不要となり、大幅な作業効率化が期待できるでしょう。
Geminiは、プログラミングコードの自動生成でも優れた精度を発揮しています。プロンプトでアプリケーションのPython実装コードを依頼すれば、瞬時に自動作成してくれます。
そして、Geminiならではの3種類の提案により、1つのリクエストから複数のコードを生成することも可能です。どのコードを使うか選ぶだけなので、プログラミングの効率化にも大いに役立つでしょう。
また、コードを「Google Colab」などで書き込むこともできるため、自分で細かく調整する必要もなくなります。
Googleでは2024年5月15日にGemini 1.5 ProをGemini Advancedユーザーに提供することを発表しました。Geminiの新機能には、100万トークンのコンテキストウィンドウ、新しい会話体験、そしてユーザーに変わってアクションを実行するツールが含まれています。この章では、アップデート内容について詳しく見ていきます。
「Gemini Live」という新機能では、友人とチャットするようにGeminiと音声やテキストで対話ができ、話している最中に質問を挟むことも可能です。
さらに、2024年10月、会話型AI音声チャット 「Gemini Live」は、英語に加えてフランス語・ドイツ語・ポルトガル語・ヒンディー語・スペイン語への対応を可能にしました。これにより、より多くのユーザーが自然な音声での対話を楽しむことが可能となりました。
「Gemini 1.5 Pro」は100万トークン以上の小ンテキストウィンドウを扱えるようになり、これは文章にして1500ページ分の内容に相当します。これにより、複数の長文や100通のEメールを理解して要約する能力が向上し、1時間の動画コンテンツや3万行以上のコードベースも扱えるようになります。この機能は特に法人利用において、賃貸契約書や研究論文の主要な論点を把握する際に有用です。
Geminiは、文章・画像・動画などを扱うマルチモーダルAIとしても進化しています。「Gemini 1.5 Pro」では、画像の理解が大幅に改善され、料理の写真からレシピを尋ねたり、数学の問題を写真に撮影して解き方を段階的に説明したりすることができます。また、Googleドライブやデバイスから直接ファイルをアップロードして内容を理解・分析する機能も追加されました。
「Gems」という新機能では、個々のニーズに合わせてGeminiの振る舞いをカスタマイズできます。ライティングコーチ・ヨガのインストラクター・副料理長・微積分の先生などのさまざまな役割を設定し、それに応じたサポートを受けることが可能です。例えば、「あなたは私のランニングコーチです。毎日のランニングプランを教えて、前向きでやる気が出るように動機づけて」といった依頼が可能になります。
「Gemini Advanced」の新しいプランニング体験は、旅行計画にも役立ちます。Gmailからフライトとホテルの情報を取得し、Google Mapsを使って周辺のレストランや美術館を見つけ、カスタマイズされた旅程を作成することができます。予定を変更したり、詳細を追加したりすると、旅程が自動的に更新される機能も備えています。
Googleカレンダー・タスク・Keepなど、多くのGoogleとの連携サービスが強化されました。例えば、子どもの学校のシラバスの写真を撮影してKeepに保存し、買い物リストとして追加することができます。
2024年11月、GoogleはiOSデバイス向けに「Gemini」アプリをリリースしました。これにより、iPhoneユーザーは自然な会話形式でのAIとの対話や、Imagen3を使用した画像生成などの機能を利用できるようになりました。
2024年10月、Googleマップは「Gemini」との統合を果たし、ユーザーに対してよりパーソナライズされたルート案内やリアルタイムの交通情報、気象条件の提供が可能となりました。これにより、ナビゲーション体験が大幅に向上しました。
Geminiは、Googleが誇る革新的な最新AIモデルです。高性能なマルチモーダルモデルを搭載し、さまざまなベンチマークでも最高水準の結果を出しており、テキストから音声、動画、画像まで幅広いデータを用いたタスク処理を実現しています。
他のAIサービス同様、Geminiも進化の途中であり、最近では最上位モデルのアップデートとスマホアプリがリリースされたばかりです。今回紹介したGemini活用事例も参考にして、自社における生成AIサービスの活用についてぜひご検討ください。
ChatGPT Plusは、OpenAIの代名詞でもあるLLMを搭載したAIチャットサービスの有料プランで、最新「GPT-4」が利用できる点が特徴です。
Google のGeminiとOpenAIのChatGPT Plusではまず、利用料金が異なります。
Geminiは無料、Gemini Advancedは月額2,900円ですが、ChatGPT Plusは月額20ドル(約3,000円)です。
また、学習データについて、Geminiでは非公開ですが、ChatGPT Plusは2023年4月までと公開されています。
さらに、音声入力がアプリ以外でも利用できるのはGeminiだけです。
Gemini Nanoは、スマホでも利用可能です。
GeminiアプリはAndroid向けのみですが、iOSではGoogleアプリ上でGeminiを利用できます。
なお、Google社のスマートフォン「Pixel 8 Pro」には、Geminiが搭載されており、初のAI 内蔵スマートフォンとして話題を集めています。
Geminiは日本語に対応しており、プロンプトの入力や出力も日本語で行うことが可能です。
2024年2月のアップデートで、GoogleのBardに導入されていた「Gemini Pro」が、日本語など英語以外の40以上の言語に対応したと発表されています。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら