Google PaLMとは？仕組みやできること、PaLM2とGeminiの展望も解説

最終更新日:2024/01/29

ChatGPTをはじめとする対話型AIブームの中で、Googleが2022年4月に発表した最新モデル「PaLM」の活用やアップデートに関心が寄せられています。

本記事では、Google PaLMの仕組みや特徴、PaLMを使ってできることなどを解説するとともに、後継モデルのPaLM2とGeminiについて現時点でわかっていることも紹介します。Googleが誇る大規模言語モデルの性能を理解し、今後のビジネスに活かす方法を検討するためにぜひご覧ください。

大規模言語モデルについて詳しく知りたい方はこちらの記事もご覧ください。
大規模言語モデル（LLM）とは？種類・活用サービス・課題を徹底解説

Google PaLMとは？

PaLM（Pathways Language Mode）は、2022年4月にGoogleが公開した大規模言語モデル（LLM）です。論文「Scaling Language Modeling with Pathways」にて詳しく解説されていますが、端的には「大量のパラメーターを用いた自然言語処理モデル」とまとめられます。

PaLMでは、標準アーキテクチャ「Transformer」モデルをベースに、幅広い言語タスクにおいて改良が施されています。PaLMの「Pathways」によって大量のデバイス間で非同期にデータを送受信、更新でき、タスクの効率化に成功しています。

言語理解や文章要約だけでなく、論理推論の設問に対して「思考の連鎖（Chain of thoughts/CoT）」の手法を用いて回答を導き出し、アウトプットすることが可能です。他にも、プログラムのコーディングやジョークの説明といった機能にも対応しており、従来のモデルと比較して大幅に飛躍しています。

2023年3月にはPaLMのAPIを発表。PaLM APIを呼び出すことで、学習済みのPaLMによる文章生成や対話、分類といった機能を外部システムと連携しながら利用できます。

Googleの代表的なLLMには、2021年公開の「LaMDA（Language Model for Dialogue Applications）」もありますが、LaMDAが会話に特化したモデルであるのに対し、PaLMはより幅広い用途での利用が想定されています。

Google PaLMの仕組み・特徴

Google PaLMの主な特徴として、以下が挙げられます。

最大5,400億のパラメーター
7,800億個のトークンを学習に使用
深層学習向けのプロセッサー「TPU V4」6,144台による大量学習

PaLMでは最大5,400億（540B）個のパラメーターを採用しています。この数値は、OpenAIの「GPT-3」の175B個、MicrosoftとNvidiaが共同で開発した「Turing NLG」の530B個を上回っており、処理能力が高いことがわかります。

実際に、PaLMを用いて質疑応答や文脈内読解、常識推論といった英語自然言語処理（NLP）タスクを評価したところ、29のタスクのうち28個でGPT-3やLaMDAを上回りました。

また、7,800億個もの膨大なトークンを使って学習しています。1トークンは英語の1単語に換算されるため、約7,800億もの単語のデータセットで学習させたことになります。

学習データは、ソーシャルメディア内の会話データが約50%を占め、他には書籍やニュース、GithubやWikipediaなどのWebサイトの情報が含まれています。

大量のパラメーターで、大量のデータを学習させるために、6,144台もの深層学習向けプロセッサー「TPU V4」が用いられています。TPU（Tensor Processing Unit）は、Googleが開発したプロセッサーで、この使用台数はGoogle史上過去最大規模とされています。

ここからは、Google PaLMのベースである「Transformer」と、Google PaLMの中核を担う「Pathways」について説明します。

Transformerとは？

Google PaLMのベースである「Transformer」とは、2017年発表の自然言語処理に関する論文「Attention Is All You Need」の中で初めて登場した深層学習モデルです。

それまで主流だった畳み込みニューラルネットワーク（CNN）や、回帰性ニューラルネットワーク（RNN）を用いたエンコーダ・デコーダモデルとは異なり、Transformerではエンコーダとデコーダを「Attention」と呼ばれるモデルで結んでいます。

Transformerの登場により、機械翻訳タスクにおける学習時間の大幅な短縮や言語翻訳の最良スコア取得などの改良が見られました。

Transformerは、スタンフォード大学の研究者に「AIのパラダイムシフトをもたらす基盤モデル」とも呼ばれるほど、過去に発明されたモデルの中で最も強力なものの1つです。機械学習の進歩を牽引する存在として、PaLMをはじめ「BERT」などさまざまな言語モデルのベースとしても用いられています。

Pathwaysとは？

PaLMという名前の由来でもある「Pathways」は、次世代AIアーキテクチャとも呼ばれており、PaLMの根幹を成す要素です。先述のTransformerを、Pathwaysと呼ばれる学習アプローチを用いて処理効率を高めることを意味します。

Pathwaysでは、教育データを二分割し、2つのTPUポッドで並列教育させます。このプロセスにより、ゼロから訓練する従来のモデルに比べて、必要な学習データが少なく、短時間でトレーニングできます。PaLMのは大量のマシンパワーで学習効率を上げて学習でき、稼働率57.8%を達成しました。

また、Pathwaysは「与えられたタスクに対して、ネットワーク内の関連部分だけが作動する」という特性も備えています。そのため、省エネ性も高く、処理効率も向上しています。

Google PaLMにできること

Google PaLMは、論文内でGPT-3モデルに比べて、NLG（言語生成精度）やNLU（言語理解精度各指標）の精度が高いことがわかっています。

Google PaLMにできることは多岐にわたりますが、代表的なタスクとしては以下が挙げられます。

言語翻訳
文章要約
推論
プログラミング
ジョークの説明

因果関係の理解

原因と結果（Cause and Effect）の設問において、PaLMは適切な回答を出力することができています。言葉の理解を評価する能力測定において、AI言語モデルに設問を投げかけ、回答の得点により機能を評価します。

論文には、絵文字が示す内容を理解し、該当する映画を当てるゲームや、試験で好成績を出した事象と試験勉強の関係を問う設問において、PaLMが因果関係を正しく理解し、正解を導き出したという記載があります。

因果関係を理解して、対話や文章要約の出力に反映することは、LLMにおける1つの大きなハードルでしたが、PaLMではほぼ問題なく対応できていることがわかっています。

数学計算における推論

PaLMがブレイクスルーを達成したと言われる所以が、言語能力における「推論（Reasoning）」機能です。推論は、複数の命題から結論を引き出す思考方法のことで、人間の理性を代表する能力とも言われています。

数学計算における推論（Multi-step arithmetic reasoning）を示す根拠として、算数の問題で正解を導き出すことに成功しています。例えば「テーブルの上に23個のリンゴがあります。20個を使い、新たに6個を購入しました。リンゴはいくつありますか？」という問題に対し、PaLMは「11」と正しく回答しました。9歳〜12歳の子どもが算数の問題を解く能力の約60%ほどの機能を備えていることがわかっています。

ステップ別の推論（Chain of Thought Prompting）

従来までのAI言語モデルは、人間のように論理的に考えて数学の問題を解くことができませんでした。しかし、PaLMでは数学の計算を複数のステップに分けて推測することで、正解を回答できています。

この手法は「Chain of Thought Prompting（CoTプロンプト）」とも呼ばれ、人間の論理思考を模倣するように、AI言語モデルが思考過程を複数の段階別に実行し、結果を出力します。ステップ別の推論を重ねることにより、正解率も大きく向上しています。

ジョークの説明

PaLMは数学だけでなく、常識に基づく推論（Common-sense reasoning）でも一定の能力を発揮しています。一見すると意味不明な文章を示しても、PaLMが論理的に推測し、その真意を把握します。つまり、文章の内容を論理的に推論することができるのです。

常識に基づく推論機能は、社会常識を使って文章や言葉の意味を理解し、推測する機能です。論文では、英語のジョークの意味を説明した事例が紹介されており、人間のようにジョークがなぜ面白いのか、オチまでも説明できるようになりました。

プログラミング

PaLMは、プログラミング技術も習得しています。具体的には、人間が文章で指示した内容に沿って、他の言語プログラムに変換する作業やバグ修正といった作業を実行可能です。

プログラミングは、LLMの得意分野でもあるため、高い精度で実行できるLLMが普及する日も近いでしょう。学習データには、Githubのコードデータなどが含まれています。

PaLMの進化版「PaLM2」とは？

Googleは現地時間の2023年5月10日、年次開発者会議「Google I/O 2023」にてPaLMからさらに進化した次世代モデル「PaLM2」を発表しました。

PaLM2は、PaLMの研究を発展させ、多言語や推論、およびコーディングの性能を向上させた最先端のLLMです。PaLM2では、100以上の言語テキストを学習させ、慣用句やなぞなぞなど、ニュアンスを含む表現について、多くの言語で理解、翻訳、生成することが可能です。

PaLMで能力を発揮した推論能力については、数式を含む科学論文やWebページを学習させ、さらにレベルアップしています。そして、プログラミングでは、公開されている大量のソースコードを事前学習し、PythonやJavascriptだけでなく、FortranやVerilogといった多くの言語コーディングを実現しています。

幅広い用途をカバーするモデルラインナップ

PaLM2では、前モデルよりも性能が高いことに加え、モデルサイズのラインナップが充実しています。PaLM2のサイズ展開は「Gecko」「Otter」「Bison」「Unicorn」の4つです。

Geckoは軽量で、モバイル端末でもスムーズに動作し、オフライン上でアプリケーションを実現するのに適しています。PaLM2が登場したことで、さまざまなデバイスにおいて、多様な目的でのLLM活用をカバーできるでしょう。

25を超えるGoogleの製品と機能に搭載

先述した会議において、GoogleはPaLM2を搭載した25以上の製品と新機能も発表しています。Google WorkspaceのGmailをはじめ、Googleドキュメントやスプレッドシートでも壊PaLM2を用いた新機能が追加されることが公表されています。

GmailやGoogleドキュメントの下書き、校正はもちろん、スプレッドシートの自動補完、テキストの文脈や元データからの分析、Google Meet上での会話を元にしたメモ作成など、ユーザーがより効率的に作業できるような機能がPaLM2に搭載される予定です。

また、AI開発プラットフォーム「Vertex AI」の大規模アップデートにより、Google CloudでもPaLMを利用できるようになりました。テキストや画像の生成だけでなく、将来的には音声や動画にも対応する見込みです。

PaLM2の多言語機能は、Googleが提供するLLM「Bard」の日本語版をはじめ多くの言語に対応しており、日本でも急速に浸透していくと推測されています。

PaLM2の後継2モデル「Gemini」について

GoogleのCEOであるピチャイ氏は、現在「Gemini」を開発中であると明かしています。Geminiは、PaLM2の後継モデルにあたるトレーニング中の基盤モデルで、将来的にBardのバックエンドとして導入される予定と話しています。

Geminiでは、以前のモデルでは使われていない「マルチモーダル機能」を搭載し、メモリやプランニングなどのイノベーションを可能にするように構築されています。ツールやAPIを効率的に統合できるようゼロから作成されており、多くの種類のデータを同時に扱うことが可能になるでしょう。

Google PaLM まとめ

Google PaLMは、標準アーキテクチャ「Transformer」モデルをベースに、大量のパラメータを用いて改良されたLLMです。多言語対応や推論、プログラミングといったタスクにおいて大幅に進化を遂げており、従来のLLMでは難しかった因果関係の理解やステップ別の推論といった機能においても高い精度で正解を導き出せることがわかっています。

現在すでに後継モデルである「PaLM2」と、その次の「Gemini」の開発が進んでいます。Googleの追い上げによってLLMブームはどう変化していくのか、今後の動向に注目しましょう。

Google Bardでも用いられている会話特化型のLLM「LaMDA」については、下記記事をご覧ください。

LaMDA（ラムダ）とは？仕組みや使い方、Google Bardとの関係性を解説

自然言語処理について詳しく知りたい方はこちらの記事もご覧ください。
自然言語処理（NLP）とは！？AIの進化で活用広がる最新技術を紹介

AIソリューションについて詳しく知りたい方はこちらの記事もご覧ください。
AIソリューションの種類と事例を一覧に比較・紹介！

AIについて詳しく知りたい方はこちらの記事もご覧ください。
AI・人工知能とは？定義・歴史・種類・仕組みから事例まで徹底解説