ChatGPT連携サービス

最終更新日:2023/12/04
ChatGPTを筆頭に生成系AIサービスが世界的に浸透するとともに、個人だけでなくビジネスシーンにおける利用も増加の一途を辿っています。文章や画像、動画などさまざまな生成AIサービスが登場する中、テキスト向けAIモデルにおいて欠かせないのが大規模言語モデル(LLM)です。
生成系AIサービスの登場に伴い、AI技術が専門の域を超えて社会生活に浸透している現在、AIサービスの活用にあたってLLMの基本的な情報や課題を押さえておくことは重要です。
本記事では、大規模言語モデル(LLM)の概要や種類、LLMでできること、代表的なLLM製品などについて解説します。LLM搭載のAIサービスを実際に導入している企業事例も紹介しますので、大規模言語モデルについて理解を深め、自社の生成系AIサービスの導入や運用を検討する際の参考にしてください。
ちなみに「自然言語処理」について下記の記事で詳しく解説しています。あわせてご覧ください。
自然言語処理(NLP)とは!?AIの進化で活用広がる最新技術を紹介
大規模言語モデル(Large Language Models/LLM)とは、大量のデータセットとディープラーニング技術を用いて構築された、機械学習の自然言語処理モデルのことです。一般的には、特定のタスクでトレーニングする「ファインチューニング」と呼ばれる手法を用いて、テキスト分類・生成や感情分析、文章要約、質問応答といったさまざまな自然言語処理(NLP)タスクに適応させます。
大規模言語モデルでは、従来の自然言語モデルと比べて「計算量(コンピュータが処理する仕事量)」「データ量(入力された情報量)」「パラメータ数(ディープラーニング技術に特有の係数の集合体)」という3つの要素を巨大化させている点が特徴です。
そのため人間の自然な会話に近い流暢なやり取りや、自然言語のさまざまな処理を高精度で行うことができます。大規模言語モデルの代表例には、Googleによる「BERT」やOpenAIの「GPT-3」などがあります。
そもそも「言語モデル」とは、文章や単語の出現確率を用いてモデル化したものです。人間の自然な会話や文章に対して高い確率を割り当て、文章として成立しない単語の並びには低い確率を割り当てます。
大規模言語モデルは、言語モデルにおける種別の1つです。近年では、ニューラルネットワークを用いた言語モデル(ニューラル言語モデル)が自然言語処理の分野で広く使われています。
LLMは、大量のデータセットと深層学習技術を採用したAIモデルで、自然言語処理タスクを実行します。ChatGPTとは、OpenAI社が開発したGPT(Generative Pre-trained Transformer)アーキテクチャに基づくAIモデルであり、LLMの事例の1つがChatGPTと言えます。
LLMが特定のパラメータや条件に基づいて文章を生成するのに対し、ChatGPTではより自然な会話や人間らしい文章を生成することを得意としています。
生成AIとは、テキストや画像、動画、音声などを生成できるAI技術の総称であり、AIが新しい情報やアイデアを生成する技術のことを指します。一方、LLMは自然言語処理に特化した言語モデルであり、生成AIの種類の1つです。
また、テキストの理解や生成を担うLLMであるChatGPTも、生成AIと呼ぶことができます。
機械学習とは、特定のデータを使ってコンピューターに学習させる技術を指します。統計学やデータマイニング手法を用いたデータ予測や判断などに、機械学習が用いられています。
一方、LLMは大量のテキストデータから文の構造や文脈を学習し、文章の生成や質問への回答といったタスク処理を行うAIモデルです。
深層学習や生成AIは機械学習の応用分野であり、生成AIの一種であるLLMは、テキストデータに特化した機械学習モデルという位置付けになります。
大規模言語モデルの仕組みを見ていきましょう。まず、大規模言語モデルでは、巨大テキストデータセットを用いた事前学習(Pre-Training)と、性能を最適化する微調整(Fine-Tuning)の2段階のプロセスを通ります。
その後、LLMが入力(プロンプト)を受け取り、適切な反応を出力するまでの主な流れは、以下のようになっています。
LLMでは、基本的に上記の手順を繰り返し、文書生成が実行されます。LLMのモデルにより細かな点は異なりますが、多くのLLMでは単語や部分単語をトークンとして扱っています。
ここ数年で多数の大規模言語モデルが発表されています。ここでは、代表的な製品を含むLLMの一覧を紹介します。
言語モデル名 | 概要 | 企業名 | パラメータ数 | 発表年 |
BERT | データセットの規模を増やし精度を向上させた 初期の言語モデル |
3.4億 | 2018年 | |
GPT-3(Generative Pretrained Transformer) | Transformerをベースとし、文書生成に特化するよう チューニングされたモデル |
OpenAI | 1,750億 | 2020年 |
GPT-4 | GPT-3に、画像や音声などテキスト以外のデータを 学習させたモデル |
OpenAI | 非公開 | 2023年 |
LaMDA(Language Model for Dialogue Applications) | Transformerをベースとし、対話に特化させたモデル。 1兆5,600億語のテキストコーパスで事前学習を実施 |
未公開 | 2021年 | |
PaLM(Pathways Language Model) | 論文「Scaling Language Modeling with Pathways」を元にしたモデル。 Transformerのパラメータ数を大幅に拡大し、高性能を実現 |
5,400億 | 2022年 | |
LLaMA(Large language Model Meta AI) | GPT-3と同等の性能を、圧倒的に少ないパラメータ数で実現。 GitHub上でオープンソースとして公開 |
Meta | 70~650億 | 2023年 |
NEMO LLM | 独自の学習データで 多様なサイズにカスタマイズ可能 |
NVIDIA | 未公開 | 2022年 |
Claude | GPT-2とGPT-3の開発に携わったエンジニアによるモデル | Anthropic | 未公開 | 2023年 |
Alpaca 7B | LLaMAをベースとし、Instruction-following(指示実行)の結果を使って ファインチューニングしたモデル |
スタンフォード大学 | 70億 | 2023年 |
Vicuna 13B | LLaMAをベースに、ChatGPTとユーザの会話を学習させた オープンソースのチャットボット |
カリフォルニア大学 | 未公開 | 2023年 |
OpenFlamingo | DeepMindが開発したマルチモーダルモデル 「Flamingo」をオープンソース化 |
LAION | 未公開 | 2023年 |
上記に挙げた主なLLMの多くは、「Transformer」と呼ばれるニューラルネットワークアーキテクチャをベースとしています。Transformerは、2017年に発表された「Attention Is All You Need」という論文で示されたディープラーニングのモデルです。
従来のニューラルネットワークより少ないレイヤーを使用する点がブレイクスルーとなり、「BERT」や「GPTシリーズ」の登場につながっています。
大規模言語モデル(LLM)ができることは多岐にわたります。ここでは、その一部を以下にまとめます。
最近では、画像や音声などテキスト以外のデータも学習させたLLMも登場しています。
LLMでは、指示を送る入力(プロンプト)により、さまざまな出力が可能です。ChatGPTなどのLLMを使いこなす上で欠かせないプロンプトの基礎知識や、出力精度の高め方については、下記記事にて解説しています。
また、現場で有用なLLMの活用にはプロンプトエンジニアリングが必須です。プロンプトエンジニアリングの重要性や実演例については、下記記事をご参照ください。
ここで、LLMの中でも知名度の高い「ChatGPT」とBingの「AIチャット」、そしてGoogleによる「Bard」という3つのサービスについて、特徴をおおまかに紹介します。
「ChatGPT」は、人工知能の研究開発機関であるOpenAIがリリースした自然言語処理モデルを用いたAIチャットサービスです。2022年11月の公開後、革新的なサービスとして瞬く間に注目を集め、日本でも大きな話題を呼びました。
2023年3月には、従来のモデル(GPT-3、GPT3.5)に比べて高い能力を備えた「GPT-4」がリリースされ、有料プラン(ChatGPT Plus)にて利用が可能です。GPT-4では、抽象的な要素に対する処理能力が大幅に強化されており、画像や図とテキストの組み合わせに対してテキストを出力する作業や、より高度な推論や複雑な指示への応対が実現しています。
2023年5月には、待望のiPhone(iOS)版ChatGPTアプリがリリースされ、スマホから無料で利用できる環境が整えられました。
ChatGPTの登録方法やアプリの詳細については、下記記事をご覧ください。
ChatGPTとは?使い方や始め方、日本語対応アプリでできることも紹介!
Bingの「AIチャット」とは、Microsoft(マイクロソフト)が提供する検索エンジン「Bing」に、GPT-4搭載のAIチャットを組み込んだ「Bing AI」内の機能です。
BingのAIチャットは、検索エンジンと連動しているため、リアルタイムの情報を反映しながら回答を行います。出力内容には参照ページURLが含まれており、ユーザーは参照ページにクリック1つで移行し、出力内容の効率的な事実確認を行うことが可能です。
また、AIチャットには「Bing Image Creator」とよばれる画像生成機能が搭載されており、チャットを使って画像の生成もできます。ただ、応答回数の制限やBing自体のシェアの低さといった課題も残されています。
BingのAIチャットでできることやChatGPTとの違いなど、下記記事で解説していますのであわせてご覧ください。
Bing AIとは?新機能やAIチャットの使い方を丁寧に解説!
Googleが開発した「Bard」は、LaMDAと呼ばれる対話アプリケーション向けのモデルをベースに採用した対話型AIサービスです。世界中の幅広い知見を、LLMの知能や創造性と組み合わせることを目的として立ち上げられました。
人間のような自然な会話が可能なAIチャットシステムに、Googleの検索サービスを連携しており、インターネット上の最新情報を含む回答の提供が期待できます。
ChatGPTに遅れを取る形で公開された「Bard」ですが、2023年4月に日本でも一般向け英語版としてリリースされ、2023年5月には日本語対応もスタートしています。ただ、情報の正誤確認などの注意点もあります。
「Bard」の基本情報やChatGPTの比較については、下記記事をご覧ください。
Google Bardとは?ChatGPTとの違いや利用時の注意点を解説
ここからは、実際に大規模言語モデル(LLM)を活用している企業の事例を紹介します。
フリマアプリで知られる株式会社メルカリでは、生成AIによる「メルカリAIアシスト」の提供を開始しました。機能の第一弾として、メルカリアプリ上の出品商品の改善提案を導入しています。
出品されている商品情報をAIが分析し、商品を売れやすくするためのアクションをユーザーに提案します。この機能により、購入者にとってより魅力的な商品情報が公開され、迅速な購入決断につながるというメリットも期待できます。
メルカリAIアシストでは、出品・購入だけでなく、メルカリを使用する際のさまざまな場面でAIによるサポートが受けられるよう機能のリリースが計画されています。
メルカリが生成AIを活用した「メルカリAIアシスト」の提供を開始
大規模言語モデルは画期的な進化とともに、急速に社会へ浸透していますが、現時点では課題も残されています。現時点でLLMが抱える主な3つの課題について解説します。
現在、LLMの出力精度は、採用している言語モデルやサービスに依存しており、どれを使用するかによって回答内容や精度は大きく変わります。
ChatGPTで採用されている「GPT-4」では、GPT-3を超えるパラメータ数を持つモデルであるのに対し、Googleの「Bard」で用いられているLaMDAは軽量モデルだと公表されています。Googleとの連携によるリアルタイム性が強みであるBardよりも、ChatGPTの方が人間の対話に近い自然な回答が出力できています。
「ハルシネーション(Hallucination)」とは、日本語で「幻覚」という意味の単語で、「人工知能(AI)がもっともらしい嘘をつくこと」を意味します。自然言語処理においては、事実とは異なる情報や、文脈とまったく関係ない内容を出力してしまう現象を指します。
人間が脳内の想像で幻覚を見るのと同じように、AIが「幻覚」を出力しているように見えることから名付けられました。ChatGPTをはじめとする生成AIが広く使われるようになった現在、実際に学習していない情報をでっちあげてしまい、結果的に誤解を招く危険性があります。
AI技術の浸透とともに、ハルシネーションを起こしやすいパターンの研究も進んでいます。例えば、あまり知られていないマイナーな事件や事実に関する質問や、架空のキャラクターに関する質問を入力した際、学習データが少ないことから「それらしい回答を無理やり生成する」「ちょっと違うようなデータを組み合わせて不正確な回答を作り上げる」といったケースが見られます。
システムの進化とともに対策が進むことで、ハルシネーションの頻度や影響は減っていくと予測されています。ただ、文章生成AIの特性上、完全に防止することはできないでしょう。
また、生成する文章の柔軟性や多様性を保ち、LLMの使い道を限定しないためにも、ユーザー側がハルシネーションの可能性を念頭に置いた上で使用する必要があります。
プロンプトを使った言語モデルへの攻撃手法は「敵対的なプロンプト」と呼ばれます。敵対的なプロンプトにより、モデルの反応性能の低下や機能不全といったリスクが考えられますが、対策は十分とはいえない状況です。
主な敵対的プロンプトには、以下3つがあります。
「プロンプトインジェクション」は、巧妙な質問や指示を入力してモデルの出力を乗っ取ることです。第三者の個人情報を開示する、根拠のないデマを拡散させるといった危険性があり、セキュリティの脆弱性としても懸念されています。
「プロンプトリーク」は、プロンプトが保有する情報を引き出すテクニックです。本来公開されるべきではない情報を含むプロンプトを使って、情報を漏えいさせます。
「ジェイルブレイク」は、巧妙なプロンプトを使ってモデルの制限を外す手法です。代表的なアプローチである「モデルに別人格を設定して答えさせる」などの方法により、差別や暴力といった非倫理的内容や違法行為を助長する情報など、調整されている内容を回答させることに成功してしまうのです。
こうした敵対的プロンプトには、日々対策が講じられていますが、いまだ複数の欠陥が残されている状況です。LLMを使うことで問題に発展することのないよう、ユーザー側で上記のようなリスクをよく認識し、適切な使い方をする必要があります。
大規模言語モデル(LLM)は、言語モデルのうち、大規模なデータセットを使って学習させたモデルのことです。質問への回答や文章要約、機械翻訳など幅広いタスクに応用が可能で、教育や医療など幅広い場面ですでに利用されています。
ChatGPTやGoogleの「BARD」をはじめ、多くのLLMが日々登場していますが、まだ完全とはいえず、いくつもの課題が残されています。ユーザー側はそのことを念頭に置いた上で、適切な使い方をする必要があります。
現在、日本語での自然な対話ができ、総合的な使用感の高いChatGPTの活用が有用です。ChatGPTのAPI連携もスタートした今、自社に最適なサービスの比較検討に以下「ChatGPT連携サービス一覧」をご活用ください。
AIソリューションについて詳しく知りたい方はこちらの記事もご覧ください。
AIソリューションの種類と事例を一覧に比較・紹介!
AIについて詳しく知りたい方はこちらの記事もご覧ください。
AI・人工知能とは?定義・歴史・種類・仕組みから事例まで徹底解説
LLMとは、大量のデータセットとディープラーニング技術を用いて構築された、機械学習の自然言語処理モデルのことです。
大規模言語モデル(Large Language Models/LLM)は、言語モデルにおける種別の1つです。近年では、ニューラルネットワークを用いた言語モデル(ニューラル言語モデル)が自然言語処理の分野で広く使われています。
膨大なテキストデータを学習する大規模言語モデル(LLM)は、人間のようにクリエイティブな成果物を生み出せる生成AIの一例です。
業務の課題解決に繋がる最新DX・AI関連情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら