GPT-4oとは？ChatGPT最新AIモデル GPT-4o・GPT-4o mini の使い方や料金を詳しく解説

最終更新日:2024/08/27

OpenAIは2024年5月13日（米国時間）に、新たなAIモデル「GPT-4o」を発表しました。

このモデルは、テキスト、音声、画像、映像をシームレスに扱い、自然なテンポでのリアルタイム音声会話が可能になりました。GPT-4oは視覚と音声の理解力が際立ち、多言語対応や複雑な対話の要素を理解できるようになりました。

さらに、既存モデルや競合モデルを上回る性能を発揮し、無料ユーザーも利用可能となっています。有料ユーザーはさらに制限が緩和され、企業向けプランも提供されます。

また2024年7月17日にはGPT-4oの新モデルとなるGPT-4o miniも公開されました。

関連記事

2024/5/13
OpenAIは13日（米国時間）に、新たなAIモデル「GPT-4o」を発表
OpenAI、音声と視覚の理解に強みを持つ新モデル「GPT-4o」発表。無料版でも利用可能

2024/05/24
Allganizeの生成AIプラットフォーム、GPT-4o、Gemini 1.5 Pro / Flashに対応
Allganizeの生成AIプラットフォーム、GPT-4oに対応

2024/05/31
JAPAN AI株式会社が提供するAIサービスにGPT-4oを搭載することを発表
JAPAN AI、全AIサービスに最新モデル「GPT-4o」を導入

2024/07/18
OpenAIは、GPT-4oの新モデルGPT-4o miniを発表しました。
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

この記事では、GPT-4oの概要、使い方、料金、新機能、セキュリティ機能などについて詳しく解説していきます。

ChatGPT-4o(GPT-4 Omni)・GPT-4o miniの概要

GPT-4o（GPT-4 Omni）およびGPT-4o mini は、OpenAIが開発した最先端のAIモデルです。

このモデルは、テキスト、音声、画像など、複数の形式のデータを処理できるように設計されており、幅広い用途に対応することができます。

GPT-4oは、従来のモデルに比べて精度と応答速度が向上し、より自然で一貫性のある対話を実現しています。

バージョン別の機能比較表

特徴/バージョン	GPT-3.5	GPT-4	GPT-4o	GPT-4o mini
モデルサイズ	約1.750億パラメータ	公開されていないが、GPT-3.5より大規模 ※	未公開 ※	公開されていないが、GPT-4oより小規模
トレーニングデータ	2021年までのデータ	2021年以降のデータも含む	最新データまで含む	最新データまで含む
自然言語理解	高度な自然言語理解	より精微で高度な言語理解	高度な言語理解 + 最適化された性能	高度な言語理解 + 最適化された軽量性能
創造的なテキスト生成	高い	非常に高い	高いが効率も重視	高いがリソース効率を重視
対話能力	高い	非常に自然で流暢	自然で流暢、かつ応答速度が最適化	自然で流暢、リソース効率に優れる
応答の精度	高い	非常に高い	高い精度と効率のバランス	高精度、かつリソース効率のバランス
専門的な質問への対応	良好	優れている	優れており、応答速度も向上	優れており、軽量化された応答
メタ認知（知識範囲の限界認識）	限定的	向上している	向上しており、パフォーマンスも最適化	向上しており、効率重視のパフォーマンス
利用例	一般的な会話、基本的な質問応答	専門的な質問応答、高度な言語タスク	高度な言語タスク、リアルタイムの応答が必要なシナリオ	高度な言語タスク、軽量化とリアルタイム応答が必要なシナリオ
計算リソース	多い	更に多い	最適化され、効率が良い	最適化され、さらに効率が良い

※.GPT-3.5のパラメータ数は約1,750億ですが、GPT-4およびGPT-4oの正確なパラメータ数は公開されていません。ただし、GPT-4はGPT-3.5より大規模であると推測されています。

ChatGPT-4o(Omni)の使い方・料金について

GPT-4oはChatGPTの無料版と有料版での使い方が多少異なります。無料プランも提供されていますが、高度な機能を利用する場合は有料プランへの加入が必要です。

ChatGPT-4oを利用するには、まずOpenAIの公式サイトでアカウントを作成し、適切なプランに登録する必要があります。登録に関してはこちらの記事を確認ください。

ChatGPTとは？

無料版でのGPT-4oの使い方

回答の下に表示される雷マークの部分から切替えることができます。

※2024/7/19現在、両モデル選択することが可能でした。

有料版でのGPT-4oの使い方

画面左上のメニューからGPT-4oモデルを選択することで使用することができます。

無料版と有料版との機能の差

GPT-4oは有料版、無料版両方利用できますが、それぞれできることに差があります。

	無料ユーザー	Plusユーザー
価格	無料	20ドル
利用できるモデル	GPT-3.5、GPT-4o	GPT-3.5、GPT-4 、GPT-4o
回数制限	5時間あたり10回まで	3時間あたり80回まで
入力文字数制限	約10,000字	約25,000字
回答文字数制限	約2,048字	約25,000字
回答スピード	混雑していると遅い	優先処理により高速
GPTs利用	×	⚪︎
検索機能	⚪︎	⚪︎
画像生成	×	⚪︎

GPT-4oのAPIの価格設定

GPT-4oの価格は、リクエスト数やデータ処理量に基づいて設定されており、利用するプランによって異なります。

モデル名	入力	出力
GPT-4o	$5.00	$15.00
GPT-4turbo	$10.00	$30.00
GPT-4	$30.00	$60.00
GPT-4-32K	$60.00	$120.00

※価格は全て100万トークン辺りの金額

詳細な料金プランはOpenAIの公式サイト内で確認できます。
OpenAI API price

OpenAI ChatGPT アップデートの新機能

GPT-4oでは、さまざまな新機能が追加され、ユーザーエクスペリエンスが大幅に向上しています。

テキストはもちろん、音声・画像・映像をシームレスに扱い、自然なテンポでのリアルタイム音声会話が可能になりました。

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

こちらの投稿の返信に様々なケースでの活用を挙げているので気になる人は確認してみてください。
https://x.com/OpenAI/status/1790072174117613963

以下に主な新機能を紹介します。

音声モードの向上

会話のトーンと複数の話者の認識

GPT-4oは、会話のトーンを認識し、複数の話者を区別することが可能です。また、背景騒音の認識にも対応しています。これにより、複雑な音声環境でも正確な音声処理が行えます。

多彩な音声出力

読み上げ時には笑い声や歌声、さらには感情の表現も可能となり、より自然で臨場感のある音声出力を実現しています。

高速な応答時間

音声入力に対して、最短0.232秒、平均0.320秒で返答を行います。これは旧GPT-4の5.4秒、旧GPT-3.5の2.8秒と比べて大幅な改善です。ChatGPTの応答において2~5秒程度の遅延があった以前と比べ、GPT-4oでは処理速度が2倍になりました。

>

Rock, Paper, Scissors with GPT-4o pic.twitter.com/Cy4r3vABtH

— OpenAI (@OpenAI) May 13, 2024

画像生成機能の進化

「GPT-4o」の発表を行い、特に注目を集めたのはその音声会話機能でした。しかし、それ以上に革新的だったのは画像生成機能の大幅な進化です。このプレゼンテーションでは、画像生成AI「DALL-E 3」の驚くべき性能向上が紹介されました。

一貫性の保持

これまで、DALL-E 3やStable Diffusionなどの画像生成AIにとって、同一キャラクターを一貫して生成することは大きな課題でした。今回のアップデートにより、この問題が大幅に改善されました。例えば、「微笑みを浮かべる漫画の郵便配達員」をプロンプトに入力すると、同じキャラクターを異なるシーンや角度で一貫して描画することが可能となりました。これにより、AIを使った漫画制作が一層現実味を帯びています。

テキストに対応

画像生成AIが苦手としていたテキストの表現も大幅に改善されました。指定したポエムを詳細なプロンプトと共に入力することで、指示通りのテキスト表現が可能になっています。この精度の向上により、クリエイティブなデザインがさらに多様化します。

複数画像の合成

複数の画像を合成する機能も進化しています。インカメラで撮影した人物の顔写真を元に、映画ポスターのような複雑な合成画像を生成することが可能になりました。これにより、異なるフォーマットの素材を組み合わせた新たな創作の活動が広がります。

3Dアニメーションの生成

さらに、複数の2D画像から3Dアニメーションを生成するデモも紹介されました。これは、将来的にAIによる3Dコンテンツの制作が一般的になる可能性を示しています。

データ分析機能の強化

今回、GPT-4oの有料プランにおいて、AzureやGoogle Driveのファイルと連携してデータ分析ができるようになりました。

Azureと連携してできることとしては、データ分析だけでなく画像をアップロードする画像解析も可能になりました。縦書きの文字を読み込んだり、設計図や3D画像の読み込み、画像のキャプション作成などもできるようになったため、資料作成がより効率化できる可能性があります。

またGoogleDriveとの連携では、主にGoogleスプレッドシート、スライド、ドキュメントやMicrosoft Word、Excel、PowerPointなど多くのファイルからデータ分析・資料作成ができます。ただデータを読み込んでグラフを作成するだけでなく、ChatGPTに詳細な質問をしたり、プロンプトからより詳細な分析を行うことも可能です。

詳細は以下の記事をご覧ください。

GPT-4o、ファイルのデータ分析が直接可能に

セキュリティ機能の進化

GPT-4oでは、日本語を含む20言語で新しいトークナイザーが導入されセキュリティ面でも大幅な改良が施されています。これにより、データの安全性と処理効率が向上したとともに、ユーザーのプライバシーを保護しつつ、高速で安全なデータ処理が可能になりました。

GPT-4oモデルの評価と性能

GPT-4oの性能は従来のモデルと比べて大幅に向上しています。主要な評価ポイントは以下となります。

テキスト精度

GPT-4oは、複雑な文章の理解と生成において高い精度を誇ります。これにより、より自然で一貫性のあるテキスト生成が可能となります。

テキスト・音声の応答速度

新しいアルゴリズムにより、テキストおよび音声の応答速度が改善され、リアルタイムでの対話がさらにスムーズになりました。

音声認識と翻訳機能

音声認識機能の精度が向上し、多言語対応の翻訳機能も強化されています。これにより、グローバルなコミュニケーションがより効率的に行えます。

画像の認識機能強化

GPT-4oは画像認識能力も強化されており、画像の内容を高い精度で解析し、関連する情報を提供することができます。

GPT-4oの活用事例

発表した当初から、企業でもGPT-4oを活用する動きが始まっています。その事例について、解説します。

横須賀市、GPT-4oを活用したチャットボットの公開実験を開始

横須賀市では、開発中のチャットボット「ニャンぺい」にGPT-4oを活用しました。その「ニャンぺい」の一般市民向けの実証実験を、2024年5月20日（月）～2024年6月30日（日）の間で開催します。

実証実験を通して様々な不具合を収集し、このデータを他の自治体にも活用する予定です。GPT-4oを活用しながら、将来的には誰もが安心して相談できるチャットボットの実現を目指す予定です。

横須賀市、チャットボットの実証実験を開始

ギブリーの法人GAI、行政GAIがGPT-4oへ対応開始

株式会社ギブリーでは、法人や行政における業務自動化のソリューション「法人GAI」「行政GAI」を提供しています。これまで自社のデータをChatGPTと連携させ、業務独自のナレッジデータベースの構築していきました。

そして、この度最新版のGPT-4oとの対応も開始しました。詳細は以下のページをご覧ください。

ギブリー、GPT-4oに対応開始

talkappi、GPT-4oに対応

株式会社アクティバリューズが提供する多言語AIチャットボット「talkappi CHATBOT」も、GPT-4oへの対応を開始しました。talkappi CHATBOTは観光業界に特化したプラットフォームで、問い合わせの自動応答をはじめ、チャットで予約・販売やFAQや多言語Webページの作成、マーケティング支援ツールなど、あらゆる機能を備えています。これによって、さらに効率的なサービス提供が行えることを目指しています。

なお、talkappiの利用ユーザーでChatGPTのアカウントを持っていない場合は、talkappi経由で連携し、かつ初期費用は無料で連携可能です。

GPT-4oに対応したマルチモーダルAIメガネ「Frame」販売開始

シンガポールのAIメガネを開発する企業Brilliant Labsは、GPT-4oに対応したマルチモーダルAIメガネ「Frame」を販売開始しました。FrameにはAIアシスタント「Noa」が搭載され、目の前にあるものについてや眼鏡に映った食べ物のカロリー調査や外国語の翻訳、レストランのレビューや不動産情報の検索がその場でできるようになります。

実際の使用イメージは、以下の動画をご覧ください。

ChatGPT-4o対応マルチモーダルAIメガネが登場

GPT-4oを利用した大学向けChatGPT「ChatGPT Edu」が登場

OpenAIは、大学向けAIプラットフォーム「ChatGPT Edu」を発表しました。

これまで、ChatGPTはオックスフォード大学、コロンビア大学ニューヨーク市キャンパスなどで利用され、あらゆる成果を挙げてきました。そこでChatGPT Eduでは、より多くの大学で活用することを想定し、セキュリティと機能を特化したChatGPTを開発しました。このChatGPT Eduも、GPT-4oを搭載しています。

利用できる対象者は学生・教職員・研究者など多岐に渡り、主に学生の個別指導や履歴書のレビュー、研究者の助成金申請の作成、教員の採点とフィードバックなどができます。今後も大学でChatGPT Eduを活用した事例が登場するでしょう。

OpenAI、GPT-4o搭載の「ChatGPT Edu」を提供開始