GPT-4Vとは？できることからかかる料金まで詳しく解説

最終更新日:2025/01/30

GPT-4Vとは？

ChatGPTが好きで仕事やプライベートでよく活用しているけれど、テキストだけではなく画像や音声も認識できればより使いやすくなると感じている人はいませんか？

画像は情報量が多く、文章で正確に内容を説明するには時間や手間がかかってしまうことから、直接見て把握してもらう方がよいと思う人も多いでしょう。

本記事ではそのような人におすすめのGPT-4Vについて、できることからかかる料金まで詳しく解説します。

ChatGPTについて詳しく知りたい方はこちらをご覧ください。

ChatGPTとは？使い方や始め方､日本語対応アプリでできることも紹介！

GPT-4Vとは？

GPT-4Vとは、2023年9月25日にOpenAI社が発表した新しいマルチモーダルモデルです。

GPT-4Vの「V」は「Vision」を表し、視覚的な情報処理能力が高まったという意味を持ちます。

具体的には、GPT-4Vは大規模言語モデル（LLM）としてのGPT-4の能力に加え、画像や音声など複数のモード（モーダル）を扱えるようになりました。

このことから、GPT-4Vは「マルチモーダルモデル」と呼ばれます。

文章生成能力や理解能力はGPT-4と同じですが、画像の内容を認識したりChatGPT内で音声インターフェースを使って会話ができたりします。

GPT-4Vはこの特性から、今までのChatGPTのモデルよりさらに幅広い分野での活躍が期待されています。

参考：OpenAI「GPT-4V(ision) system card」

GPT-4Vでできること

GPTｰ4Vでできることは以下の通りです。

項目	概要
テキストデータの読み込み	GPT-4oと同等の機能を持つ
テキストの生成	GPT-4oと同等の機能を持つ
画像データの読み込み	・画像は複数入力できる・画像とテキストを交互に入力できる・画像の中にあるテキストも理解できる
音声データの読み込み	音声データを認識させられる
音声の生成	音声でChatGPTと会話が可能

対話型AIというとテキストでのやり取りをイメージしがちですが、GPTｰ4Vでは音声や画像も利用して対話ができるのが特徴的です。

GPT-4VとGPT-4oの違い

GPTｰ4VとGPT-4oには次のような違いがあります。

項目	GPT-4V	GPT-4o
機能	画像・音声の認識、文章生成	文章生成
特徴	テキストに加えて画像や音声の認識ができる	文章の認識、生成に特化
マルチモーダル	〇	×
画像認識	〇	×
画像生成	×（Dall･E3に直接依頼はできない）	〇（Dall･E3に直接依頼して作成可能）
音声認識	〇	×
音声生成	〇	×

GPTｰ4Vは画像や音声の認識が得意で、GPT-4oはテキストでのやり取りが得意であるといえます。

GPT-4Vの使い方

GPT-4Vの使い方を、PCとスマホの2つに分けてご紹介します。

PCの場合

PCで画像、音声をそれぞれ入力する手順は次の通りです。

画像

画像入力の手順は以下の通りです。

①トップページにアクセスすると、テキスト入力部分の左端にクリップマークがあるのでクリックする

画像出典：ChatGPT公式ホームページ

②添付したい画像のある場所をGoogle Drive、Microsoft One Drive、コンピュータの3つの中から1つ選択する

画像出典：ChatGPT公式ホームページ

③ファイルを選択できる窓が表示されるので選んで「開く」をクリックする

④アップロード完了

それほど難しい手順ではないため、画像を確認しながら進めてみましょう。

音声

音声入力の手順は以下の通りです。

①テキスト入力部分の右端に音声マークがあるのでクリックする

画像出典：ChatGPT公式ホームページ

②音声入力画面が表示されるので、画面下のマイクをオンにして話すとChatGPTと会話ができる

画像出典：ChatGPT公式ホームページ

③終了する時は×ボタンをクリックする

自分が話をして音声認識させる場合は、活舌よくゆっくり話すのがコツです。

もしうまく認識できなかった場合でも、何度か繰り返して試してみましょう。

スマホの場合

スマホで画像、音声をそれぞれ入力する手順は次の通りです。

画像

画像入力の手順は次の通りです。

①トップページにアクセスすると「＋」ボタンがあるのでタップする

画像出典：ChatGPT公式ホームページ

②「画像のアップロード」「写真を撮影」「ファイルをアップロード」の中から1つ選択する

画像出典：ChatGPT公式ホームページ

③アップロードしたい画像を選んで完了

PCで画像を入力する場合と流れは似ているため、感覚的に操作できる人も多いと思います。

音声

音声入力の手順は以下の通りです。

①トップページにアクセスするとマイクボタンがあるのでタップする

②音声入力画面が表示されるので、音声を入力し終了したらタップして終了する

音声を認識しなかった場合、「音声が検出されませんでした」というエラーメッセージが表示されます。

GPT-4Vが使えない時の対処方法

ChatGPTはWebを通じたサービスのため、一度に多数のユーザーが使用するとサーバーに負荷がかかり、サービスが利用できなくなることがあります。

そのような場合、まずは運営しているOpenAIの公式ホームページや、公式SNSから情報収集して発信された内容に従います。

また、Xで「#ChatGPT」といったハッシュタグで検索すると、現在の状況を画像つきで発信してくれているユーザーのポストが確認できることもあります。

ただし自分だけがGPT-4Vが使えないとわかった場合は、以下の2つを試してみましょう。

いったんログアウトして再度ログインする

手順は以下の通りです。

①画面右上のメニューから「ログアウト」を選択する

画像出典：ChatGPT公式ホームページ

②開始画面に戻るので再度「ログイン」を選択する

画像出典：ChatGPT公式ホームページ

③本人確認方法をメールアドレス、Googleのアカウント、Microsoftアカウント、Appleアカウントの中から1つ選ぶ

画像出典：ChatGPT公式ホームページ

④ログイン完了

画像出典：ChatGPT公式ホームページ

再度GPT-4Vが使えるかどうか試してみてください。

ブラウザの翻訳機能をオフにする

画像出典：ChatGPT公式ホームページ

ブラウザの翻訳機能がオンになっていると、高確率でアプリケーションエラーが表示されます。

画像はMicrosoft edgeの場合ですが、URLが表示された部分の右側にある「aあ」をクリックすると翻訳機能の設定を変更できます。

画像出典：ChatGPT公式ホームページ

ChatGPTを使う場合は画像のように設定を「英語」にしておきましょう。

GPT-4Vを使うのにかかる料金

画像出典：ChatGPT「現在のプランをアップグレードする」

ChatGPTのプランには、個人ユーザー向けの無料プラン、Plusプラン、Proプラン、ビジネスユーザー向けのTeamプランがあります。

このうち、GPT-4Vを使えるのはPlusプラン、Proプラン、Teamプランを選んでいるユーザーです。

支払いを済ましたら、画面の「モデルを切り替える」のタブでGPT-4Vを選択するだけですぐに使用できます。

GPT-4Vの活用事例

GPT-4Vの活用事例をご紹介します。

絵にアドバイスをもらう

画像出典：ChatGPT公式ホームページ

GPT-4Vは画像とテキストを交互に入力できるため、それを活かすことで絵にアドバイスをしてもらえます。

例えば、以下のような手順でアドバイスをもらいます。

自分の描いた絵をGPT-4Vにアップロードする
画像のようなプロンプトを入力する

プロンプトで最初に「あなたは優秀な絵画の先生です」と入力したのは、ChatGPTに自己認識がなく、役割をはっきり意識させる必要があるためです。

GPT-4Vの「テキストと画像を両方認識できる」というメリットを最大限発揮できる活用事例であるといえます。

料理のレシピを作ってもらう

画像出典：ChatGPT公式ホームページ

GPT-4Vは画像を読み込んでテキストを生成できるため、それを活かすと料理の画像からレシピを作ってもらえます。

例として、以下のような手順でレシピを作ってもらいます。

お雑煮の画像をGPT-4Vにアップロードする
画像のようなプロンプトを入力する

初心者の部分を「中級者」「上級者」などに変更すると、自分の料理レベルに合わせたレシピを出力してもらえます。

時間のない子育て世代の方などにおすすめの活用事例です。

GPT-4V同士で会話をしてもらう

GPT-4Vは音声認識と音声生成の両方ができるため、複数のデバイスを持っていればGPT-4Vの会話を楽しめます。

例として、両方の端末に次のような異なる役割のプロンプトを入力するのがポイントです。

役割	プロンプト
医師	あなたは熟練した医師です。患者からの質問に優しく答えてください。
患者	あなたは体調に不安を感じている患者です。医師に適切な質問をしてください。