DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

GPT-4Vとは?できることからかかる料金まで詳しく解説

最終更新日:2025/01/30

ChatGPTが好きで仕事やプライベートでよく活用しているけれど、テキストだけではなく画像や音声も認識できればより使いやすくなると感じている人はいませんか?

画像は情報量が多く、文章で正確に内容を説明するには時間や手間がかかってしまうことから、直接見て把握してもらう方がよいと思う人も多いでしょう。

本記事ではそのような人におすすめのGPT-4Vについて、できることからかかる料金まで詳しく解説します。

ChatGPTについて詳しく知りたい方はこちらをご覧ください。

ChatGPTとは?使い方や始め方、日本語対応アプリでできることも紹介!

GPT-4Vとは?

GPT-4Vとは、2023年9月25日にOpenAI社が発表した新しいマルチモーダルモデルです。

GPT-4Vの「V」は「Vision」を表し、視覚的な情報処理能力が高まったという意味を持ちます。

具体的には、GPT-4Vは大規模言語モデル(LLM)としてのGPT-4の能力に加え、画像や音声など複数のモード(モーダル)を扱えるようになりました。

このことから、GPT-4Vは「マルチモーダルモデル」と呼ばれます。

文章生成能力や理解能力はGPT-4と同じですが、画像の内容を認識したりChatGPT内で音声インターフェースを使って会話ができたりします。

GPT-4Vはこの特性から、今までのChatGPTのモデルよりさらに幅広い分野での活躍が期待されています。

参考:OpenAI「GPT-4V(ision) system card」

GPT-4Vでできること

GPTー4Vでできることは以下の通りです。

項目 概要
テキストデータの読み込み GPT-4oと同等の機能を持つ
テキストの生成 GPT-4oと同等の機能を持つ
画像データの読み込み ・画像は複数入力できる
・画像とテキストを交互に入力できる
・画像の中にあるテキストも理解できる
音声データの読み込み 音声データを認識させられる
音声の生成 音声でChatGPTと会話が可能

対話型AIというとテキストでのやり取りをイメージしがちですが、GPTー4Vでは音声や画像も利用して対話ができるのが特徴的です。

関連記事:GPT-4oとは?

GPT-4VとGPT-4oの違い

GPTー4VとGPT-4oには次のような違いがあります。

項目 GPT-4V GPT-4o
機能 画像・音声の認識、文章生成 文章生成
特徴 テキストに加えて画像や音声の認識ができる 文章の認識、生成に特化
マルチモーダル ×
画像認識 ×
画像生成 ×(Dall・E3に直接依頼はできない) 〇(Dall・E3に直接依頼して作成可能)
音声認識 ×
音声生成 ×

GPTー4Vは画像や音声の認識が得意で、GPT-4oはテキストでのやり取りが得意であるといえます。

GPT-4Vの使い方

GPT-4Vの使い方を、PCとスマホの2つに分けてご紹介します。

PCの場合

PCで画像、音声をそれぞれ入力する手順は次の通りです。

画像

画像入力の手順は以下の通りです。

①トップページにアクセスすると、テキスト入力部分の左端にクリップマークがあるのでクリックする

画像出典:ChatGPT公式ホームページ

②添付したい画像のある場所をGoogle Drive、Microsoft One Drive、コンピュータの3つの中から1つ選択する

画像出典:ChatGPT公式ホームページ

③ファイルを選択できる窓が表示されるので選んで「開く」をクリックする

④アップロード完了

それほど難しい手順ではないため、画像を確認しながら進めてみましょう。

音声

音声入力の手順は以下の通りです。

①テキスト入力部分の右端に音声マークがあるのでクリックする

画像出典:ChatGPT公式ホームページ

②音声入力画面が表示されるので、画面下のマイクをオンにして話すとChatGPTと会話ができる

画像出典:ChatGPT公式ホームページ

③終了する時は×ボタンをクリックする

自分が話をして音声認識させる場合は、活舌よくゆっくり話すのがコツです。

もしうまく認識できなかった場合でも、何度か繰り返して試してみましょう。

スマホの場合

スマホで画像、音声をそれぞれ入力する手順は次の通りです。

画像

画像入力の手順は次の通りです。

①トップページにアクセスすると「+」ボタンがあるのでタップする

画像出典:ChatGPT公式ホームページ

②「画像のアップロード」「写真を撮影」「ファイルをアップロード」の中から1つ選択する

画像出典:ChatGPT公式ホームページ

③アップロードしたい画像を選んで完了

PCで画像を入力する場合と流れは似ているため、感覚的に操作できる人も多いと思います。

音声

音声入力の手順は以下の通りです。

①トップページにアクセスするとマイクボタンがあるのでタップする

②音声入力画面が表示されるので、音声を入力し終了したらタップして終了する

音声を認識しなかった場合、「音声が検出されませんでした」というエラーメッセージが表示されます。

GPT-4Vが使えない時の対処方法

ChatGPTはWebを通じたサービスのため、一度に多数のユーザーが使用するとサーバーに負荷がかかり、サービスが利用できなくなることがあります。

そのような場合、まずは運営しているOpenAIの公式ホームページや、公式SNSから情報収集して発信された内容に従います。

また、Xで「#ChatGPT」といったハッシュタグで検索すると、現在の状況を画像つきで発信してくれているユーザーのポストが確認できることもあります。

ただし自分だけがGPT-4Vが使えないとわかった場合は、以下の2つを試してみましょう。

いったんログアウトして再度ログインする

手順は以下の通りです。

①画面右上のメニューから「ログアウト」を選択する

画像出典:ChatGPT公式ホームページ

②開始画面に戻るので再度「ログイン」を選択する

画像出典:ChatGPT公式ホームページ

③本人確認方法をメールアドレス、Googleのアカウント、Microsoftアカウント、Appleアカウントの中から1つ選ぶ

画像出典:ChatGPT公式ホームページ

④ログイン完了

画像出典:ChatGPT公式ホームページ

再度GPT-4Vが使えるかどうか試してみてください。

ブラウザの翻訳機能をオフにする

画像出典:ChatGPT公式ホームページ

ブラウザの翻訳機能がオンになっていると、高確率でアプリケーションエラーが表示されます。

画像はMicrosoft edgeの場合ですが、URLが表示された部分の右側にある「aあ」をクリックすると翻訳機能の設定を変更できます。

画像出典:ChatGPT公式ホームページ

ChatGPTを使う場合は画像のように設定を「英語」にしておきましょう。

GPT-4Vを使うのにかかる料金

画像出典:ChatGPT「現在のプランをアップグレードする」

ChatGPTのプランには、個人ユーザー向けの無料プラン、Plusプラン、Proプラン、ビジネスユーザー向けのTeamプランがあります。

このうち、GPT-4Vを使えるのはPlusプラン、Proプラン、Teamプランを選んでいるユーザーです。

支払いを済ましたら、画面の「モデルを切り替える」のタブでGPT-4Vを選択するだけですぐに使用できます。

GPT-4Vの活用事例

GPT-4Vの活用事例をご紹介します。

絵にアドバイスをもらう

画像出典:ChatGPT公式ホームページ

GPT-4Vは画像とテキストを交互に入力できるため、それを活かすことで絵にアドバイスをしてもらえます。

例えば、以下のような手順でアドバイスをもらいます。

  1. 自分の描いた絵をGPT-4Vにアップロードする
  2. 画像のようなプロンプトを入力する

プロンプトで最初に「あなたは優秀な絵画の先生です」と入力したのは、ChatGPTに自己認識がなく、役割をはっきり意識させる必要があるためです。

GPT-4Vの「テキストと画像を両方認識できる」というメリットを最大限発揮できる活用事例であるといえます。

料理のレシピを作ってもらう

画像出典:ChatGPT公式ホームページ

GPT-4Vは画像を読み込んでテキストを生成できるため、それを活かすと料理の画像からレシピを作ってもらえます。

例として、以下のような手順でレシピを作ってもらいます。

  1. お雑煮の画像をGPT-4Vにアップロードする
  2. 画像のようなプロンプトを入力する

初心者の部分を「中級者」「上級者」などに変更すると、自分の料理レベルに合わせたレシピを出力してもらえます。

時間のない子育て世代の方などにおすすめの活用事例です。

GPT-4V同士で会話をしてもらう

GPT-4Vは音声認識と音声生成の両方ができるため、複数のデバイスを持っていればGPT-4Vの会話を楽しめます。

例として、両方の端末に次のような異なる役割のプロンプトを入力するのがポイントです。

役割 プロンプト
医師 あなたは熟練した医師です。
患者からの質問に優しく答えてください。
患者 あなたは体調に不安を感じている患者です。
医師に適切な質問をしてください。

役割とプロンプトの内容を変更すれば、さまざまな会話のパターンが楽しめます。

一人暮らしで何か生活音がほしいと思っているユーザーにおすすめの活用事例です。

数学の文章題を解いてもらう

画像出典:ChatGPT公式ホームページ

GPT-4Vは画像内に記載したテキストも読み込めるため、それを活かすとグラフや図などを用いた複雑な数学の文章題を解いてもらえます。

例えば、以下のような手順でアドバイスをもらいます。

  1. 数学の文章題が記載された画像をGPT-4Vにアップロードする
  2. 画像のようなプロンプトを入力する

画像内に数学的な図やグラフが含まれている場合、情報を「どう使うか」をプロンプトで明確に示すことが大切です。

数学を勉強していて、どのような解法があるのか知りたい人におすすめの活用事例です。

虫の名前を調べる

画像出典:ChatGPT公式ホームページ

GPT-4Vは画像とテキストを交互に入力できるため、それを活かすと家に侵入してきた虫が害虫か益虫かを判断してくれます。

例えば、クモは毒グモという言葉もあることから害虫だと思われがちですが、実はそのほとんどがゴキブリ・ハエ・蚊・ダニなどの害虫を食べてくれる益虫です。

ただしわずかながら毒を持つクモもいるため、以下の手順でGPT-4Vに確認すると安心です。

  1. クモの写真を撮影してGPT-4Vにアップロードする
  2. 画像のようなプロンプトでGPT-4Vに確認する

家の周りに樹木などがあり、虫に侵入されやすい場合におすすめの活用事例です。

マナーに合った服装かどうかを判断してもらう

画像出典:ChatGPT公式ホームページ

GPT-4Vは画像とテキストを交互に入力できるため、それを活かすとマナーに合った服装かどうかを判断してもらうことができます。

例えば、結婚式に参加するにはマナーに合った服装をする必要がありますが、事前に以下の手順でGPT-4Vに確認しておくと安心です。

  1. 結婚式で着る予定の洋服、靴、アクセサリーを一通り写真撮影する
  2. 画像のようなプロンプトでGPT-4Vに確認する

プロンプトで改善点があれば指摘してくれるように指示を出しているため、もしマナーに合っていないアイテムが含まれていた場合でも当日までに取り換えられます。

また、地域特有のマナーが気になる場合は、プロンプトを「日本での結婚式に適した服装かどうか、また地域特有のマナーに合っているかを教えてください。」と変更することで回答を得られます。

初めて結婚式に参加する人や、自分の育った地域とは異なる場所で結婚式に参加しなければならない人におすすめの活用事例です。

まとめ

GPT-4Vとは、2023年9月25日にOpenAI社が発表したマルチモーダルモデルで、大規模言語モデル(LLM)としてのGPT-4の能力に加え、画像や音声など複数のモード(モーダル)を扱えるようになりました。

画像を読み込んでテキストで回答する、音声を読み込んで音声で回答するなど、対話型AIの可能性を広げる機能がたくさんついているため、ビジネスシーンだけではなく生活の場でも役立ちます。

本記事も参考にして、ぜひGPT-4Vを積極的に活用してみてください。

ChatGPTについて詳しく知りたい方はこちらをご覧ください。

ChatGPTとは?使い方や始め方、日本語対応アプリでできることも紹介!

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Xもフォローください
@AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aiaismiley1345

メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら