GPT-4Vとは?できることからかかる料金まで詳しく解説
最終更新日:2025/01/30
ChatGPTが好きで仕事やプライベートでよく活用しているけれど、テキストだけではなく画像や音声も認識できればより使いやすくなると感じている人はいませんか?
画像は情報量が多く、文章で正確に内容を説明するには時間や手間がかかってしまうことから、直接見て把握してもらう方がよいと思う人も多いでしょう。
本記事ではそのような人におすすめのGPT-4Vについて、できることからかかる料金まで詳しく解説します。
ChatGPTについて詳しく知りたい方はこちらをご覧ください。
ChatGPTとは?使い方や始め方、日本語対応アプリでできることも紹介!
GPT-4Vとは?
GPT-4Vとは、2023年9月25日にOpenAI社が発表した新しいマルチモーダルモデルです。
GPT-4Vの「V」は「Vision」を表し、視覚的な情報処理能力が高まったという意味を持ちます。
具体的には、GPT-4Vは大規模言語モデル(LLM)としてのGPT-4の能力に加え、画像や音声など複数のモード(モーダル)を扱えるようになりました。
このことから、GPT-4Vは「マルチモーダルモデル」と呼ばれます。
文章生成能力や理解能力はGPT-4と同じですが、画像の内容を認識したりChatGPT内で音声インターフェースを使って会話ができたりします。
GPT-4Vはこの特性から、今までのChatGPTのモデルよりさらに幅広い分野での活躍が期待されています。
参考:OpenAI「GPT-4V(ision) system card」
GPT-4Vでできること
GPTー4Vでできることは以下の通りです。
項目 | 概要 |
テキストデータの読み込み | GPT-4oと同等の機能を持つ |
テキストの生成 | GPT-4oと同等の機能を持つ |
画像データの読み込み | ・画像は複数入力できる ・画像とテキストを交互に入力できる ・画像の中にあるテキストも理解できる |
音声データの読み込み | 音声データを認識させられる |
音声の生成 | 音声でChatGPTと会話が可能 |
対話型AIというとテキストでのやり取りをイメージしがちですが、GPTー4Vでは音声や画像も利用して対話ができるのが特徴的です。
関連記事:GPT-4oとは?
GPT-4VとGPT-4oの違い
GPTー4VとGPT-4oには次のような違いがあります。
項目 | GPT-4V | GPT-4o |
機能 | 画像・音声の認識、文章生成 | 文章生成 |
特徴 | テキストに加えて画像や音声の認識ができる | 文章の認識、生成に特化 |
マルチモーダル | 〇 | × |
画像認識 | 〇 | × |
画像生成 | ×(Dall・E3に直接依頼はできない) | 〇(Dall・E3に直接依頼して作成可能) |
音声認識 | 〇 | × |
音声生成 | 〇 | × |
GPTー4Vは画像や音声の認識が得意で、GPT-4oはテキストでのやり取りが得意であるといえます。
GPT-4Vの使い方
GPT-4Vの使い方を、PCとスマホの2つに分けてご紹介します。
PCの場合
PCで画像、音声をそれぞれ入力する手順は次の通りです。
画像
画像入力の手順は以下の通りです。
①トップページにアクセスすると、テキスト入力部分の左端にクリップマークがあるのでクリックする
画像出典:ChatGPT公式ホームページ
②添付したい画像のある場所をGoogle Drive、Microsoft One Drive、コンピュータの3つの中から1つ選択する
画像出典:ChatGPT公式ホームページ
③ファイルを選択できる窓が表示されるので選んで「開く」をクリックする
④アップロード完了
それほど難しい手順ではないため、画像を確認しながら進めてみましょう。
音声
音声入力の手順は以下の通りです。
①テキスト入力部分の右端に音声マークがあるのでクリックする
画像出典:ChatGPT公式ホームページ
②音声入力画面が表示されるので、画面下のマイクをオンにして話すとChatGPTと会話ができる
画像出典:ChatGPT公式ホームページ
③終了する時は×ボタンをクリックする
自分が話をして音声認識させる場合は、活舌よくゆっくり話すのがコツです。
もしうまく認識できなかった場合でも、何度か繰り返して試してみましょう。
スマホの場合
スマホで画像、音声をそれぞれ入力する手順は次の通りです。
画像
画像入力の手順は次の通りです。
①トップページにアクセスすると「+」ボタンがあるのでタップする
画像出典:ChatGPT公式ホームページ
②「画像のアップロード」「写真を撮影」「ファイルをアップロード」の中から1つ選択する
画像出典:ChatGPT公式ホームページ
③アップロードしたい画像を選んで完了
PCで画像を入力する場合と流れは似ているため、感覚的に操作できる人も多いと思います。
音声
音声入力の手順は以下の通りです。
①トップページにアクセスするとマイクボタンがあるのでタップする
②音声入力画面が表示されるので、音声を入力し終了したらタップして終了する
音声を認識しなかった場合、「音声が検出されませんでした」というエラーメッセージが表示されます。
GPT-4Vが使えない時の対処方法
ChatGPTはWebを通じたサービスのため、一度に多数のユーザーが使用するとサーバーに負荷がかかり、サービスが利用できなくなることがあります。
そのような場合、まずは運営しているOpenAIの公式ホームページや、公式SNSから情報収集して発信された内容に従います。
また、Xで「#ChatGPT」といったハッシュタグで検索すると、現在の状況を画像つきで発信してくれているユーザーのポストが確認できることもあります。
ただし自分だけがGPT-4Vが使えないとわかった場合は、以下の2つを試してみましょう。
いったんログアウトして再度ログインする
手順は以下の通りです。
①画面右上のメニューから「ログアウト」を選択する
画像出典:ChatGPT公式ホームページ
②開始画面に戻るので再度「ログイン」を選択する
画像出典:ChatGPT公式ホームページ
③本人確認方法をメールアドレス、Googleのアカウント、Microsoftアカウント、Appleアカウントの中から1つ選ぶ
画像出典:ChatGPT公式ホームページ
④ログイン完了
画像出典:ChatGPT公式ホームページ
再度GPT-4Vが使えるかどうか試してみてください。
ブラウザの翻訳機能をオフにする
画像出典:ChatGPT公式ホームページ
ブラウザの翻訳機能がオンになっていると、高確率でアプリケーションエラーが表示されます。
画像はMicrosoft edgeの場合ですが、URLが表示された部分の右側にある「aあ」をクリックすると翻訳機能の設定を変更できます。
画像出典:ChatGPT公式ホームページ
ChatGPTを使う場合は画像のように設定を「英語」にしておきましょう。
GPT-4Vを使うのにかかる料金
画像出典:ChatGPT「現在のプランをアップグレードする」
ChatGPTのプランには、個人ユーザー向けの無料プラン、Plusプラン、Proプラン、ビジネスユーザー向けのTeamプランがあります。
このうち、GPT-4Vを使えるのはPlusプラン、Proプラン、Teamプランを選んでいるユーザーです。
支払いを済ましたら、画面の「モデルを切り替える」のタブでGPT-4Vを選択するだけですぐに使用できます。
GPT-4Vの活用事例
GPT-4Vの活用事例をご紹介します。
絵にアドバイスをもらう
画像出典:ChatGPT公式ホームページ
GPT-4Vは画像とテキストを交互に入力できるため、それを活かすことで絵にアドバイスをしてもらえます。
例えば、以下のような手順でアドバイスをもらいます。
- 自分の描いた絵をGPT-4Vにアップロードする
- 画像のようなプロンプトを入力する
プロンプトで最初に「あなたは優秀な絵画の先生です」と入力したのは、ChatGPTに自己認識がなく、役割をはっきり意識させる必要があるためです。
GPT-4Vの「テキストと画像を両方認識できる」というメリットを最大限発揮できる活用事例であるといえます。
料理のレシピを作ってもらう
画像出典:ChatGPT公式ホームページ
GPT-4Vは画像を読み込んでテキストを生成できるため、それを活かすと料理の画像からレシピを作ってもらえます。
例として、以下のような手順でレシピを作ってもらいます。
- お雑煮の画像をGPT-4Vにアップロードする
- 画像のようなプロンプトを入力する
初心者の部分を「中級者」「上級者」などに変更すると、自分の料理レベルに合わせたレシピを出力してもらえます。
時間のない子育て世代の方などにおすすめの活用事例です。
GPT-4V同士で会話をしてもらう
GPT-4Vは音声認識と音声生成の両方ができるため、複数のデバイスを持っていればGPT-4Vの会話を楽しめます。
例として、両方の端末に次のような異なる役割のプロンプトを入力するのがポイントです。
役割 | プロンプト |
医師 | あなたは熟練した医師です。 患者からの質問に優しく答えてください。 |
患者 | あなたは体調に不安を感じている患者です。 医師に適切な質問をしてください。 |
役割とプロンプトの内容を変更すれば、さまざまな会話のパターンが楽しめます。
一人暮らしで何か生活音がほしいと思っているユーザーにおすすめの活用事例です。
数学の文章題を解いてもらう
画像出典:ChatGPT公式ホームページ
GPT-4Vは画像内に記載したテキストも読み込めるため、それを活かすとグラフや図などを用いた複雑な数学の文章題を解いてもらえます。
例えば、以下のような手順でアドバイスをもらいます。
- 数学の文章題が記載された画像をGPT-4Vにアップロードする
- 画像のようなプロンプトを入力する
画像内に数学的な図やグラフが含まれている場合、情報を「どう使うか」をプロンプトで明確に示すことが大切です。
数学を勉強していて、どのような解法があるのか知りたい人におすすめの活用事例です。
虫の名前を調べる
画像出典:ChatGPT公式ホームページ
GPT-4Vは画像とテキストを交互に入力できるため、それを活かすと家に侵入してきた虫が害虫か益虫かを判断してくれます。
例えば、クモは毒グモという言葉もあることから害虫だと思われがちですが、実はそのほとんどがゴキブリ・ハエ・蚊・ダニなどの害虫を食べてくれる益虫です。
ただしわずかながら毒を持つクモもいるため、以下の手順でGPT-4Vに確認すると安心です。
- クモの写真を撮影してGPT-4Vにアップロードする
- 画像のようなプロンプトでGPT-4Vに確認する
家の周りに樹木などがあり、虫に侵入されやすい場合におすすめの活用事例です。
マナーに合った服装かどうかを判断してもらう
画像出典:ChatGPT公式ホームページ
GPT-4Vは画像とテキストを交互に入力できるため、それを活かすとマナーに合った服装かどうかを判断してもらうことができます。
例えば、結婚式に参加するにはマナーに合った服装をする必要がありますが、事前に以下の手順でGPT-4Vに確認しておくと安心です。
- 結婚式で着る予定の洋服、靴、アクセサリーを一通り写真撮影する
- 画像のようなプロンプトでGPT-4Vに確認する
プロンプトで改善点があれば指摘してくれるように指示を出しているため、もしマナーに合っていないアイテムが含まれていた場合でも当日までに取り換えられます。
また、地域特有のマナーが気になる場合は、プロンプトを「日本での結婚式に適した服装かどうか、また地域特有のマナーに合っているかを教えてください。」と変更することで回答を得られます。
初めて結婚式に参加する人や、自分の育った地域とは異なる場所で結婚式に参加しなければならない人におすすめの活用事例です。
まとめ
GPT-4Vとは、2023年9月25日にOpenAI社が発表したマルチモーダルモデルで、大規模言語モデル(LLM)としてのGPT-4の能力に加え、画像や音声など複数のモード(モーダル)を扱えるようになりました。
画像を読み込んでテキストで回答する、音声を読み込んで音声で回答するなど、対話型AIの可能性を広げる機能がたくさんついているため、ビジネスシーンだけではなく生活の場でも役立ちます。
本記事も参考にして、ぜひGPT-4Vを積極的に活用してみてください。
ChatGPTについて詳しく知りたい方はこちらをご覧ください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら