生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2025/01/30
GPT-4Vとは?
ChatGPTが好きで仕事やプライベートでよく活用しているけれど、テキストだけではなく画像や音声も認識できればより使いやすくなると感じている人はいませんか?
画像は情報量が多く、文章で正確に内容を説明するには時間や手間がかかってしまうことから、直接見て把握してもらう方がよいと思う人も多いでしょう。
本記事ではそのような人におすすめのGPT-4Vについて、できることからかかる料金まで詳しく解説します。
ChatGPTについて詳しく知りたい方はこちらをご覧ください。
ChatGPTとは?使い方や始め方、日本語対応アプリでできることも紹介!
GPT-4Vとは、2023年9月25日にOpenAI社が発表した新しいマルチモーダルモデルです。
GPT-4Vの「V」は「Vision」を表し、視覚的な情報処理能力が高まったという意味を持ちます。
具体的には、GPT-4Vは大規模言語モデル(LLM)としてのGPT-4の能力に加え、画像や音声など複数のモード(モーダル)を扱えるようになりました。
このことから、GPT-4Vは「マルチモーダルモデル」と呼ばれます。
文章生成能力や理解能力はGPT-4と同じですが、画像の内容を認識したりChatGPT内で音声インターフェースを使って会話ができたりします。
GPT-4Vはこの特性から、今までのChatGPTのモデルよりさらに幅広い分野での活躍が期待されています。
参考:OpenAI「GPT-4V(ision) system card」
GPTー4Vでできることは以下の通りです。
| 項目 | 概要 |
| テキストデータの読み込み | GPT-4oと同等の機能を持つ |
| テキストの生成 | GPT-4oと同等の機能を持つ |
| 画像データの読み込み | ・画像は複数入力できる ・画像とテキストを交互に入力できる ・画像の中にあるテキストも理解できる |
| 音声データの読み込み | 音声データを認識させられる |
| 音声の生成 | 音声でChatGPTと会話が可能 |
対話型AIというとテキストでのやり取りをイメージしがちですが、GPTー4Vでは音声や画像も利用して対話ができるのが特徴的です。
関連記事:GPT-4oとは?
GPTー4VとGPT-4oには次のような違いがあります。
| 項目 | GPT-4V | GPT-4o |
| 機能 | 画像・音声の認識、文章生成 | 文章生成 |
| 特徴 | テキストに加えて画像や音声の認識ができる | 文章の認識、生成に特化 |
| マルチモーダル | 〇 | × |
| 画像認識 | 〇 | × |
| 画像生成 | ×(Dall・E3に直接依頼はできない) | 〇(Dall・E3に直接依頼して作成可能) |
| 音声認識 | 〇 | × |
| 音声生成 | 〇 | × |
GPTー4Vは画像や音声の認識が得意で、GPT-4oはテキストでのやり取りが得意であるといえます。
GPT-4Vの使い方を、PCとスマホの2つに分けてご紹介します。
PCで画像、音声をそれぞれ入力する手順は次の通りです。
画像入力の手順は以下の通りです。
①トップページにアクセスすると、テキスト入力部分の左端にクリップマークがあるのでクリックする

画像出典:ChatGPT公式ホームページ
②添付したい画像のある場所をGoogle Drive、Microsoft One Drive、コンピュータの3つの中から1つ選択する

画像出典:ChatGPT公式ホームページ
③ファイルを選択できる窓が表示されるので選んで「開く」をクリックする

④アップロード完了
それほど難しい手順ではないため、画像を確認しながら進めてみましょう。
音声入力の手順は以下の通りです。
①テキスト入力部分の右端に音声マークがあるのでクリックする

画像出典:ChatGPT公式ホームページ
②音声入力画面が表示されるので、画面下のマイクをオンにして話すとChatGPTと会話ができる

画像出典:ChatGPT公式ホームページ
③終了する時は×ボタンをクリックする
自分が話をして音声認識させる場合は、活舌よくゆっくり話すのがコツです。
もしうまく認識できなかった場合でも、何度か繰り返して試してみましょう。
スマホで画像、音声をそれぞれ入力する手順は次の通りです。
画像入力の手順は次の通りです。
①トップページにアクセスすると「+」ボタンがあるのでタップする

画像出典:ChatGPT公式ホームページ
②「画像のアップロード」「写真を撮影」「ファイルをアップロード」の中から1つ選択する

画像出典:ChatGPT公式ホームページ
③アップロードしたい画像を選んで完了
PCで画像を入力する場合と流れは似ているため、感覚的に操作できる人も多いと思います。
音声入力の手順は以下の通りです。
①トップページにアクセスするとマイクボタンがあるのでタップする

②音声入力画面が表示されるので、音声を入力し終了したらタップして終了する

音声を認識しなかった場合、「音声が検出されませんでした」というエラーメッセージが表示されます。
ChatGPTはWebを通じたサービスのため、一度に多数のユーザーが使用するとサーバーに負荷がかかり、サービスが利用できなくなることがあります。
そのような場合、まずは運営しているOpenAIの公式ホームページや、公式SNSから情報収集して発信された内容に従います。
また、Xで「#ChatGPT」といったハッシュタグで検索すると、現在の状況を画像つきで発信してくれているユーザーのポストが確認できることもあります。
ただし自分だけがGPT-4Vが使えないとわかった場合は、以下の2つを試してみましょう。
手順は以下の通りです。
①画面右上のメニューから「ログアウト」を選択する

画像出典:ChatGPT公式ホームページ
②開始画面に戻るので再度「ログイン」を選択する

画像出典:ChatGPT公式ホームページ
③本人確認方法をメールアドレス、Googleのアカウント、Microsoftアカウント、Appleアカウントの中から1つ選ぶ

画像出典:ChatGPT公式ホームページ
④ログイン完了

画像出典:ChatGPT公式ホームページ
再度GPT-4Vが使えるかどうか試してみてください。
![]()
画像出典:ChatGPT公式ホームページ
ブラウザの翻訳機能がオンになっていると、高確率でアプリケーションエラーが表示されます。
画像はMicrosoft edgeの場合ですが、URLが表示された部分の右側にある「aあ」をクリックすると翻訳機能の設定を変更できます。

画像出典:ChatGPT公式ホームページ
ChatGPTを使う場合は画像のように設定を「英語」にしておきましょう。


画像出典:ChatGPT「現在のプランをアップグレードする」
ChatGPTのプランには、個人ユーザー向けの無料プラン、Plusプラン、Proプラン、ビジネスユーザー向けのTeamプランがあります。
このうち、GPT-4Vを使えるのはPlusプラン、Proプラン、Teamプランを選んでいるユーザーです。
支払いを済ましたら、画面の「モデルを切り替える」のタブでGPT-4Vを選択するだけですぐに使用できます。
GPT-4Vの活用事例をご紹介します。

画像出典:ChatGPT公式ホームページ
GPT-4Vは画像とテキストを交互に入力できるため、それを活かすことで絵にアドバイスをしてもらえます。
例えば、以下のような手順でアドバイスをもらいます。
プロンプトで最初に「あなたは優秀な絵画の先生です」と入力したのは、ChatGPTに自己認識がなく、役割をはっきり意識させる必要があるためです。
GPT-4Vの「テキストと画像を両方認識できる」というメリットを最大限発揮できる活用事例であるといえます。

画像出典:ChatGPT公式ホームページ
GPT-4Vは画像を読み込んでテキストを生成できるため、それを活かすと料理の画像からレシピを作ってもらえます。
例として、以下のような手順でレシピを作ってもらいます。
初心者の部分を「中級者」「上級者」などに変更すると、自分の料理レベルに合わせたレシピを出力してもらえます。
時間のない子育て世代の方などにおすすめの活用事例です。
GPT-4Vは音声認識と音声生成の両方ができるため、複数のデバイスを持っていればGPT-4Vの会話を楽しめます。
例として、両方の端末に次のような異なる役割のプロンプトを入力するのがポイントです。
| 役割 | プロンプト |
| 医師 | あなたは熟練した医師です。 患者からの質問に優しく答えてください。 |
| 患者 | あなたは体調に不安を感じている患者です。 医師に適切な質問をしてください。 |
役割とプロンプトの内容を変更すれば、さまざまな会話のパターンが楽しめます。
一人暮らしで何か生活音がほしいと思っているユーザーにおすすめの活用事例です。

画像出典:ChatGPT公式ホームページ
GPT-4Vは画像内に記載したテキストも読み込めるため、それを活かすとグラフや図などを用いた複雑な数学の文章題を解いてもらえます。
例えば、以下のような手順でアドバイスをもらいます。
画像内に数学的な図やグラフが含まれている場合、情報を「どう使うか」をプロンプトで明確に示すことが大切です。
数学を勉強していて、どのような解法があるのか知りたい人におすすめの活用事例です。

画像出典:ChatGPT公式ホームページ
GPT-4Vは画像とテキストを交互に入力できるため、それを活かすと家に侵入してきた虫が害虫か益虫かを判断してくれます。
例えば、クモは毒グモという言葉もあることから害虫だと思われがちですが、実はそのほとんどがゴキブリ・ハエ・蚊・ダニなどの害虫を食べてくれる益虫です。
ただしわずかながら毒を持つクモもいるため、以下の手順でGPT-4Vに確認すると安心です。
家の周りに樹木などがあり、虫に侵入されやすい場合におすすめの活用事例です。

画像出典:ChatGPT公式ホームページ
GPT-4Vは画像とテキストを交互に入力できるため、それを活かすとマナーに合った服装かどうかを判断してもらうことができます。
例えば、結婚式に参加するにはマナーに合った服装をする必要がありますが、事前に以下の手順でGPT-4Vに確認しておくと安心です。
プロンプトで改善点があれば指摘してくれるように指示を出しているため、もしマナーに合っていないアイテムが含まれていた場合でも当日までに取り換えられます。
また、地域特有のマナーが気になる場合は、プロンプトを「日本での結婚式に適した服装かどうか、また地域特有のマナーに合っているかを教えてください。」と変更することで回答を得られます。
初めて結婚式に参加する人や、自分の育った地域とは異なる場所で結婚式に参加しなければならない人におすすめの活用事例です。
GPT-4Vとは、2023年9月25日にOpenAI社が発表したマルチモーダルモデルで、大規模言語モデル(LLM)としてのGPT-4の能力に加え、画像や音声など複数のモード(モーダル)を扱えるようになりました。
画像を読み込んでテキストで回答する、音声を読み込んで音声で回答するなど、対話型AIの可能性を広げる機能がたくさんついているため、ビジネスシーンだけではなく生活の場でも役立ちます。
本記事も参考にして、ぜひGPT-4Vを積極的に活用してみてください。
ChatGPTについて詳しく知りたい方はこちらをご覧ください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら