DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

クロスモーダルとは?意味からAIでの活用事例まで詳しく解説

最終更新日:2024/11/07

最近WebやSNSで「クロスモーダル」という言葉をよく聞くものの、日常生活や仕事にどのように生かされているのかまではイメージできない人はいませんか?

今後、クロスモーダルを活かして作られた商品やサービスを自社でも開発する可能性がある場合、まずはその仕組みからしっかりと理解する必要があります。

この記事では、クロスモーダルの意味から活用事例まで詳しく解説します。

クロスモーダルとは?

人間には五感(視覚・聴覚・触覚・嗅覚・味覚)が備わっていて、以下の感覚器で外界の情報を得ながら生活をしています。

感覚器の種類 役割
視覚器 視覚情報を感知し視神経に伝える
聴覚器 聴覚情報を感知し内耳神経に伝える
触覚器 皮膚感覚情報を感知し感覚神経に伝える
嗅覚器 嗅覚情報を感知し嗅神経に伝える
味覚器 味覚情報を感知し舌神経を介して顔面神経、舌咽神経に伝える

クロスモーダルとは、ある感覚器で感知された感覚情報が他の感覚情報に干渉して感覚情報自体が変化することです。

例えば、視覚情報と聴覚情報が同時に感知された場合、視覚情報によって聴覚情報が変化するといった現象を指します。

感覚のコラボレーションとも言えるクロスモーダルについて研究を深めることで、技術開発やサービスへの展開が期待されているのですが、実験環境の構築の難しさからまだあまり進んでいないのが現状です。

クロスモーダルと混同されやすい言葉にはユニモーダル、マルチモーダルがあるのでそれぞれ解説します。

ユニモーダルとクロスモーダルの違い

クロスモーダルの意味

ユニモーダルとは五感のうち1つの感覚器だけを使って感覚情報を得ようとすることです。

例えば、視覚器を使って本を読んで視覚情報を得ようとすることは、ユニモーダルにあたります。

クロスモーダルのように、ある感覚器で感知された感覚情報が他の感覚情報に干渉しないので、感覚器で得た情報がそのまま神経に伝わります。

マルチモーダルとクロスモーダルの違い

クロスモーダルとマルチモーダルの違い

マルチモーダルとは五感のうち複数の感覚器を使って感覚情報を得ようとすることです。

例えば、視覚器で映像を見て、聴覚器でナレーションを聞きながら映画を楽しむ行為はマルチモーダルです。

映画を楽しむ時、視覚情報によって聴覚情報が変化したり、聴覚情報によって視覚情報が変化したりはしていません。

視覚情報と聴覚情報が同時に感知されてはいるものの、クロスモーダルとは異なり他の感覚情報に干渉して感覚情報が変化していないので、映画を楽しむという行為はマルチモーダルにあたるということです。

参考:情報通信研究機構研究報告「クロスモーダル情報処理研究とその応用」

参考:映像情報メディア学会誌「2. 視覚情報によって誘発されるクロスモーダル効果」

クロスモーダル効果の例

クロスモーダルが起こる事象であるクロスモーダル効果は普段どのような場面で起こりうるのでしょうか。ここでは、以下の4つをご紹介します。

  • 視覚が聴覚に影響を及ぼすクロスモーダルの効果の例
  • 視覚が触覚に影響を及ぼすクロスモーダルの効果の例
  • 視覚が味覚に影響を及ぼすクロスモーダル効果の例
  • 嗅覚が身体運動感覚に影響を及ぼすクロスモーダル効果の例

視覚が聴覚に影響を及ぼすクロスモーダル効果の例

視覚が聴覚に影響を及ぼすクロスモーダル効果の例は2つあります。

  • 腹話術効果:音の発生源を見たものに基づいて誤認してしまうこと
  • マガーク効果:思い込みや先入観で非合理的な判断をする現象

腹話術効果

腹話術効果とは、音の発生源を見たものに基づいて誤認してしまうことです。

例えば、腹話術師が人形を用いて話をする時、観客は人形の口が動いており、腹話術師の口は動いていないのを見ながら話を聞きます。すると、観客は人形が話をしているように錯覚します。

腹話術効果は映画・テレビ・アニメなど身近な広い分野で応用されています。

マガーク効果

マガーク効果とは、思い込みや先入観で非合理的な判断をしてしまう心理現象である認知バイアスの1つで、音声と一緒にその話の内容とは一致しない口の動きをしている映像を見ると、実際とは別の内容を話しているように錯覚する現象を指します。

例えば「カ」の音声を流しながら口の動きが「タ」に見える映像を見た場合一部の人は「カ」と聞こえますが「タ」と聞こえる人も出てきます。

マガーク効果は、例えば聴覚障がいや音声障がいを持つ人々のためのコミュニケーション支援ツールにおいて、音声合成技術と視覚的な表現を組み合わせてより効果的なコミュニケーションをするために用いられています。

視覚が触覚に影響を及ぼすクロスモーダル効果の例

視覚が触覚に影響を及ぼすクロスモーダル効果の例は3つあります。

  • 擬似触覚:実際に触れていないのに触れているように感じさせること
  • シャルパンティエ効果:同じ重さで体積の異なる2つのもの比較して、体積が大きい方を軽く感じる現象
  • コントラスト効果:あるものを知覚するときに、その前後に知覚したものの影響を受けること

疑似触覚

疑似触覚とは、実際には触れていないのに視覚・聴覚・触覚デバイスなどを使うことで人間に触れているように感じさせることです。

例えばVRの世界では、仮想空間内において、触覚フィードバック技術(ハプティクス技術)を使ってコントローラーに内臓されたモーターが振動し、物体に触れた時の感覚を再現してくれるのです。

疑似触覚はVR・AR・デジタルアート・ゲーム・医療訓練用のシミュレーション装置など、さまざまな形で応用されています。

シャルパンティエ効果

シャルパンティエ効果とは、同じ重さで体積の異なる2つのものを比較した時、体積が大きい方を軽く感じてしまう心理効果です。

例えば、人間は大きな物体と小さな物体を見ると大きな物体を重いと予想しますが、実際に持ってみると小さな物体の方が重い場合があります。これがシャルパンティエ効果です。

シャルパンティエ効果は商品のデザイン・マーケティング・広告などによく応用されます。

コントラスト効果

コントラスト効果とは、あるものを知覚する時その前後に知覚したものの影響を受けることを指します。

例えば、ある重そうな物体を見た後に本当に軽い物体を持ち上げるとその物体が実際より軽く感じることがありますが、これはコントラスト効果が働いているためです。

コントラスト効果はデザイン・マーケティング・エンターテインメント・リバビリテーションなど多くの分野で応用されています。

視覚が味覚に影響を及ぼすクロスモーダル効果の例

視覚が味覚に影響を及ぼすクロスモーダル効果の例には、食品の色・形・パッケージ・盛り付けなどがあります。

例えば、赤い飲み物は甘味を感じやすく、緑の飲み物は酸味を感じやすくなります。視覚が味覚に影響を及ぼすクロスモーダル効果は、食品や飲み物のマーケティングや広告に活用されています。

嗅覚が身体運動感覚に影響を及ぼすクロスモーダル効果の例

嗅覚が身体運動感覚に影響を及ぼすクロスモーダル効果の例には、2021年に国立研究開発法人情報通信研究機構が発表した、香りで映像のスピード感が変わるという実験結果があります。

例えば、人間はレモンの香りがする時は映像が遅く、バニラの香りがする時は映像が速く見えます。このような嗅覚刺激によるクロスモーダル効果は、これまで感情や記憶といった高次の脳機能への影響があるとされてきました。

しかし上記の実験では映像のスピード感のような低次の脳機能への影響もあることがわかったので、学術的な意義も大きいとされているのです。

この発見により、今後クロスモーダルを用いた技術がまた1歩進化すると考えられます。

参考:映像情報メディア学会誌「2. 視覚情報によって誘発されるクロスモーダル効果」

参考:国立研究開発法人情報通信研究機構「香りでスピード感が変わることを発見」

クロスモーダルの活用事例


クロスモーダルを用い、異なる感覚を組み合わせて新しい体験を生み出す技術がクロスモーダルデザインです。クロスモーダルデザインから生み出された新しい商品やサービスとして、以下の3つをご紹介します。

  • 疼痛緩和ができる音楽療法
  • ビールの美味しさを増幅させる音楽
  • VRの世界で物に触れるUnlimmitedHand

疼痛緩和ができる音楽療法

疼痛緩和とは痛みに対する緩和ケアのことで、重篤または命を脅かすような病気や病状を管理するのを目的として行われます。

疼痛緩和は通常痛み止め、手術などの手法で行われますが、補完療法の1つとして音楽療法があります。2023年にアメリカのジョンズ・ホプキンス大学では、音楽療法と鎮痛剤の併用で慢性痛患者の痛みが30%軽減されたと発表しました。これは、聴覚が触覚に影響を与えるクロスモーダル効果を利用した治療法です。

ジョンズ・ホプキンス大学では上記の結果を踏まえて、緩和医療プログラムを医師、高度な実践提供者、看護師、薬剤師、牧師、チャイルドライフの専門家、ソーシャルワーカーで構成されたチームで提供し、患者のQOL(生活の質)の向上を目指しています。

参考:ジョンズ・ホプキンス大学 音楽医学センター「緩和ケア医療とは?」

ビールの美味しさを増幅させる音楽

2022年に株式会社博報堂のプロジェクトチーム「Human X(ヒューマンクロス)」は、東京大学大学院情報理工学系研究科の鳴海拓志准教授と共同で、クロスモーダルを企業のブランド体験開発に活用する実験を始めました。

実験は「Human X Experiment(ヒューマンクロスエクスペリメント)」と名づけられ、第一弾実証実験として聴覚が味覚にどのような影響を及ぼすかを調べる研究のプロトタイプ、「ビールの美味しさを増幅させる音楽」の開発が行われました。

楽曲は、飲む前に期待を高めるのを目的とした「intro」から始まります。他にも、「クリーミー感を増幅する音楽」「炭酸感を強める音楽」「のどごし感を増幅する音楽」の合計4種類があります。なお、楽曲はSpotifyで配信され、誰でも自由に耳にすることができます。

身近な飲み物であるビールとクロスモーダルを用いて、ビールを飲む楽しさを高めた好事例だと言えます。

参考:博報堂「博報堂、クロスモーダル知覚(五感の相互作用)を活用しブランド体験を進化させる実験活動を開始─東京大学鳴海准教授と共同で[実験第1弾]ビールのおいしさを増幅させる音楽」

VRの世界で物に触れるUnlimitedHand

UnlimitedHandはVRゲームコントローラーで、自分のジェスチャーを認識してゲーム世界に反映させるだけではなく、ゲームの仮想現実の世界を自分の手で体感することができます。

視覚が触覚に影響を及ぼすクロスモーダル効果の例である、疑似触覚を用いたツールなのですが、具体的にはゲームからの信号で、本体から低、中周波の電気刺激を腕に流し、指や手首を動かす仕組みです。

UnlimitedHandが広まることで、ユーザーはゲームにおける体験の質をさらに高めることができます。

参考:UnlimitedHand公式ホームページ

クロスモーダルAIでできること

クロスモーダルAIとは、複数の異なるデータ形式(テキスト、画像、音声、動画、センサーデータなど)を組み合わせて理解や生成を行うAIのことで、クロスモーダルの本来の意味を発展させて名づけられたと考えると理解しやすいでしょう。

クロスモーダルとクロスモーダルAIの違いは以下の通りです。

項目 クロスモーダル クロスモーダルAI
情報収集 五感のうち複数の感覚器を用いて行う 複数の異なるデータ形式(テキスト、画像、音声、動画、センサーデータなど)で収集する
相互干渉 ある感覚器で感知された感覚情報が他の感覚情報に干渉して感覚情報が変化する あるデータ形式のデータ

が他のデータ形式のデータに影響を及ぼす(画像の内容がテキスト生成に影響を及ぼすなど)

上記の内容から、クロスモーダルAIでは次のようなことができるとわかります。

  • 画像を入力すると画像の内容を説明するテキストが生成できる
  • 動画を入力すると動画の中の重要なシーンを抽出したり、動画の内容を説明するテキストを生成できる
  • 音声をテキストに変換したり、音声をテキストに変換できる
  • 画像とテキスト両方を用いて検索することで、より精度の高い検索結果を表示できる

クロスモーダルAIの技術を用いると、今ある手持ちのデータでさまざまな新しいものを生成できることから、今後ビジネスやプライベートの場でさらにAIを活用できる場面が増えると予想されます。

まとめ

クロスモーダルとは、ある感覚器で感知された感覚情報が他の感覚情報に干渉して感覚情報自体が変化することですが、研究が進むにつれてAIも含めた人間のQOLを高める技術への応用が増えていくのが予想されます。

この記事も参考にして、ぜひクロスモーダルへの理解をさらに深めてみてください。

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Xもフォローください
@AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aiaismiley1345

メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら