生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2024/11/07
クロスモーダルとは?
最近WebやSNSで「クロスモーダル」という言葉をよく聞くものの、日常生活や仕事にどのように生かされているのかまではイメージできない人はいませんか?
今後、クロスモーダルを活かして作られた商品やサービスを自社でも開発する可能性がある場合、まずはその仕組みからしっかりと理解する必要があります。
この記事では、クロスモーダルの意味から活用事例まで詳しく解説します。

人間には五感(視覚・聴覚・触覚・嗅覚・味覚)が備わっていて、以下の感覚器で外界の情報を得ながら生活をしています。
| 感覚器の種類 | 役割 |
| 視覚器 | 視覚情報を感知し視神経に伝える |
| 聴覚器 | 聴覚情報を感知し内耳神経に伝える |
| 触覚器 | 皮膚感覚情報を感知し感覚神経に伝える |
| 嗅覚器 | 嗅覚情報を感知し嗅神経に伝える |
| 味覚器 | 味覚情報を感知し舌神経を介して顔面神経、舌咽神経に伝える |
クロスモーダルとは、ある感覚器で感知された感覚情報が他の感覚情報に干渉して感覚情報自体が変化することです。
例えば、視覚情報と聴覚情報が同時に感知された場合、視覚情報によって聴覚情報が変化するといった現象を指します。
感覚のコラボレーションとも言えるクロスモーダルについて研究を深めることで、技術開発やサービスへの展開が期待されているのですが、実験環境の構築の難しさからまだあまり進んでいないのが現状です。
クロスモーダルと混同されやすい言葉にはユニモーダル、マルチモーダルがあるのでそれぞれ解説します。

ユニモーダルとは五感のうち1つの感覚器だけを使って感覚情報を得ようとすることです。
例えば、視覚器を使って本を読んで視覚情報を得ようとすることは、ユニモーダルにあたります。
クロスモーダルのように、ある感覚器で感知された感覚情報が他の感覚情報に干渉しないので、感覚器で得た情報がそのまま神経に伝わります。

マルチモーダルとは五感のうち複数の感覚器を使って感覚情報を得ようとすることです。
例えば、視覚器で映像を見て、聴覚器でナレーションを聞きながら映画を楽しむ行為はマルチモーダルです。
映画を楽しむ時、視覚情報によって聴覚情報が変化したり、聴覚情報によって視覚情報が変化したりはしていません。
視覚情報と聴覚情報が同時に感知されてはいるものの、クロスモーダルとは異なり他の感覚情報に干渉して感覚情報が変化していないので、映画を楽しむという行為はマルチモーダルにあたるということです。
参考:情報通信研究機構研究報告「クロスモーダル情報処理研究とその応用」
参考:映像情報メディア学会誌「2. 視覚情報によって誘発されるクロスモーダル効果」

クロスモーダルが起こる事象であるクロスモーダル効果は普段どのような場面で起こりうるのでしょうか。ここでは、以下の4つをご紹介します。
視覚が聴覚に影響を及ぼすクロスモーダル効果の例は2つあります。
腹話術効果とは、音の発生源を見たものに基づいて誤認してしまうことです。
例えば、腹話術師が人形を用いて話をする時、観客は人形の口が動いており、腹話術師の口は動いていないのを見ながら話を聞きます。すると、観客は人形が話をしているように錯覚します。
腹話術効果は映画・テレビ・アニメなど身近な広い分野で応用されています。
マガーク効果とは、思い込みや先入観で非合理的な判断をしてしまう心理現象である認知バイアスの1つで、音声と一緒にその話の内容とは一致しない口の動きをしている映像を見ると、実際とは別の内容を話しているように錯覚する現象を指します。
例えば「カ」の音声を流しながら口の動きが「タ」に見える映像を見た場合一部の人は「カ」と聞こえますが「タ」と聞こえる人も出てきます。
マガーク効果は、例えば聴覚障がいや音声障がいを持つ人々のためのコミュニケーション支援ツールにおいて、音声合成技術と視覚的な表現を組み合わせてより効果的なコミュニケーションをするために用いられています。
視覚が触覚に影響を及ぼすクロスモーダル効果の例は3つあります。
疑似触覚とは、実際には触れていないのに視覚・聴覚・触覚デバイスなどを使うことで人間に触れているように感じさせることです。
例えばVRの世界では、仮想空間内において、触覚フィードバック技術(ハプティクス技術)を使ってコントローラーに内臓されたモーターが振動し、物体に触れた時の感覚を再現してくれるのです。
疑似触覚はVR・AR・デジタルアート・ゲーム・医療訓練用のシミュレーション装置など、さまざまな形で応用されています。
シャルパンティエ効果とは、同じ重さで体積の異なる2つのものを比較した時、体積が大きい方を軽く感じてしまう心理効果です。
例えば、人間は大きな物体と小さな物体を見ると大きな物体を重いと予想しますが、実際に持ってみると小さな物体の方が重い場合があります。これがシャルパンティエ効果です。
シャルパンティエ効果は商品のデザイン・マーケティング・広告などによく応用されます。
コントラスト効果とは、あるものを知覚する時その前後に知覚したものの影響を受けることを指します。
例えば、ある重そうな物体を見た後に本当に軽い物体を持ち上げるとその物体が実際より軽く感じることがありますが、これはコントラスト効果が働いているためです。
コントラスト効果はデザイン・マーケティング・エンターテインメント・リバビリテーションなど多くの分野で応用されています。
視覚が味覚に影響を及ぼすクロスモーダル効果の例には、食品の色・形・パッケージ・盛り付けなどがあります。
例えば、赤い飲み物は甘味を感じやすく、緑の飲み物は酸味を感じやすくなります。視覚が味覚に影響を及ぼすクロスモーダル効果は、食品や飲み物のマーケティングや広告に活用されています。
嗅覚が身体運動感覚に影響を及ぼすクロスモーダル効果の例には、2021年に国立研究開発法人情報通信研究機構が発表した、香りで映像のスピード感が変わるという実験結果があります。
例えば、人間はレモンの香りがする時は映像が遅く、バニラの香りがする時は映像が速く見えます。このような嗅覚刺激によるクロスモーダル効果は、これまで感情や記憶といった高次の脳機能への影響があるとされてきました。
しかし上記の実験では映像のスピード感のような低次の脳機能への影響もあることがわかったので、学術的な意義も大きいとされているのです。
この発見により、今後クロスモーダルを用いた技術がまた1歩進化すると考えられます。
参考:映像情報メディア学会誌「2. 視覚情報によって誘発されるクロスモーダル効果」
参考:国立研究開発法人情報通信研究機構「香りでスピード感が変わることを発見」

クロスモーダルを用い、異なる感覚を組み合わせて新しい体験を生み出す技術がクロスモーダルデザインです。クロスモーダルデザインから生み出された新しい商品やサービスとして、以下の3つをご紹介します。
疼痛緩和とは痛みに対する緩和ケアのことで、重篤または命を脅かすような病気や病状を管理するのを目的として行われます。
疼痛緩和は通常痛み止め、手術などの手法で行われますが、補完療法の1つとして音楽療法があります。2023年にアメリカのジョンズ・ホプキンス大学では、音楽療法と鎮痛剤の併用で慢性痛患者の痛みが30%軽減されたと発表しました。これは、聴覚が触覚に影響を与えるクロスモーダル効果を利用した治療法です。
ジョンズ・ホプキンス大学では上記の結果を踏まえて、緩和医療プログラムを医師、高度な実践提供者、看護師、薬剤師、牧師、チャイルドライフの専門家、ソーシャルワーカーで構成されたチームで提供し、患者のQOL(生活の質)の向上を目指しています。
参考:ジョンズ・ホプキンス大学 音楽医学センター「緩和ケア医療とは?」
2022年に株式会社博報堂のプロジェクトチーム「Human X(ヒューマンクロス)」は、東京大学大学院情報理工学系研究科の鳴海拓志准教授と共同で、クロスモーダルを企業のブランド体験開発に活用する実験を始めました。
実験は「Human X Experiment(ヒューマンクロスエクスペリメント)」と名づけられ、第一弾実証実験として聴覚が味覚にどのような影響を及ぼすかを調べる研究のプロトタイプ、「ビールの美味しさを増幅させる音楽」の開発が行われました。
楽曲は、飲む前に期待を高めるのを目的とした「intro」から始まります。他にも、「クリーミー感を増幅する音楽」「炭酸感を強める音楽」「のどごし感を増幅する音楽」の合計4種類があります。なお、楽曲はSpotifyで配信され、誰でも自由に耳にすることができます。
身近な飲み物であるビールとクロスモーダルを用いて、ビールを飲む楽しさを高めた好事例だと言えます。
参考:博報堂「博報堂、クロスモーダル知覚(五感の相互作用)を活用しブランド体験を進化させる実験活動を開始─東京大学鳴海准教授と共同で[実験第1弾]ビールのおいしさを増幅させる音楽」
UnlimitedHandはVRゲームコントローラーで、自分のジェスチャーを認識してゲーム世界に反映させるだけではなく、ゲームの仮想現実の世界を自分の手で体感することができます。
視覚が触覚に影響を及ぼすクロスモーダル効果の例である、疑似触覚を用いたツールなのですが、具体的にはゲームからの信号で、本体から低、中周波の電気刺激を腕に流し、指や手首を動かす仕組みです。
UnlimitedHandが広まることで、ユーザーはゲームにおける体験の質をさらに高めることができます。

クロスモーダルAIとは、複数の異なるデータ形式(テキスト、画像、音声、動画、センサーデータなど)を組み合わせて理解や生成を行うAIのことで、クロスモーダルの本来の意味を発展させて名づけられたと考えると理解しやすいでしょう。
クロスモーダルとクロスモーダルAIの違いは以下の通りです。
| 項目 | クロスモーダル | クロスモーダルAI |
| 情報収集 | 五感のうち複数の感覚器を用いて行う | 複数の異なるデータ形式(テキスト、画像、音声、動画、センサーデータなど)で収集する |
| 相互干渉 | ある感覚器で感知された感覚情報が他の感覚情報に干渉して感覚情報が変化する | あるデータ形式のデータ
が他のデータ形式のデータに影響を及ぼす(画像の内容がテキスト生成に影響を及ぼすなど) |
上記の内容から、クロスモーダルAIでは次のようなことができるとわかります。
クロスモーダルAIの技術を用いると、今ある手持ちのデータでさまざまな新しいものを生成できることから、今後ビジネスやプライベートの場でさらにAIを活用できる場面が増えると予想されます。
クロスモーダルとは、ある感覚器で感知された感覚情報が他の感覚情報に干渉して感覚情報自体が変化することですが、研究が進むにつれてAIも含めた人間のQOLを高める技術への応用が増えていくのが予想されます。
この記事も参考にして、ぜひクロスモーダルへの理解をさらに深めてみてください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら