東大研究グループ、ネズミの脳波を基にAIが画像を生成する研究を発表。芸術創作の新しい手法へ期待

最終更新日:2025/04/04

脳波でAIが画像生成する研究発表

東京大学の研究グループが、ネズミの大脳皮質から記録した脳波を基にAIを使ってリアルタイムで絵を描くシステムを構築する研究を2024年9月7日に発表しました。

このニュースのポイント

東京大学の研究グループ、ネズミの大脳皮質から記録した脳波を基に生成AIを利用し、画像生成する研究を発表
「Stable Diffusion」モデルを改造し、ネズミの大脳皮質から記録した電位をリアルタイムで入力できるシステムを構築
心臓や腸蠕動などの生体信号、自然現象の時系列信号にも応用できるため、芸術創作の新しい手法を提供することが期待

東京大学大学院薬学系研究科池谷裕二氏と山城皓太郎氏の研究グループが、ネズミの大脳皮質から記録した脳波を基にAIを使ってリアルタイムで絵を描くシステムを構築する研究を2024年9月7日に発表しました。この研究では、潜在拡散モデルを利用して脳の状態に応じてリアルタイムで画像を更新するシステムを開発しました。

潜在拡散モデルは、ノイズからデータに変換するモデルであり、ノイズを追加してデータを劣化させる関数と、そのノイズを除去する画像復元ネットワークから成り立っています。今回の研究ではStability AI社の「Stable Diffusion」モデルに改造を加え、ネズミの大脳皮質から記録した電位を入力しています。

「Stable Diffusion」はStability AI社が公開した文章から画像を生成できるオープンソースのモデルで、個人がローカル環境でカスタマイズして画像を生成できるため、多様な画像生成が可能です。

拡散モデルは、ノイズを除去して元の画像を復元する技術であり、純粋なノイズから新しい画像を生成することができます。モデルは画像セットの特徴を学習し、ガウスノイズなどのランダムノイズを入力することで、学習したスタイルに沿った画像を生成します。

特に「Stable Diffusion」のようなモデルでは、文章がノイズから画像を復元するための指針となり、文章に従った画像の生成が可能です。また、指示文章を入力せずにノイズだけからも画像を生成することができます。生成プロセスでは、指示文は文字埋め込み層でベクトルに変換され、ノイズと共に拡散モデルに入力されて、最終的に画像が出力されます。

このシステムでは「Stable Diffusion」に指示文章を入力せず、ネズミの大脳皮質から記録した局所場電位を代わりに入力しています。局所場電位は、脳の特定の部位でのニューロンの電気的活動を測定する手法で、電極を使用して信号を検出します。この方法により、各エリアのニューロン活動を把握することができます。

これを「Stable Diffusion」のデータ形式に合うように圧縮して潜在ベクトルに変換します。この変換された潜在ベクトルを使用して画像を生成します。

局所場電位は1秒間を1/30秒ごとに切り取って画像を生成します。脳波は時系列データのため、1/30秒前のデータと現在のデータは類似しており、これにより画像間のスムーズな変化が実現されます。切り取った局所場電位は潜在ベクトルに変換され、隣接する潜在ベクトルの類似性から連続的な画像が滑らかに推移します。

この手法は神経活動にとどまらず、心臓や腸蠕動などの生体信号、自然現象の時系列信号にも応用できるため、芸術創作の新しい手法を提供することが期待されています。

出典：東京大学