Diffusion model（拡散モデル）とは？仕組みやGAN・VAEとの違いを解説

最終更新日:2024/02/29

Diffusion modelとは？

昨今の生成AIブームの流れを受けてさまざまなモデルが登場するなか、画像生成AIサービスを支えるDiffusionモデルへの注目が特に高まっています。Stable DiffusionやDALL・E2といったAIサービスも登場しており、静止画だけでなく動画生成にも応用されています。

本記事では、Diffusion model（拡散モデル）の概要や仕組み、VAEやGAN、フローベースとの違い、採用されている主なモデルなどについて解説します。Diffusion model（拡散モデル）について理解を深め、自社事業に役立つ形でサービスを導入するためにぜひご覧ください。

Diffusion model（拡散モデル）とは？

「Diffusion model（拡散モデル）」とは、画像データを生成するAIサービスを中心に利用されている生成AIモデルの1つです。拡散モデルは、スコアベースや拡散確率モデルなどのタイプに分けられますが、画像生成のタスクにおいて優れた精度を実現できると注目を集めています。

2015年に発表された論文「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」にて初めて提案され、2020年には「Denoising Diffusion Probabilistic Models」の中で改良版が指摘されました。

Diffusion modelは、テキスト情報から画像を生成するStable DiffusionやOpenAIが手掛けるDALL・E2、GLIDE、Google社のImagenといったサービスにも搭載されています。

Diffusion model（拡散モデル）の仕組み

Diffusion model（拡散モデル）の仕組みは、元の画像データにノイズ（Gaussian Noise）を加えていくForward processと、ノイズ分布の状態からノイズを除去することで画像データを作成するReverse Processの2つに分かれています。それぞれの生成過程がどのように機能しているのか説明します。

Forward Process

Forward Processは、元の画像データにランダムノイズを加えていき、最終的にはノイズだけに変換するプロセス（拡散過程）です。AIモデルでは、ノイズを用いて対象の特性を得る実験や解析がよく行われます。Diffusion modelでも、元のきれいな画像にガウスノイズを少しずつ加えることで、結果的にガウス分布を得ます。

このプロセスでは、加えるノイズの平均値や最終的にガウス分布に変換されるまでの回数を使った正規分布の計算式が使われます。

計算したノイズを元の画像に追加することで実行でき、ステップごとのパラメータ学習が不要なため、全体のアーキテクチャは比較的シンプルである点も特徴です。

Reverse Process

Reverse Processは、先述のForward Processの逆で、ガウス分布からノイズを取り除いていき、画像を作成するプロセス（逆拡散過程）です。基本的には、画像にノイズを加えて最終的にノイズだけにする確率過程を考え、その逆を辿ることでノイズから画像を生成します。

ただ、逆再生的にプロセスを実行すれば画像を取得できるわけではなく、データセット全体を用いて条件付き確率を推定するモデルを学習する必要があります。

Reverse Processについて、実際には文献よりも比較的シンプルなコードで実装が可能です。ノイズを加えたデータに対して、作成したネットワーク構造で逆予測し、徐々に元データに近づくような処理を行います。

Diffusion model（拡散モデル）とVAEの違い

Diffusion modelは、深層ニューラルネットワークの技術と確率グラフィカルモデル（Probabilistic Graphical Model）を組み合わせた統合モデルの1種です。同タイプの中でも、VAEは特に似た特徴を持つとされています。

VAR（Variational Autoencoder/変分オートエンコーダ）は、オートエンコーダのデコーダに変数を混ぜ、入力とは異なる出力を行うモデルです。潜在変数モデルにおけるモデルエビデンスの推論する方法としても使われます。

入力を潜在空間上の特徴量で表すエンコーダと、潜在空間から元の次元に戻すデコーダで構成されており、潜在空間には何かしらの分布を仮定しています。

Diffusion modelは、学習した分布から潜在変数をサンプリングし、ニューラルネットワーク上に変化させる、という生成プロセスはVAEと似ています。ただ、VAEとは違ってエンコード側の学習パラメータは存在しません。

VAEやオートエンコーダについては以下で詳しく解説しますので、あわせてご覧ください。

オートエンコーダとは？仕組みや必要性と活用事例をご紹介

Diffusion model（拡散モデル）とGANの違い

GAN（Generative Adversarial Networks/敵対的生成ネットワーク）も、Diffusion modelと同じ生成モデルの1つです。GANは、本物のデータと間違われる可能性のあるデータを対峙させることにより、AIデータ学習を進めていく手法です。

新しい人工的なインスタンスを作成するために、ニューラルネットワークを採用し、2種類のモデルを互いに戦わせるというコンセプトがあります。

テキストから画像を生成する能力は、Diffusion modelもGANも同等に備えています。ただ、GANでは敵対的学習の構造そのものに、学習の不安定さと多様性の欠如があります。

また、論文「DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation」において、GANベースの生成モデルに画像とテキストに関する高い性能を持つCLIP（Contrastive Language and Image Pre-training）の記載もあるものの、実用性が低く応用はまだ難しいとされています。

GANを使った画像生成の仕組みや活用シーンなどについては、下記記事もあわせてご覧ください。

敵対的生成ネットワーク（GAN）とは？画像生成の仕組みと今後の課題を解説

Diffusion model（拡散モデル）とFlow-based modelsの違い

Flow-based models（フローベースモデル）とは、ディープラーニングを利用して未知のデータを生成する深層生成モデルの1つです。深層生成モデルでは「潜在変数からデータを生成する」というニューラルネットワークを学習しますが、潜在変数とデータの次元が等しい場合、データ生成プロセスを同じ空間内での軌跡として扱うことができます。

この軌跡が決定論的に1つに定まるものがフローベースモデルです。ただ、潜在変数に逐次変換を加えてデータを生成するため、可逆的な関数でなければならず、モデルの表現力が制限されてしまう点は問題といえます。

一方、Diffusion Model（拡散モデル）における空間内の軌跡は、確率微分方程式によってモデル化されます。生成過程では、少しずつノイズを画像などの実データに足していき、ノイズ分布を作成した後、今度はモデルがノイズから少しずつ実データに近づけていきます。

Diffusion model（拡散モデル）が使用されているAIサービス

ここでは、Diffusion modelが採用されている代表的なAIサービスとして、Stable DiffusionとDALL・E2を紹介します。

Stable Diffusion

Stable Diffusionとは、イギリスのスタートアップ企業Stability AIが開発した画像生成AIサービスです。ユーザーは画像のイメージをテキストで入力するだけで、高品質な画像データを生成できます。

Stable Diffusionはオープンソースであるため、誰でも無料かつ簡単に活用できます。また、Web上に構築された環境はもちろん、ローカル環境で独自に動かすことが可能です。現在Hugging FaceやDream StudioといったWebアプリケーション上にて、Stable Diffusionを使用できます。

英語だけでなく日本語版もあるため、日本語を入力して画像を生成することも可能です。また、「Stable Diffusion web UI」などの関連ツールを使うと、ローカル環境やクラウド上で日本語テキストによる画像生成がスムーズに行えます。

最近話題になっているアート写真のような高品質画像を生成できる「Photorealistic-fuen-v1」も、Stable Diffusionがファインチューニングされたものです。2023年5月には、Stable Diffusion搭載のAI動画生成サービス「text2video Extension」も登場しました。

Stable Diffusionの使い方や生成画像の商用利用などについては、下記記事もあわせてご覧ください。

Stable Diffusionとは？話題の画像生成AIの使い方・初心者向けのコツも徹底解説！