AIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索・資料請求サイト
TEL
MAIL
03-6452-4750

近年はAI技術の発展に伴い、白黒写真をカラー写真に変換したり、実在しない人の顔を作ったりと、さまざまな形で画像生成が行われるようになりました。特に「GAN(Generative Adversarial Networks)」と呼ばれる技術は、機械によって生成されたとは思えない精巧さであることから、大きな注目を集めているのです。

この画像生成は、どのような仕組みで成り立っているのでしょうか。今回は、画像生成の仕組みや手法について解説していくとともに、画像生成ツールなどもご紹介していきますので、ぜひ参考にしてみてください。

■画像生成とは

■画像生成とは

画像生成とは、絵画の生成や画像・映像などの自動加工を行う技術を指します。機械学習の手法の一つであるディープラーニング(深層学習)を利用して行われる技術としても知られています。

近年は、さまざまな場面において高品質な画像が要求されるようになりました。しかし、常にその要求に応えられる完全なオリジナル画像を取得できるわけではありません。たとえば、ピントの合っていないぼやけた画像データしか用意できないケースも考えられます。また、歴史的資料であれば、カラー写真が存在せず、白黒写真しか用意できないケースも多く、ラフスケッチしか存在していないケースなども考えられます。

このような場合、専門的で工数のかかる画像加工を行ったり、イラストを描きながら撮影コンセプトを固めて写真を撮影したりしながら、高品質な画像データを準備するのは難しいのが実情です。ただ、近年はAIの技術が発展したことにより、不十分なデータからでも高品質な画像を作り出すことができるようになってきたのです。

 

■画像生成の手法

では、具体的に画像生成を行う場合、どのような手法が用いられているのでしょうか。ここからは、画像生成の手法について詳しくご紹介していきます。

 

・VAE(変分オートエンコーダ)

・VAE(変分オートエンコーダ)

(参照:Variational Autoencoder徹底解説 – Qiita)

VAE(変分オートエンコーダ)は、ディープラーニングによる生成モデルの一つです。訓練データを利用し、その訓練データの特徴を捉えた「訓練データに似たデータ」を生成することができます。

通常のオートエンコーダーの場合、「学習時の入力データは訓練データのみを利用し、教師データは利用しない」といった特徴や、「データを表現する特徴を獲得するためのニューラルネットワークである」といった特徴が挙げられます。入力データのXから潜在変数zに変換するニューラルネットワークをEncoderと呼びます。なお、このとき、zの次元が入力Xより小さい場合には、次元削減とみなすことも可能です。逆に、潜在変数zをインプットとして、元画像を復元するニューラルネットワークのことをDecoderと呼びます。

VAE(変分オートエンコーダ)の大きな特徴として挙げられるのは、この潜在変数zに確率分布、通常z∼N(0,1)を仮定している点です。通常のオートエンコーダーの場合、何らかの潜在変数zにデータが挿入されていますが、その構造までは明らかにできません。しかし、VAEであれば、潜在変数zを確率分布という構造に入れ込むことが可能なのです。

 

・GAN(敵対的生成ネットワーク)

GANで本物のように精巧な画像生成モデルを作ってみた【Pytorch】 - 株式会社ライトコード

(参照:GANで本物のように精巧な画像生成モデルを作ってみた【Pytorch】 – 株式会社ライトコード)

GAN(Generative Adversarial Networks)は、GeneratorとDiscriminatorという2つのネットワーク構造に分けられます。Generatorは、偽物ともいえるデータをランダムなノイズから作り出していくという役割を担っています。Discriminatorは、Generatorで生成された偽物データを、本物データと比較していくことによって、そのデータが本物なのか偽物なのか判定していくという役割を担っています。

このような判定を何度も繰り返しながら、GeneratorとDiscriminatorの精度の高さを改善させていくことによって、「対象の特徴をより自然な形で反映させたデータ」を自動的に生成するGeneratorが生み出されるというわけです。

また、この過程では、対象の特徴を定量化することもできます。そのため、特定のデータに別の特徴を与えたデータを自動的に生成していくこともできるのです。

 

・Pix2Pix

・Pix2Pix

(参照:Image-to-Image Translation with Conditional Adversarial Networks)

pix2pixとは、コンピュータビジョンとパターン認識の国際会議「CVPR 2017」で発表された「Image-to-Image Translation with Conditional Adversarial Networks」という論文において発表された手法のことです。2つのペアの画像をもとに、画像間の関係を学習していき、「画像生成を行う予測モデル」と「生成された画像がダミー画像かどうかを判定していく判定器」の2つを競わせます。これにより、2つの関係を反映したペア画像を生成していくという技術です。

この技術は、CGANの拡張版ともいえるものであり、Pix2Pixは条件ベクトルではなく条件画像を利用することによって、画像〜画像への変換問題を扱っています。

 

・TransGAN

・TransGAN

(参照:GitHub – VITA-Group/TransGAN: [Preprint] “TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up”, Yifan Jiang, Shiyu Chang, Zhangyang Wang)

TransGANとは、畳み込みを用いることなくTransformerだけで画像を生成していく技術のことです。2021年2月に誕生し、注目を集めました。大きな特徴としては、STL-10の画像生成において、CNNベースのGANを超えてState-of-the-Art(SoTA) な性能を示しているという点が挙げられるでしょう。

そんなTransGANのアーキテクチャは、ViTに類似しており、非常にシンプルなものになっています。構成部分としては「レイヤーノーマライゼーション(LN)「マルチヘッドSelf-Attention(MSA)」「全結合層」の3つです。

 

・StyleGAN

・StyleGAN

(参照:GitHub – NVlabs/stylegan: StyleGAN – Official TensorFlow Implementation)

StyleGANとは、教師なし学習に分類される機械学習の内の一手法である「Genera tive Adversarial Networks(GAN)」から派生したものです。前述の通りGANは、学習したデータの特徴をもとに、実在していないデータの生成を行ったり、データの変換を行ったりすることができます。

その派生として注目を集めているStyleGANは、「写真を証拠にできる時代は終わった」と言われてしまうほど、極めて高精度な画像の生成を行えるようになったのです。実際にStyleGANによって生み出された画像を見てみても、一目で「実在しない人物」だと判断することは不可能なほど高精度な画像であることが分かります。

そんなStyleGANがGANと大きく異なるポイントとして挙げられるのは、「各転置畳み込み処理のあとにstyleの調整を行っていること」「細部の特徴がノイズによって生成されていること」「潜在変数zを潜在空間wに非線形変換していること」の3点です。これらの特徴により、従来よりもはるかに高精度な画像を生成することができています。

 

・StyleGAN2

・StyleGAN2

(参照:GitHub – NVlabs/stylegan2: StyleGAN2 – Official TensorFlow Implementation)

StyleGAN2とは、StyleGANを改良した敵対的生成ネットワークのことです。AdaINの代わりに、CNNのWeightを正規化することによって、dropletを除去しています。また、Progressive Growingの除去によって不自然なモードを改善したり、潜在空間において連続性を持たせて画像品質向上を図ったりと、StyleGANよりもFID等が大幅に向上している点が特徴です。

最近では、AIアーティストが作成したGANモデルを使用した「This Anime Does Not Exis t」というホームページが公開されたことでも大きな注目を集めました。このホームページでは、実在しないアニメキャラクターを生成することが可能です。

 

・DALL・E

・DALL・E

(参照:DALL·E: Creating Images from Text)

DALL・Eは、OpenAI(オープンエーアイ)が2021年に発表した画像生成モデルです。任意のテキストを入力することによって、その内容に合わせた画像を生成することができます。DALL・Eは、主に2つのステージを経て画像が生成される仕組みです。

1つ目のステージは、画像の圧縮・復元モジュールの作成。このステージではDiscrete VAE(離散変分オートエンコーダ)というモデルが使用されており、エンコーダがRGB 256×256画像を32×32の中間出力に圧縮を行い、デコーダはその中間出力を再度入力と同じ品質のRGB256×256画像に復元していきます。

一般的に画像は情報量が大きいので、そのまま扱うのは現実的とはいえません。ただ、Discrete VAEの中間出力を使用することによって、画像の情報量を192分の1にまで削減することができるわけです。そしてDiscrete VAEは、画像だけを学習データとして、入力した画像を正確に出力していくことを学習します。

2つ目のステージは、画像とテキストの対応関係を学習するというもの。この学習には、Transformerというモデルが使用されており、画像情報(画像トークン)とその内容を説明するテキスト情報(テキストトークン)の対応関係を学習していくわけです。

Transformerに入力するためのデータ形式は、「画像トークンとして中間出力したもの(32×32=1024個)」「テキストを構成する単語をベクトルに変換したテキストトークン(最大256個)」、これら2つを連結させたものになります。学習データは、インターネットを介して収集した2億5000万の画像・テキストのペアを先ほどの形式にして、120億のパラメーターを持つTransformerに学習させていくという仕組みです。

 

・文字系 GPT-3

・文字系 GPT-3

(参照:GitHub – openai/gpt-3: GPT-3: Language Models are Few-Shot Learners)

GPT-3とは、イーロン・マスクをはじめとする有力な実業家や投資家が、2015年12月に参加したことで大きな注目を集めた言語モデルです。開発はOpenAIが行っています。約45TBという大規模なテキストデータのコーパスを、約1750億個のパラメータを用いて学習していくという仕組みになっています。そのため、ある単語の次に用いられる単語の予測を高精度で行うことができるのです。こういった技術で、あたかも人間が書いたような文章を生成できることから、さまざまな場所で活用され始めています。

 

■無料あり!画像生成ツール・サイト

画像生成の具体的な手法の次は、実際に画像生成などが可能なツールやサイトをご紹介します。

 

・cre8tiveAI

・cre8tiveAI

(参照:画像・動画の編集加工AIツール:cre8tiveAI(クリエイティブAI))

cre8tiveAI(クリエイティブAI)は、写真・イラストといった画像の編集作業をサポートしてくれるAIツールです。ディープラーニングを利用したAIツールのプラットフォームとなっており、写真やイラスト、映像に関連するクリエイティブなAIが現在進行形で追加され続けています。

代表的なサービスとしては、全身イラストを制作することができる「彩ちゃん+」、自分が持っている写真をゴッホやピカソ、雪舟、モリゾ、キルヒナーといった世界的アーティスト風の絵画画像に変換することができる「Enpainter」、写真やイラスト等の画像をより美しく高画質化することができるAIの「Photo Refiner」などが挙げられます。

また、最近では写真から6種類の似顔絵をAIが生成する新サービス「Portrait Drawer(ポートレイト ドロワー)」がRADIUS5からリリースされました。ダウンロードは有料となりますが、さまざまなサービスが用意されているため、クリエイティブに関心を持つ人にとって大きなメリットがあるでしょう。

(参考)SNSアイコン作成におすすめ!似顔絵生成AIサービスが開始!

 

・Artbreeder

・Artbreeder

(参照:Artbreeder)

Artbreederは、写真をアップロードするだけでAIが「存在しない人物」を作り出してくれるサービスです。アップロードした写真を別の人物と掛け合わせたり、複数の写真を合成してまったく別の世界を作ったりと、さまざまな楽しみ方をすることができます。

そんなArtbreederでは、敵対的生成ネットワーク(GAN)が使われており、ポートレートだけでなく風景画やアニメキャラなども作成することが可能です。利用する際はアカウント作成が必要となりますが、Googleアカウントで利用することもできます。

 

・Generated Photos

・Generated Photos

(参照:Generated Photos | Unique, worry-free model photos)

Generated Photosは、この世に存在しない顔をAIが自動生成してくれるサイトです。2019年に、著作権フリーのオリジナル顔画像を10万枚公開したことで、大きな注目を集めました。また、2019年まではブラウザからダウンロードすることしかできませんでしたが、2020年からは細かな条件を指定し、API経由で画像を取得できるようになっています。

具体的には、性別、年齢、肌、目の色、髪の毛といった項目が用意されており、表情も笑顔や驚いた顔など、数多くラインナップされています。取得した顔写真は、透過したり背景色を乗せたりすることも可能ですが、透過の場合はダウンロードに1ドルかかるため事前に把握しておきましょう。

 

・ACartist

・ACartist

(参照:AI(人工知能)が画像をアートに変換!ACartist)

ACartistは、AI技術を活用して2つの画像からアートを創り出すことができる無料サービスです。操作が非常に簡単なのが特徴で、2クリックで画像をアップロードするだけでアートを創ることができます。

また、AI画像生成サービスの中には、対応している画像サイズが小さかったり、固定されていたりするケースも少なくありません。しかし、ACartistであれば最大2,000pxまで対応できるため、Webサイトでの表示を考えている人でも問題なく活用することができるでしょう。

 

・ACワークス

・ACワークス

(参照:AIが自動で画像の背景を切り抜きます|切り抜きAC)

写真素材のダウンロードサイトを運営しているACワークスでは、AIが自動で背景を切り抜いてくれる「切り抜きAC」というサービスを提供しています。この「切り抜きAC」は、画像をドラッグ&ドロップ、もしくは画像のアップロードを行うだけで、AIが自動で背景を識別して切り抜いてくれるという仕組みです。

また、写真に点数をつけ良し悪しを評価してくれる「scoringAC」というサービスも提供されているなど、ACワークスでは積極的にAIが活用されています。今後もさまざまな形でAIが活用されていくことが期待されるため、ぜひこの機会に活用してみてはいかがでしょうか。

 

■まとめ

今回は、画像生成AIの方法や無料ツールについて、詳しくご紹介しました。これまで多くの手間がかかっていた作業も、画像生成AIによって効率化を実現できるということがイメージできたのではないでしょうか。また、タイトルにもある通り、画像生成AIはディープラーニングの最前線ともいえる注目の技術であることもお分かりいただけたかと思います。

すでに画像生成ツール・サイトは数多く存在していますが、今後もさらに革新的なツール・サイトが登場する可能性も十分に考えられますので、ぜひこの機会に画像生成AIに関するさまざまな情報をチェックしてみてください。

 

画像認識AIのサービス比較と企業一覧を見る

 

このAI記事が気に入ったら
いいね ! しよう

Twitter でAIポータルメディアAIsmileyを

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら