AppleのMGIEとは？画像編集AIモデルの仕組みとできることを紹介

最終更新日:2024/06/14

「MGIE」は、Apple社が2024年2月8日に発表した画像編集AIモデルです。テキストのプロンプト（指示文）によって、サイズやコントラストなどの変更、切り抜きといった幅広い編集タスクを実行可能です。ChatGPTでも使用できるOpenAI社の「DALL・E 3」をはじめ、多くの画像系生成AIサービスが登場する中、最新モデルのMGIEの魅力や活用に注目が集まっています。

本記事では、Apple社のMGIEの仕組みやできること、利用時の注意点などについてお伝えします。生成AIサービスの導入、運用に向けてぜひお役立てください。

Appleの最新AI画像編集技術「MGIE」とは？

「MGIE」とは、「MLLM-Guided Image Editing」の頭文字を取った名称で、日本語では「マルチモーダルガイド画像編集」という意味です。Apple社がカリフォルニア大学サンタバーバラ校と共同で開発した最先端の画像編集AIモデルです。自然言語のプロンプトを通じて、画像の明るさや彩度の変更、切り抜き、サイズ変更といった多くの編集機能を実行できます。

MGIEは、マルチモーダル大規模言語モデル（MLLM）を採用しています。ユーザーが入力したテキスト内容をAIが的確に解釈し、ピクセルレベルで高精度な編集を行います。専門知識なしで、単純な画像編集から複雑な編集作業まで、幅広い作業をテキストで指示できます。

MGIEはオープンソースであり、現在はGitHub上でコードのダウンロードが可能です。また、Hugging Faceではオンライン上でデモを試せます。

そもそもマルチモーダル大規模言語モデル（MLLM）とは

「マルチモーダル大規模言語モデル（MLLM）」は、テキストや画像、動画など複数の情報を処理できるAIモデルのことです。動画や画像といった視覚情報と、自然言語のテキスト情報を組み合わせて、実世界におけるさまざまな作業やタスクに対応できます。

MLLMの代表的なタスクには、画像の適切な説明文 (キャプション) を生成する画像キャプショニングがあります。AIモデルが画像の内容を理解し、情報をベースに自然言語で説明文を生成する手法です。

また、画像とテキストの関連性スコアを計算するタスクや、画像を元に対話形式で質問応答を行うタスクなどもMLLMを通じて実行できます。Apple社が手掛ける他のMLLMには、「Ferret（フェレット）」があります。

MGIEの仕組み

MGIEでは、どのようにタスクを処理するのか、その仕組みを見ていきましょう。MGIEでは2つの異なるMLLMを使用し、ユーザーが入力したテキストプロンプトを解釈するように学習しています。次に、画像をどのように編集するかを想像し、変更したい場所を認識して編集していきます。

MGIEでのテキスト指示の入力から画像編集までの具体的なフローは、以下の通りです。

ユーザーが、自然言語で画像を編集する指示（プロンプト）を入力する
MGIEがユーザーの意図を解析し、要求や変更について理解する
プロンプトの理解を理解し、画像を分析。構成要素の理解から相互関係の認識まで行う
言語理解と視覚情報の理解を融合させ、プロンプトに基づいた最も自然な結果を生成する

MGIEは、オブジェクトや色彩などの要素と、その相互関係を認識します。さらに、ガイド付き編集と呼ばれるように、編集段階で画像の文脈を考慮した最も自然な画像の出力が可能です。

MGIEでできること

MGIEでは、多くの画像編集オプションが提供されています。ここでは、MGIEでできる主な作業について解説します。

テキスト指示による柔軟な編集

MGIEでは、シンプルなテキスト指示での画像編集が可能です。例えば、「この画像の花の色を赤に変えてください」「この画像からテーブルを除去してください」といった具体的な要求を入力できます。

また、「この画像のお皿に乗っている料理をよりヘルシーにしてください」といった抽象的な指示にもある程度対応できると確認されています。「この画像を雨が振っている写真へ変更してください」という指示により、晴れの写真から雨の写真へと短時間で変更できます。自然言語の内容をスムーズに認識し、画像を簡単に生成することが可能です。

Photoshopスタイルの修正

MGIEは、Photoshopスタイルの修正機能を実行可能です。画像の切り取りや回転、反転、フィルター追加といった基本的な画像編集を効率的に行います。また、背景の変更やオブジェクトの追加、画像の融合など、より高度で複雑な編集タスクにも対応しています。

MGIEを活用すれば、専門ソフトウェアでの操作不要で、希望する画像の作成が可能となるでしょう。

写真品質の最適化

MGIEでは、画像の全体の品質向上が可能です。画像の明るさやコントラスト、彩度、色のバランスといった基本的な調整も含まれます。例えば、画像の明るさを変えたい場合に「もっと明るくしてください」といったシンプルな指示で実現できます。

また、スケッチ風や絵画スタイル、アニメーション化などスタイルの変更にも対応しています。簡単なプロンプトだけで、より芸術的な効果を適用することもできるでしょう。

ローカルとグローバルの調整

画像全体における調整だけでなく、部分的な変更や領域を絞った調整を追加できる点もMGIEの特徴です。特定の範囲に含まれるオブジェクトに対して、細かく調整できるため、希望する仕上がりを効率的に実現できます。

例えば、人の顔や目、髪、アクセサリーといった画像内の要素を指定し、限定的な編集をすることも可能です。

MGIEの使い方

Apple社のMGIEはオープンソースであり、すべてのユーザーがダウンロードし、自分のツールに組み込んで利用できます。ソースコードはGitHub上で入手できますが、組み込み方や操作がわからない場合は、オンライン上で使えるデモの利用をおすすめします。

Hugging Face Spacesにあるデモでは、MGIEの機能を実際に体験できます。Webサイトにアクセスし、編集したい画像をアップロードしてプロンプトを入力してみましょう。

ソースコードはGitHub上で公開

引用元：Github

MGIEのソースコードは、現在GitHubで公開されており、無料でダウンロード可能です。GitHubで必要なコードを入手し設定することで、MGIEに興味を持つすべてのユーザーがアクセスできます。

MGIE利用時の注意点

MGIEはオープンソースのため、契約や利用料金の支払い不要で使えますが、注意点もあります。ここでは、MGIE利用時に気をつけたいポイントを紹介します。

CC-BY-NCライセンスは商用利用不可

MGIEは「CC-BY-NCライセンス」の下で公開されているため、MGIEで生成された画像は商用利用できないので注意が必要です。CC-BY-NCライセンスとは、大規模言語モデル（LLM）を使用した「LLaVA（Large Language and Vision Assistant）」との差分として配布されているものです。

そのため、MGIEを使う際にはLLaVAのライセンスに従う必要があり、商業目的で利用することは禁じられています。個人プロジェクトや研究目的での使用は問題ありませんが、LLaVAのトレーニングにはLLaMAやGPT-4といった複数のAIモデルを使用して開発されたため、それぞれの規約に従って利用する必要があります。

MGIEの今後の展望

MGIEの画像編集機能をより簡単でアクセスしやすいものにするため、Apple社は継続的な改良と応用範囲の拡大を目指し、開発に取り組んでいく方針です。同社は生成AI分野への注力を表明しており、2024年2月にはAI開発に注力していることを強調しています。

将来的には、画像だけでなく動画の編集にも適用できる環境を確立する予定であり、テキスト指示だけで動画を制作できるような技術の開発計画もあると言います。人間の希望や意図と画像編集技術との距離を縮め、より多くの人が自由に画像を編集できるシステムを目指して、Apple社の研究・開発は続いていきます。

まとめ

Apple社が公開したMGIEは、オープンソースの最新画像編集AIモデルです。MGIEでは自然言語の理解だけでなく、画像の内容や文脈を認識した上で指示内容に対応します。MGIEを用いて、テキストベースの指示から画像を自動で生成可能です。また、画像の明るさやコントラストなどの最適化・部分的な調整が簡単に完了します。

しかし、ライセンスの関係上、生成した画像は商用利用ができないので注意が必要です。Hugging Face SpaceにてMGIEのデモ版が提供されていますので、試してみてはいかがでしょうか。

生成AIサービスの企業一覧を下記よりご請求いただけます。自社における課題やAI利用の目的に合ったサービスを比較検討する際にぜひご活用ください。

生成AIのサービス比較と企業一覧

よくある質問

MGIEはいつから使える？

MGIEはオープンソースのAIモデルであり、すでにGitHubにてソースコードが公開されています。自分の環境下でコードを組み込み、MGIEを利用することが可能です。また、デモ版はHugging Face Spacesに構築されており、オンライン上でMGIEの画像編集を直接体験することが可能です。

MGIEで日本語のプロンプトは使用できる？

現時点では、MGIEが英語のプロンプトに対応していることが確認されています。Hugging Face Spaceのデモ版でも、英語で入力された指示を実行できますが、日本語のプロンプトを入力しても、正しく解析されない可能性があります。 MGIEにおける日本語プロンプトの対応予定などは未定で、画像編集を効率化するためには自動翻訳などを使って指示文を英語で入力することが望ましいでしょう。

MGIEの主な活用シーンは？

MGIEを使用することで、さまざまな画像編集タスクを簡単に実行でき、幅広いシーンにおける活用が期待できます。例えば、教育現場やプレゼンで使う資料用の写真やイラストを短時間で作成することが可能です。また、Webコンテンツ用に、モックアップのような写真の一部を編集した画像を生成したい場合にも効率的に完了できます。