生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2024/06/14
AppleのMGIEとは?画像編集AIモデルの仕組みとできることを紹介
「MGIE」は、Apple社が2024年2月8日に発表した画像編集AIモデルです。テキストのプロンプト(指示文)によって、サイズやコントラストなどの変更、切り抜きといった幅広い編集タスクを実行可能です。ChatGPTでも使用できるOpenAI社の「DALL・E 3」をはじめ、多くの画像系生成AIサービスが登場する中、最新モデルのMGIEの魅力や活用に注目が集まっています。
本記事では、Apple社のMGIEの仕組みやできること、利用時の注意点などについてお伝えします。生成AIサービスの導入、運用に向けてぜひお役立てください。

「MGIE」とは、「MLLM-Guided Image Editing」の頭文字を取った名称で、日本語では「マルチモーダルガイド画像編集」という意味です。Apple社がカリフォルニア大学サンタバーバラ校と共同で開発した最先端の画像編集AIモデルです。自然言語のプロンプトを通じて、画像の明るさや彩度の変更、切り抜き、サイズ変更といった多くの編集機能を実行できます。
MGIEは、マルチモーダル大規模言語モデル(MLLM)を採用しています。ユーザーが入力したテキスト内容をAIが的確に解釈し、ピクセルレベルで高精度な編集を行います。専門知識なしで、単純な画像編集から複雑な編集作業まで、幅広い作業をテキストで指示できます。
MGIEはオープンソースであり、現在はGitHub上でコードのダウンロードが可能です。また、Hugging Faceではオンライン上でデモを試せます。
「マルチモーダル大規模言語モデル(MLLM)」は、テキストや画像、動画など複数の情報を処理できるAIモデルのことです。動画や画像といった視覚情報と、自然言語のテキスト情報を組み合わせて、実世界におけるさまざまな作業やタスクに対応できます。
MLLMの代表的なタスクには、画像の適切な説明文 (キャプション) を生成する画像キャプショニングがあります。AIモデルが画像の内容を理解し、情報をベースに自然言語で説明文を生成する手法です。
また、画像とテキストの関連性スコアを計算するタスクや、画像を元に対話形式で質問応答を行うタスクなどもMLLMを通じて実行できます。Apple社が手掛ける他のMLLMには、「Ferret(フェレット)」があります。

MGIEでは、どのようにタスクを処理するのか、その仕組みを見ていきましょう。MGIEでは2つの異なるMLLMを使用し、ユーザーが入力したテキストプロンプトを解釈するように学習しています。次に、画像をどのように編集するかを想像し、変更したい場所を認識して編集していきます。
MGIEでのテキスト指示の入力から画像編集までの具体的なフローは、以下の通りです。
MGIEは、オブジェクトや色彩などの要素と、その相互関係を認識します。さらに、ガイド付き編集と呼ばれるように、編集段階で画像の文脈を考慮した最も自然な画像の出力が可能です。

MGIEでは、多くの画像編集オプションが提供されています。ここでは、MGIEでできる主な作業について解説します。
MGIEでは、シンプルなテキスト指示での画像編集が可能です。例えば、「この画像の花の色を赤に変えてください」「この画像からテーブルを除去してください」といった具体的な要求を入力できます。
また、「この画像のお皿に乗っている料理をよりヘルシーにしてください」といった抽象的な指示にもある程度対応できると確認されています。「この画像を雨が振っている写真へ変更してください」という指示により、晴れの写真から雨の写真へと短時間で変更できます。自然言語の内容をスムーズに認識し、画像を簡単に生成することが可能です。
MGIEは、Photoshopスタイルの修正機能を実行可能です。画像の切り取りや回転、反転、フィルター追加といった基本的な画像編集を効率的に行います。また、背景の変更やオブジェクトの追加、画像の融合など、より高度で複雑な編集タスクにも対応しています。
MGIEを活用すれば、専門ソフトウェアでの操作不要で、希望する画像の作成が可能となるでしょう。
MGIEでは、画像の全体の品質向上が可能です。画像の明るさやコントラスト、彩度、色のバランスといった基本的な調整も含まれます。例えば、画像の明るさを変えたい場合に「もっと明るくしてください」といったシンプルな指示で実現できます。
また、スケッチ風や絵画スタイル、アニメーション化などスタイルの変更にも対応しています。簡単なプロンプトだけで、より芸術的な効果を適用することもできるでしょう。
画像全体における調整だけでなく、部分的な変更や領域を絞った調整を追加できる点もMGIEの特徴です。特定の範囲に含まれるオブジェクトに対して、細かく調整できるため、希望する仕上がりを効率的に実現できます。
例えば、人の顔や目、髪、アクセサリーといった画像内の要素を指定し、限定的な編集をすることも可能です。

Apple社のMGIEはオープンソースであり、すべてのユーザーがダウンロードし、自分のツールに組み込んで利用できます。ソースコードはGitHub上で入手できますが、組み込み方や操作がわからない場合は、オンライン上で使えるデモの利用をおすすめします。
Hugging Face Spacesにあるデモでは、MGIEの機能を実際に体験できます。Webサイトにアクセスし、編集したい画像をアップロードしてプロンプトを入力してみましょう。

引用元:Github
MGIEのソースコードは、現在GitHubで公開されており、無料でダウンロード可能です。GitHubで必要なコードを入手し設定することで、MGIEに興味を持つすべてのユーザーがアクセスできます。

MGIEはオープンソースのため、契約や利用料金の支払い不要で使えますが、注意点もあります。ここでは、MGIE利用時に気をつけたいポイントを紹介します。
MGIEは「CC-BY-NCライセンス」の下で公開されているため、MGIEで生成された画像は商用利用できないので注意が必要です。CC-BY-NCライセンスとは、大規模言語モデル(LLM)を使用した「LLaVA(Large Language and Vision Assistant)」との差分として配布されているものです。
そのため、MGIEを使う際にはLLaVAのライセンスに従う必要があり、商業目的で利用することは禁じられています。個人プロジェクトや研究目的での使用は問題ありませんが、LLaVAのトレーニングにはLLaMAやGPT-4といった複数のAIモデルを使用して開発されたため、それぞれの規約に従って利用する必要があります。

MGIEの画像編集機能をより簡単でアクセスしやすいものにするため、Apple社は継続的な改良と応用範囲の拡大を目指し、開発に取り組んでいく方針です。同社は生成AI分野への注力を表明しており、2024年2月にはAI開発に注力していることを強調しています。
将来的には、画像だけでなく動画の編集にも適用できる環境を確立する予定であり、テキスト指示だけで動画を制作できるような技術の開発計画もあると言います。人間の希望や意図と画像編集技術との距離を縮め、より多くの人が自由に画像を編集できるシステムを目指して、Apple社の研究・開発は続いていきます。
Apple社が公開したMGIEは、オープンソースの最新画像編集AIモデルです。MGIEでは自然言語の理解だけでなく、画像の内容や文脈を認識した上で指示内容に対応します。MGIEを用いて、テキストベースの指示から画像を自動で生成可能です。また、画像の明るさやコントラストなどの最適化・部分的な調整が簡単に完了します。
しかし、ライセンスの関係上、生成した画像は商用利用ができないので注意が必要です。Hugging Face SpaceにてMGIEのデモ版が提供されていますので、試してみてはいかがでしょうか。
生成AIサービスの企業一覧を下記よりご請求いただけます。自社における課題やAI利用の目的に合ったサービスを比較検討する際にぜひご活用ください。
MGIEはオープンソースのAIモデルであり、すでにGitHubにてソースコードが公開されています。自分の環境下でコードを組み込み、MGIEを利用することが可能です。また、デモ版はHugging Face Spacesに構築されており、オンライン上でMGIEの画像編集を直接体験することが可能です。
現時点では、MGIEが英語のプロンプトに対応していることが確認されています。Hugging Face Spaceのデモ版でも、英語で入力された指示を実行できますが、日本語のプロンプトを入力しても、正しく解析されない可能性があります。 MGIEにおける日本語プロンプトの対応予定などは未定で、画像編集を効率化するためには自動翻訳などを使って指示文を英語で入力することが望ましいでしょう。
MGIEを使用することで、さまざまな画像編集タスクを簡単に実行でき、幅広いシーンにおける活用が期待できます。例えば、教育現場やプレゼンで使う資料用の写真やイラストを短時間で作成することが可能です。 また、Webコンテンツ用に、モックアップのような写真の一部を編集した画像を生成したい場合にも効率的に完了できます。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら