DALL-E 3とは？Bing Image Creatorの使い方や品質を高めるコツを解説

最終更新日:2024/03/07

DALL-E 3とは？Bing Image Creatorの使い方や品質を高めるコツ

生成系AIの筆頭である ChatGPT を開発した OpenAI社が、2023年9月20日に最新の画像生成AI「DALL-E 3」を発表しました。前モデルのDALL-E 2 からさらにパワーアップし、入力文のニュアンスやディテールの違いを画像に反映させることに成功しています。

現在 ChatGPT に統合されており、有料プランである ChatGPT Plus とEnterpriseで利用可能です。また、Microsoft Bing 上では、会員は無料で使用できる他、Google Colabなど多くのプラットフォームからAPI経由でも使用できます。

DALL-E 3を使って生成された画像がすでにSNS上で出回るなど、話題を呼んでおり、使い方を詳しく知りたい人も多いでしょう。

本記事では、DALL-E 3 の特徴や無料で利用する方法、画像生成プロンプトの例、希望する画像を生成するためのポイントなどについて解説します。最新の画像生成AIツールを有効活用するために、ぜひ参考にしてください。

DALL-E 3とは？

「DALL-E 3」は、2023年9月21日に OpenAI社がリリースした最新の画像生成AIサービスです。入力した言葉を認識し、内容を反映した画像を出力するAIサービス「DALLシリーズ」の最新作として発表されました。

当初は、ChatGPT 内で提供が開始される予定でしたが、一足先に Microsoft の「Bing Image Creator」と「Bing Chat」上での利用がスタートしています。2023年10月からは、ChatGPT Plus と Enterprise という2つの有料プランでも提供されています。

前作の「DALL-E 2」に比べて入力情報の理解力が上がり、人間の手や顔などの精度や全体的な品質レベルも向上しています。また、悪用防止対策としての安全性や、著作権侵害を回避するための制御性を備えている点も大きな特徴です。

DALL-E 3の特徴

DALL-E 3 では、シリーズ前作の「DALL-E 2」に比べて、入力されたテキストのニュアンスや詳細を理解する能力が向上しています。そのため、プロンプト内容により忠実な画像を効率的に生成することが可能です。

また、生成系AIサービスにおける課題の1つであるモラルや常識への対策も考慮されています。DALL-E 3 は、暴力的あるいは成人向けなどのコンテンツの生成を制限しています。また、フェイクニュースへの悪用を避けるために、有名人などの名前を含むリクエストをキャンセルするような対策も取られています。

さらに、著作権侵害への対策として、存在するアーティストのスタイルで画像を生成するようなリクエストは拒否される設計です。DALL-E 3 で生成された画像の所有権はユーザー側にありますが、このクリエイティブコントロールによって悪用被害を防ぐ効果が期待できます。

DALL-E 3 は ChatGPT に組み込まれており、ChatGPT 上でアイデアを入力するだけで、内容を理解して詳細な画像を自動生成できる点も大きな特徴です。

DALL-E 3とDALL-E 2の違い

DALL-E 3の前モデルである DALL-E 2 は、2022年4月にOpenAI社が発表した画像生成AIツールです。DALL-E 3 とDALL-E 2 の主な違いは、まず生成画像の品質にあります。

DALL-E 3では、プロンプトのニュアンスや詳細をより深く、繊細に理解し、画像に反映させることが可能です。特に、人間の手指や顔などのディテールが違和感なく的確に描かれるようになり、ユーザーのアイデアを高精度な画像に落とし込めます。

また、ChatGPT に DALL-E 3 が統合されたことにより、想定していた生成物と異なる画像が生成された際に、チャットで伝えるだけで簡単に微調整できます。ChatGPT を使ってアイデアをブレインストーミングし、プロンプトを添削した上で、DALL-E 3 へ画像生成を依頼するという使い方も可能です。

DALL-E 3はいつから無料利用できるようになった？

ChatGPTに先駆けて、2023年10月よりMicrosoft Bingの「Image Creator」と「Bing Chat」上でDALL-E 3の利用が開始されました。テキストを入力することで、高精度な画像を無料で生成することが可能です。

Microsoftの「Bing Image Creator」は、過去に10億枚以上の画像を生成した実績を持つ画像生成AI搭載サービスです。DALL-E 3を統合したことにより、これまで以上に写実的で高品質な画像の生成を実現しています。

また、コンテンツクレデンシャル機能により、AI作成画像であることを証明する情報を生成画像に含むことができ、画像の透明性と信頼性が保たれています。

「Bing Chat」は、対話形式のAIサービスです。テキストでの対話を通じて、求める画像を生成、改良するなど、クリエイティブに活用できます。

なお、有料版の「Bing Chat Enterprise」と、スマホ向け仮想キーボードアプリ「Microsoft SwiftKey」を使って「Image Creator」にアクセスできることが公式に発表されています。さらに多くのユーザーがDALL-E 3の画像生成を体験できる環境が整えられています。

DALL-E 3の使い方

ここからは、「Bing Image Creator」と「Bing Chat」にて実際にDALL-E 3を使用する手順を紹介します。

Bing Image Creatorの場合

Bing Image Generatorでは、Microsoft アカウントがあればDALL-E 3を無料で利用できます。まず「Image Creator for Microsoft Bing」のサイトにアクセスし、Microsoft アカウントにログインします。

アカウントをまだ持っていない人は、「Join&Create」というビンクのボタンをクリックして登録画面に進むことができます。

ログイン後に、下記画面のバーに生成したい画像の条件を入力します。

右に表示されている「Create」のボタンをクリックするだけで、画像が自動的に生成されます。1つのリクエストに対して、おおむね3つの異なる画像が表示されます。

いずれの画像も細部まで仕上げられています。

「Image Creator for Microsoft Bing」は、Microsoft のアカウントでログインすれば無料で画像を生成できますが、使用回数には制限が設けられています。プロンプトを入力するバーに表示されているコインのようなものは「ブースト」と呼ばれ、リクエストの度に消費される仕組みです。

ブーストが不足すると、画像生成に時間がかかる可能性があります。ただ、Microsoft Bing での検索などで貯まるリワードを、追加ブーストと引き換えれば処理時間を短縮することが可能です。サインアップ時には25のブーストが付与されていますが、1週間の最大ブーストは15までなので、無料のまま使い続けるためには計画的に利用する必要があります。

Bing Chatの場合

続いて、「Bing Chat」でDALL-E 3 を利用する手順を説明します。基本的なやり方は「Bing Image Creator」と同じです。まずは、「Bing Chat」にアクセスし、Microsoft アカウントにログインします。

下記のような画面が表示されたら、一番下のバーに生成したい画像のプロンプトを入力します。

Enterキーまたは右側の矢印マークをクリックすると、自動で画像を生成してくれます。

Bing Chat ではおおむね4つの異なる画像を生成できます。ただ、Bing Chat 自体の回数制限があり、1ユーザーのチャットは1日最大50回、1回あたり最大5ターンまで（質問とそれに対する Bing の返答で1ターン）と決まっています。

回数上限を超えてリクエストすると、新しい話題に映るようメッセージが表示されるので、ほうきのボタンをクリックして会話をリセットすることが可能です。Bing からの解答に、「3 of 5」といったように何回目のやり取りかが表示されるので参考にすると良いでしょう。

ChatGPTでDALL-E3を使った画像生成方法

ChatGPTの有料プラン「ChatGPT Plus」に登録することで、DALL-E 3をChatGPT内で利用することができます。今回はPCブラウザからChatGPTを起動してDALL-E 3を使用します。

「GPT-4」から「DALL-E 3」を選択する

ChatGPTの有料プラン「ChatGPT Plus」に登録しているユーザーは、上の画像のようなプルダウンメニューが出てきますので、そこから「DALL-E 3」を選択してください。

日本語でプロンプトを入力する

ここからは実際に日本語でプロンプトを入力していきます。はじめにAIsmileyのキャッチコピーからロゴを作成するように指示しましたが、「具体的な企業やブランドのロゴを作成することはできません」と断られてしまいました。

ただし、以下のような抽象的な説明をもとにイメージを生成することができると回答があったので、それぞれの説明をもとに画像作成してもらいました。

最初のプロンプトでここまで精度の高い画像が生成されるとは想像していませんでした。少し驚きを隠せませんが、次のプロンプトを入力してみます。

プロンプト例「1」をベースに、画像内のテキストや配色について指示することにしました。

少々イメージに近くなってきましたが、もう少し指示を与えてみます。

白いリボンの中の文字を消すように指示しましたが、リボンそのものが消え、頭上に文字だけが残る形になりました。画像のクオリティとしては申し分ないと判断したため、この画像イメージをもとに次の指示を与えてみます。

生成した画像をアイキャッチ用に調整する

現状の画像品質でも決して悪くはありませんが、正方形の画像は少々使い勝手が悪いため、コラム記事のアイキャッチにも使えるようピクセルの指示を出してみました。しかし、結果は「画像のリサイズは行えない」とのこと。

引き続き粘り強く聞いてみると、「横長の長方形の画像を生成することはできる」という回答が得られました。早速生成してもらいましょう！

頭上の文字こそ消えませんでしたが、スマイリーくんの表情もいくらか明るくなったような気がします！ChatGPT内でアイキャッチ用の画像生成ができれば、作業時間も大幅に削減できそうですね。

ちなみに画像生成にかかる時間は平均30秒～1分で、生成された画像は全てダウンロードすることが可能です。気になる方はぜひ上記の手順を真似してみてください！

DALL-E3での画像生成プロンプト例

DALL-E 3で画像を生成する際に使えるプロンプト例を紹介します。細かな指示を加えながら少しずつ生成画像を調整することで、理想の画像に近づけることが可能です。

サイズ指示

横長や縦長などのサイズを指定したい場合は、プロンプトに指示を追加します。横長にしたい場合は「横長で画像を作成してください」「画像を横長にしてください」といった一文を入れます。

具体的なピクセル値を指定することも可能です。ただ、現時点で対応可能な縦横比は「1792px × 1024px」「1024px × 1024px」「1024px × 1792px」の3種類とされています。数値の指定がなくても縦長、横長、正方形といったコメントだけでも対応してもらえる場合があります。

テイスト指示

ポップ、ナチュラルといったテイストも指示することが可能です。例えば、「餌を待つ猫」という画像の生成を依頼したところ、以下が出力されました。

上記画像を「明るい色合いでポップな雰囲気に変えてください」と入力すると以下の画像が生成されました。

単純にスタイルを指定するよりも、色合いや雰囲気について細かく指定する方が、イメージに近い画像を得られる可能性が高まります。

人物や動物の描写

人や動物の描写も丁寧に画像化してくれます。以下は、「ニューヨークの高級住宅街を散歩するボーダーコリー犬とマダム」というプロンプトです。

全体としては写真と比べるとリアル感が劣りますが、それでも動物を中心に細かく描写されています。従来の画像生成AIで課題とされていた人間の手や足の数などは、正常に描かれるケースが多くなっています。

ロゴなどの用途

ロゴの作成も依頼できます。以下は「猫をモチーフとした事業者用のロゴを作成してください」というプロンプトによって出力された画像です。

ロゴとしての全体イメージはきれいに描かれていますが、文字の表記はミスが見られる場合があるため、正式にロゴとして採用する前にチェックと調整が必要です。

細かな要素の指定

上記以外にも、テキストの追加や主観的な評価による微調整など細かな指定が可能です。例えば、前述の猫の画像に「あさごはん」という文字を加えるよう指示すると、以下の通り出力されました。

日本語ではなく、日本語風の文字がいくつか追記されました。現時点では日本語を正しく表示できない可能性があるため注意が必要です。

また、主観的な意見を添えて改善を依頼することで、イメージする画像に近づけることもできます。

API経由でDALL-E 3を使う手順

DALL-E 3はAPIに対応しており、さまざまなプラットフォームで利用できます。ここでは、API経由でDALL-E 3を利用するおおまかな手順について解説します。

APIキーを発行する

まずは、OpenAIのアカウントにてAPIキーを発行します。OpenAIのWebサイトを開き、ログインした後「Create new secret Key」を選択します。APIに任意の名前を付けて決定すると、APIキーが発行されます。

APIキーの右側のボタンをクリックし、キーをコピーして利用したい実行環境に設定していきます。なお、画像生成を行うAPIのうち、DALL-E 3で利用できるのは「テキストからの画像生成」のみです。

実行環境でAPI キーを設定する

DALL-E 3を使いたい実行環境側で、APIキーの設定を行います。規定のコードを実行し「OpenAI API Key:」と返ってきたら、APIキーを入力します。Enterを押すと連携が完了します。

なお、実行環境によっては操作が必要な場合があるため注意が必要です。例えば、Google ColabなどのPythonの実行環境では、ライブラリとモジュールのインストールが必要になります。

DALL-E 3を呼び出し画像を生成する

APIキーの設定と実行環境の操作が完了したら、DALL-E 3を使っていきます。プロンプトを入力することで生成画像のURLが返され、画像が利用できる仕組みです。API連携が可能なプラットフォームで自由にDALL-E 3の実力を試してみましょう。

なお、DALL-E 3では画像サイズや品質・生成回数が決められています。画像サイズは先述の3種類のみと限定されているので注意が必要です。

DALL-E 3で生成する画像の品質を高めるコツ

DALL-E 3 で生成される画像の精度や正確性は、プロンプトの内容次第で大きく変わります。特に、上記のようなツールで無料利用する場合、回数制限があるため、効率的に理想とする画像を生成してもらうよう意識する必要があります。

ここでは、DALL-E 3 で生成する画像の品質を高めるための2つのコツについて解説します。

より具体的に詳細を指定する

DALL-E 3 でより詳細なプロンプトを記述することで、生成される画像の品質が高まる可能性があります。「Bing Image Creator」の公式サイトでは、具体的な指示を与えることが想像以上の画像を生成するコツであると説明されています。

入力文に形容詞や動詞、背景の情報、「写真のような」「デジタルアートのような」といったスタイルなどの条件を盛り込むことが大切です。例えば、単純に「生物」と入れるのではなく、「毛深くてサングラスをかけた生物が、雪景色の中で踊っている様子を、デジタルアート調に生成してください」といった指示を使います。

なお、日本語よりも英語での指示の方が、効率的に画像を生成してくれる場合もあります。翻訳ツールなどを使って日本語のプロンプトを英語に翻訳し、プロンプトとして入力するだけでも、成果物が変わります。

ただ、画像を調整する際に、変更を指示していない部分まで変えられるケースが報告されています。画像の特定箇所だけ変えるために有用な方法として、シード値を使うやり方があります。出力された画像のシード値を聞くと番号を教えてくれるため、プロンプトに追加することで出力画像を細かく指定できます。

プロンプトエンジニアリングを学ぶ

プロンプトエンジニアリングは、ChatGPT などのAI ツールを効率的に使用するために、言語モデルへの命令（プロンプト）を開発・最適化する領域です。大規模言語モデル（LLM）などでは、単なる質問や指示では適切な成果物を出力できない場合があります。

そこで、AIが実行すべきタスクについて詳細情報や条件を適切な形で与えることで、意図した回答を得られる確率が高まります。プロンプトエンジニアリングの習得により、AIのパフォーマンスを最大限に引き出し、効果的なプロンプトを検証・設計できると考えられます。

プロンプトエンジニアリングの詳細やプロンプト例をまとめた下記記事もあわせてご覧ください。

プロンプトエンジニアリングとは？ChatGPTで代表的な12個のプロンプトを実演！

DALL-E 3 まとめ

DALL-E 3 は、2023年9月21日に OpenAI社が発表した最新の画像生成AIサービスです。日本語にも対応しており、テキストから内容を反映した画像を自動的に生成します。前作のDALL-E 2 に比べて理解力が高まっており、人間の手や顔などの細部において、より自然な表現を実現しています。

また、安全性や著作権侵害なども配慮されており、対策された環境で画像生成を楽しむことが可能です。2023年10月現在、ChatGPT に統合されており、ChatGPT Plus と Enterprise の2つの有料プラン向けに提供されています。

Microsoftの Bing Image Creator と Bing Chat では、無料利用も可能です。API提供の予定も公表されており、今後はより多くの外部アプリケーションでDALL-E 3を自由に活用できる環境が整備されていくでしょう。

よくある質問

DALL-E 3は無料で利用できますか？

DALL-E 3 を無料で使えるのは、現時点では Microsoft の Bing Image Creator と Bing Chat 上のみです。ChatGPT でも利用できますが、有料プランのChatGPT Plus もしくは Enterprise ユーザーに限定されており、無料プランのままでは利用できません。

Bing Image Creatorは日本語に対応していますか？

Bing Image Creator では、日本語のプロンプトで画像を作成することが可能です。以前は英語のみの対応でしたが、2023年4月に日本語対応を開始しています。

ただし、複雑すぎる文章や、専門的な用語を含むテキストは認識しきれない可能性があります。また、同じ内容をリクエストする場合でも、英語と日本語とでは出力内容に差が見られる場合もあるので、表現を変えるなど工夫してみましょう。

DALL-E 3のAPIはいつ提供されますか？

DALL-E 3 の API は、2023年の秋から提供予定です。具体的な日程は不明ですが、現時点では年内にスタートする可能性は高いでしょう。 APIによって、DALL-E 3を外部ソフトウェアやアプリケーションと連携し、外部サービスから画像を生成できるようになります。また、生成画像の取り込みもより効率的に完了できます。

Bing Image Creatorの商用利用は可能ですか？

Bing Image Creator で作成した画像の商用利用は認められておらず、非商業的目的でのみ利用できます。

公式サイトの利用規約では、「Microsoft サービス規約および弊社のコンテンツポリシーを遵守することを前提とし、個人の合法的な非商業的目的で作成物を使用できます。」といった内容が英語で記載されています。 Bing Image Creator の生成画像を商品やパンフレットで使用し、販売するといった行為は規約違反となるため注意が必要です。