DALL-E 3とは？Bing Image Creatorの使い方や品質を高めるコツを解説

最終更新日:2025/01/16

DALL-E 3とは？

生成系AIの筆頭である ChatGPTを開発したOpenAI社が、2023年9月20日に最新の画像生成AI「DALL-E 3」を発表しました。前モデルのDALL-E 2からさらにパワーアップし、入力文のニュアンスやディテールの違いを画像に反映させることに成功しています。

現在、ChatGPTに統合されており、有料プランであるChatGPT PlusとEnterpriseで利用可能です。また、Microsoft Bing上では、会員は無料で使用できる他、Google Colabなど多くのプラットフォームからAPI経由でも使用できます。

DALL-E 3を使って生成された画像がすでにSNS上で出回るなど、話題を呼んでおり、使い方を詳しく知りたい人も多いかと思います。

本記事では、DALL-E 3の特徴や無料で利用する方法、画像生成プロンプトの例、希望する画像を生成するためのポイントなどについて解説します。最新の画像生成AIツールを有効活用するために、ぜひ参考にしてみてください。

DALL-E 3とは？

「DALL-E 3」は、2023年9月21日にOpenAI社がリリースした最新の画像生成AIサービスです。入力した言葉を認識し、内容を反映した画像を出力するAIサービス「DALLシリーズ」の最新作として発表されました。

当初は、ChatGPT内で提供が開始される予定でしたが、一足先に Microsoftの「Bing Image Creator」と「Bing Chat」上での利用がスタートしています。2023年10月からは、ChatGPT PlusとEnterpriseという2つの有料プランでも提供されています。

前作の「DALL-E 2」に比べて入力情報の理解力が上がり、人間の手や顔などの精度や全体的な品質レベルも向上しています。また、悪用防止対策としての安全性や、著作権侵害を回避するための制御性を備えている点も大きな特徴です。

DALL-E 3の特徴

DALL-E 3では、シリーズ前作の「DALL-E 2」に比べて、入力されたテキストのニュアンスや詳細を理解する能力が向上しています。そのため、プロンプト内容により忠実な画像を効率的に生成することが可能です。

DALL-E 3は、生成系AIサービスにおける課題の1つであるモラルや常識への対策も考慮されており、暴力的あるいは成人向けなどのコンテンツの生成を制限しています。また、フェイクニュースへの悪用を避けるために、有名人などの名前を含むリクエストをキャンセルするような対策も取られています。

さらに、著作権侵害への対策として、存在するアーティストのスタイルで画像を生成するようなリクエストは拒否される設計です。DALL-E 3で生成された画像の所有権はユーザー側にありますが、このクリエイティブコントロールによって悪用被害を防ぐ効果が期待できます。

DALL-E 3はChatGPTに組み込まれており、ChatGPT上でアイデアを入力するだけで、内容を理解して詳細な画像を自動生成できる点も大きな特徴です。

DALL-E 3とDALL-E 2の違い

DALL-E 3の前モデルである DALL-E 2 は、2022年4月にOpenAI社が発表した画像生成AIツールです。DALL-E 3とDALL-E 2の主な違いは、まず生成画像の品質にあります。

DALL-E 3では、プロンプトのニュアンスや詳細をより深く、繊細に理解し、画像に反映させることが可能です。特に、人間の手指や顔などのディテールが違和感なく的確に描かれるようになり、ユーザーのアイデアを高精度な画像に落とし込めます。

また、ChatGPTにDALL-E 3が統合されたことにより、想定していた生成物と異なる画像が生成された際に、チャットで伝えるだけで簡単に微調整できます。ChatGPTを使ってアイデアをブレインストーミングし、プロンプトを添削した上で、DALL-E 3 へ画像生成を依頼するという使い方も可能です。

DALL-E 3はいつから無料利用できるようになった？

ChatGPTに先駆けて、2023年10月よりMicrosoft Bingの「Image Creator」と「Bing Chat」上でDALL-E 3の利用が開始されました。テキストを入力することで、高精度な画像を無料で生成することが可能です。

Microsoftの「Bing Image Creator」は、過去に10億枚以上の画像を生成した実績を持つ画像生成AI搭載サービスです。DALL-E 3を統合したことにより、これまで以上に写実的で高品質な画像の生成を実現しています。

また、コンテンツクレデンシャル機能により、AI作成画像であることを証明する情報を生成画像に含むことができ、画像の透明性と信頼性が保たれています。

「Bing Chat」は、対話形式のAIサービスです。テキストでの対話を通じて、求める画像を生成、改良するなど、クリエイティブに活用できます。

なお、有料版の「Bing Chat Enterprise」と、スマホ向け仮想キーボードアプリ「Microsoft SwiftKey」を使って「Image Creator」にアクセスできることが公式に発表されています。さらに多くのユーザーがDALL-E 3の画像生成を体験できる環境が整えられています。

DALL-E 3の使い方

ここからは、「Bing Image Creator」と「Bing Chat」にて実際にDALL-E 3を使用する手順を紹介します。

Bing Image Creatorの場合

Bing Image Generatorでは、Microsoft アカウントがあればDALL-E 3を無料で利用できます。まず「Image Creator for Microsoft Bing」のサイトにアクセスし、Microsoft アカウントにログインします。

アカウントをまだ持っていない人は、「Join&Create」というビンクのボタンをクリックして登録画面に進むことができます。

ログイン後に、下記画面のバーに生成したい画像の条件を入力します。

右に表示されている「Create」のボタンをクリックするだけで、画像が自動的に生成されます。1つのリクエストに対して、おおむね3つの異なる画像が表示されます。

いずれの画像も細部まで仕上げられています。

「Image Creator for Microsoft Bing」は、Microsoftのアカウントでログインすれば無料で画像を生成できますが、使用回数には制限が設けられています。プロンプトを入力するバーに表示されているコインのようなものは「ブースト」と呼ばれ、リクエストの度に消費される仕組みです。

ブーストが不足すると、画像生成に時間がかかる可能性があります。ただ、Microsoft Bingでの検索などで貯まるリワードを、追加ブーストと引き換えれば処理時間を短縮することが可能です。サインアップ時には25のブーストが付与されていますが、1週間の最大ブーストは15までなので、無料のまま使い続けるためには計画的に利用する必要があります。

Bing Chatの場合

続いて、「Bing Chat」でDALL-E 3を利用する手順を説明します。基本的なやり方は「Bing Image Creator」と同じです。まずは「Bing Chat」にアクセスし、Microsoft アカウントにログインします。

下記のような画面が表示されたら、一番下のバーに生成したい画像のプロンプトを入力します。

Enterキー、または右側の矢印マークをクリックすると、自動で画像を生成してくれます。

Bing Chatではおおむね4つの異なる画像を生成できます。ただ、Bing Chat自体の回数制限があり、1ユーザーのチャットは1日最大50回、1回あたり最大5ターンまで（質問とそれに対するBingの返答で1ターン）と決まっています。

回数上限を超えてリクエストすると、新しい話題に映るようメッセージが表示されるので、ほうきのボタンをクリックして会話をリセットすることが可能です。Bingからの解答に「3 of 5」といったように、何回目のやり取りかが表示されるので参考にしてみてください。

DALL-E3のプロンプトのコツ

DALL-E3は、日本語でのシンプルなプロンプトでも高い精度の画像を作ることができます。しかし、プロンプトには様々なコツがあり、それを理解することでより高い精度の画像を生成することができます。

以下ではプロンプトのコツについて紹介します。

具体的で明確な指示を意識する

「花を描いて」とだけ指示するより、「真っ赤な一輪のバラを、暗い背景で強調して描いて」といったように、明確なイメージを言語化することがポイントです。キーワードを増やすほど、DALL-E 3は理想に近い画像を生成しやすくなります。

具体的な要素例

色・形・テクスチャ
場所・背景・雰囲気
光源の位置や陰影
スタイル（「ピカソ風」「水彩調」など）

構造化データ（例：YAML形式）で指示を与える

文章形式でも生成可能ですが、生成AIは構造化データの方が理解しやすいことがあります。YAMLなどの形式を使って、描いてほしい要素を階層的に整理することで、より細かいニュアンスまで反映しやすくなります。

YAML形式で「トマトクリームパスタ」を指示

トマトクリームパスタ:
スタイル: “イタリアンレストランのメニュー風”
配置:
– 大きめの白い皿の中心に高めに盛り付ける
– パスタの上にバジルの葉やパルメザンチーズを軽くトッピング
– 周囲を軽く拭き取り、清潔感あるレストランの盛り付けに
色:
皿: “白または淡いクリーム色”
ソース: “オレンジがかった明るい赤”
パスタ: “やや黄色みのあるベージュ”
トッピング:
チーズ: “薄いクリーム色”
バジルの葉: “鮮やかな緑”
背景:
– 温かみのある照明を当て、食欲をそそる雰囲気に
– テーブルクロスやカトラリーなど、軽くぼかした背景で料理を引き立てる

ChatGPTでプロンプトを生成してもらう

「こんな画像が欲しいけど、どんなプロンプトを入力すればいいの？」と悩んだときには、ChatGPTを頼るのがおすすめです。以下のように依頼すると、かなり緻密なプロンプトを自動生成してくれます。

例：「あなたは優秀なプロンプトエンジニアです。DALL-E 3に対して、食欲をそそるリアルなトマトクリームパスタを描かせるための具体的なプロンプトを提案してください。」

ChatGPTのアウトプットをそのままDALL-E 3に入力してみると、驚くほど鮮明な画像が得られることがあります。細部が気に入らなければ、追加で修正リクエストをかけてみましょう。

シード値や画像IDを活用して一貫性を保つ

シード値（seed）：画像生成時の乱数を固定できるため、同じシード値を設定すると「同じキャラクター・オブジェクト」を再現しやすくなります。
画像ID：生成済みの画像を特定するID。以前に生成した画像と同じ要素を使いつつ、一部だけ変えて再生成したい場合などに役立ちます。

「キャラクターのデザインはそのままで、背景だけを変えたい」というようなシチュエーションでは、シード値や画像IDをセットで使うと便利です。

トライアンドエラーで微調整する

いきなり100点満点の画像を得るのは難しいですが、DALL-E 3の強みは「完成した画像に追加で指示を出して修正できる」点です。

まず大まかなイメージを作る
そこから光源や色味、背景などを少しずつ変えていく

この工程を繰り返すことで、理想的な仕上がりに近づきます。

日本語でもよいが、英語を使うと高精度に

DALL-E 3では英語が最も得意とされますが、日本語のサポートも格段に進化しています。実は「シンプルな日本語でも理解しやすいようにChatGPTが自動変換してくれる仕組み」が備わっており、思いついた言葉をそのまま日本語で入力しても、かなりクオリティの高い画像が出力されます。

さらに精度を上げる裏わざとして、英語に変換をさせるという方法があります。

「rewrite natural English and then use this prompt」と一度入力してから日本語で書くと、ChatGPTが自動で自然な英語プロンプトに変換してくれます。

ChatGPTでDALL-E3を使った画像生成方法

ChatGPTの有料プラン「ChatGPT Plus」に登録することで、DALL-E 3をChatGPT内で利用することができます。今回はPCブラウザからChatGPTを起動してDALL-E 3を使用します。

「GPT-4」から「DALL-E 3」を選択する

ChatGPTの有料プラン「ChatGPT Plus」に登録しているユーザーは、上の画像のようなプルダウンメニューが出てくるため、そこから「DALL-E 3」を選択してください。

日本語でプロンプトを入力する

ここからは実際に日本語でプロンプトを入力していきます。はじめに、AIsmileyのキャッチコピーからロゴを作成するように指示しましたが「具体的な企業やブランドのロゴを作成することはできません」と断られてしまいました。

ただし、以下のような抽象的な説明をもとにイメージを生成することができると回答があったので、それぞれの説明をもとに画像作成してもらいました。

最初のプロンプトでここまで精度の高い画像が生成されるとは想像していませんでした。次のプロンプトを入力してみます。

プロンプト例「1」をベースに、画像内のテキストや配色について指示をしてみました。

少々イメージに近くなってきましたが、もう少し指示を与えてみます。

白いリボンの中の文字を消すように指示しましたが、リボンそのものが消え、頭上に文字だけが残る形になりました。画像のクオリティとしては十分なため、この画像イメージをもとに次の指示を与えてみます。

生成した画像をアイキャッチ用に調整する

現状の画像品質でも決して悪くはありませんが、正方形の画像は少々使い勝手が悪いため、コラム記事のアイキャッチにも使えるようピクセルの指示を出してみました。しかし、結果は「画像のリサイズは行えない」となりました。

引き続き粘り強く聞いてみると、「横長の長方形の画像を生成することはできる」という回答が得られました。早速生成してもらいましょう。

頭上の文字こそ消えませんでしたが、スマイリーくんの表情もいくらか明るくなったように見えます。ChatGPT内でアイキャッチ用の画像生成ができれば、作業時間も大幅に削減できます。

ちなみに、画像生成にかかる時間は平均30秒～1分で、生成された画像は全てダウンロードすることが可能です。気になる方はぜひ上記の手順を真似してみてください。

DALL-E3での画像生成プロンプト例

DALL-E 3で画像を生成する際に使えるプロンプト例を紹介します。細かな指示を加えながら少しずつ生成画像を調整することで、理想の画像に近づけることが可能です。

サイズ指示

横長や縦長などのサイズを指定したい場合は、プロンプトに指示を追加します。横長にしたい場合は「横長で画像を作成してください」「画像を横長にしてください」といった一文を入れます。

具体的なピクセル値を指定することも可能です。ただ、現時点で対応可能な縦横比は「1792px × 1024px」「1024px × 1024px」「1024px × 1792px」の3種類とされています。数値の指定がなくても縦長、横長、正方形といったコメントだけでも対応してもらえる場合があります。

テイスト指示

ポップ、ナチュラルといったテイストも指示することが可能です。例えば、「餌を待つ猫」という画像の生成を依頼したところ、以下の画像が出力されました。

上記の画像を「明るい色合いでポップな雰囲気に変えてください」と入力すると、以下の画像が生成されました。

単純にスタイルを指定するよりも、色合いや雰囲気について細かく指定する方が、イメージに近い画像を得られる可能性が高まります。

人物や動物の描写

人や動物の描写も丁寧に画像化してくれます。以下は「ニューヨークの高級住宅街を散歩するボーダーコリー犬とマダム」というプロンプトです。

全体としては写真と比べるとリアル感が劣りますが、動物を中心に細かく描写されています。従来の画像生成AIで課題とされていた人間の手や足の数などは、正常に描かれるケースが多くなっています。

ロゴなどの用途

ロゴの作成も依頼できます。以下は「猫をモチーフとした事業者用のロゴを作成してください」というプロンプトによって出力された画像です。

ロゴとしての全体イメージはきれいに描かれていますが、文字の表記はミスが見られる場合があるため、正式にロゴとして採用する前にチェックと調整が必要です。

細かな要素の指定

上記以外にも、テキストの追加や主観的な評価による微調整など細かな指定が可能です。例えば、前述の猫の画像に「あさごはん」という文字を加えるよう指示すると、以下の通り出力されました。

日本語ではなく、日本語風の文字がいくつか追記されました。現時点では日本語を正しく表示できない可能性があるため注意が必要です。

また、主観的な意見を添えて改善を依頼することで、イメージする画像に近づけることもできます。

API経由でDALL-E 3を使う手順

DALL-E 3はAPIに対応しており、さまざまなプラットフォームで利用できます。ここでは、API経由でDALL-E 3を利用するおおまかな手順について解説します。

APIキーを発行する

まずは、OpenAIのアカウントにてAPIキーを発行します。OpenAIのWebサイトを開き、ログインした後「Create new secret Key」を選択します。APIに任意の名前を付けて決定すると、APIキーが発行されます。

APIキーの右側のボタンをクリックし、キーをコピーして利用したい実行環境に設定していきます。なお、画像生成を行うAPIのうち、DALL-E 3で利用できるのは「テキストからの画像生成」のみです。

実行環境でAPIキーを設定する

DALL-E 3を使いたい実行環境側で、APIキーの設定を行います。規定のコードを実行し「OpenAI API Key:」と返ってきたら、APIキーを入力します。Enterを押すと連携が完了します。

なお、実行環境によっては操作が必要な場合があるため注意が必要です。例えば、Google ColabなどのPythonの実行環境では、ライブラリとモジュールのインストールが必要になります。

DALL-E 3を呼び出し画像を生成する

APIキーの設定と実行環境の操作が完了したら、DALL-E 3を使っていきます。プロンプトを入力することで生成画像のURLが返され、画像が利用できる仕組みです。API連携が可能なプラットフォームで自由にDALL-E 3の実力を試してみることをおすすめします。

なお、DALL-E 3では画像サイズや品質・生成回数が決められており、画像サイズは先述の3種類のみと限定されているので注意が必要です。

DALL-E 3 まとめ

DALL-E 3は、2023年9月21日に OpenAI社が発表した最新の画像生成AIサービスです。日本語にも対応しており、テキストから内容を反映した画像を自動的に生成します。前作のDALL-E 2に比べて理解力が高まっており、人間の手や顔などの細部において、より自然な表現を実現しています。

また、安全性や著作権侵害なども配慮されており、対策された環境で画像生成を楽しむことが可能です。2023年10月現在、ChatGPTに統合されており、ChatGPT PlusとEnterpriseの2つの有料プラン向けに提供されています。

MicrosoftのBing Image CreatorとBing Chatでは、無料利用も可能です。API提供の予定も公表されており、今後はより多くの外部アプリケーションでDALL-E 3を自由に活用できる環境が整備されていくでしょう。

よくある質問

DALL-E 3は無料で利用できますか？

DALL-E 3 を無料で使えるのは、現時点では Microsoft の Bing Image Creator と Bing Chat 上のみです。ChatGPT でも利用できますが、有料プランのChatGPT Plus もしくは Enterprise ユーザーに限定されており、無料プランのままでは利用できません。

Bing Image Creatorは日本語に対応していますか？

Bing Image Creator では、日本語のプロンプトで画像を作成することが可能です。以前は英語のみの対応でしたが、2023年4月に日本語対応を開始しています。

ただし、複雑すぎる文章や、専門的な用語を含むテキストは認識しきれない可能性があります。また、同じ内容をリクエストする場合でも、英語と日本語とでは出力内容に差が見られる場合もあるので、表現を変えるなど工夫してみましょう。

DALL-E 3のAPIはいつ提供されますか？

DALL-E 3 の API は、2023年の秋から提供予定です。具体的な日程は不明ですが、現時点では年内にスタートする可能性は高いでしょう。 APIによって、DALL-E 3を外部ソフトウェアやアプリケーションと連携し、外部サービスから画像を生成できるようになります。また、生成画像の取り込みもより効率的に完了できます。

Bing Image Creatorの商用利用は可能ですか？

Bing Image Creator で作成した画像の商用利用は認められておらず、非商業的目的でのみ利用できます。

公式サイトの利用規約では、「Microsoft サービス規約および弊社のコンテンツポリシーを遵守することを前提とし、個人の合法的な非商業的目的で作成物を使用できます。」といった内容が英語で記載されています。 Bing Image Creator の生成画像を商品やパンフレットで使用し、販売するといった行為は規約違反となるため注意が必要です。