生成AI

最終更新日:2025/04/03
OpenAIは、マルチモーダルモデル「GPT-4o」を活用した新たな画像生成機能をChatGPTに統合しました。これにより、従来のDALL・Eシリーズを超えるリアルで実用的な画像生成が可能になりました。
このニュースのポイント
OpenAIは3月25日、同社の最新AIモデル「GPT-4o」を活用した画像生成機能をChatGPTに統合したと発表しました。この機能は、従来のDALL・Eシリーズと比べ、よりフォトリアリスティックな画像を生成できるほか、既存の画像を入力として編集・変換することも可能です。また、プロンプト内のテキストを画像に正確に反映させる能力も向上しています。
今回の機能は、Plus、Pro、Team、無料プランのユーザー向けに同日から提供が開始され、EnterpriseおよびEduプランにも近日中に展開予定です。開発者向けAPIも数週間以内に提供される予定で、ChatGPTを利用することで簡単に高品質な画像を生成できるようになります。
GPT-4oの画像生成は、DALL・Eとは異なるアーキテクチャを採用しています。DALL・Eが拡散モデルであるのに対し、GPT-4oは自己回帰モデルを採用。この違いにより、細かい指示に対する忠実な画像生成が可能となり、プロンプト内の複数のオブジェクトや関係性を正確に表現できるようになりました。
一方で、実在の人物の画像を悪用したり、武器の設計図を生成したりする危険性が指摘されています。OpenAIはこれらのリスクに対処するため、DALL・Eや動画生成AI「Sora」の運用経験を活かし、さまざまな安全対策を導入しています。
まず、ChatGPT自体がポリシー違反となるプロンプトを検知し、画像生成プロセスをブロックする仕組みを導入しています。さらに、画像生成ツールが呼び出された後、入力されたテキストや画像を分析し、ポリシー違反と判断された場合は生成を防ぐ「プロンプトブロッキング」も実施。また、生成された画像が適切かどうかを専門の分類器で評価し、ポリシー違反コンテンツの出力を防止する「出力ブロッキング」も行われています。未成年者保護の観点から、18歳未満と推定されるユーザーに対しては、不適切なコンテンツの生成をさらに厳しく制限する措置も取られています。
外部のレッドチームによる手動テストや自動化されたテストを通じて評価された結果、システムによる緩和策とチャットモデルの拒否を組み合わせることで、ポリシー違反のコンテンツ生成を97%以上防ぎつつ、過剰な拒否もある程度抑えられることが確認されています。
また、すべての生成画像にはC2PAメタデータが付与され、AI生成であることが識別可能になっています。これにより、ユーザーがAI生成コンテンツと実際の写真を区別しやすくなり、透明性の向上が期待されます。
OpenAIは、リアルな子供が写った既存画像の編集を許可せず、生存中のアーティストの名前を指定してスタイルを模倣するリクエストは拒否します。著名人の画像生成は原則としてブロックしませんが、未成年や暴力的な内容を含む場合は制限されます。また、性別、人種、肌の色に関する表現の多様性は改善されつつありますが、依然として課題が残っています。ディープフェイクや性的コンテンツは生成を制限・防止されており、芸術的、創造的、フィクションの文脈における暴力描写はある程度許容されています。
OpenAIは、今回の画像生成機能のリリースを安全性を確保するための厳格かつ反復的なアプローチの一環として位置付けており、今後も実際の利用状況から学び、継続的に安全対策とポリシーを評価・改善していく方針です。
出典:Open AI
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら