「Dall-E」とは何か? 画像生成AIの技術や用途、歴史を解説OpenAIが開発したAIモデルの基礎

OpenAIの「Dall-E」は、エンドユーザーの指示に応じて新しい画像を生成する生成AIモデルだ。同サービスの技術的な背景と使い方、依然として残る課題を説明する。

2024年09月06日 10時00分 公開
[Sean Michael KernerTechTarget]

関連キーワード

人工知能 | 機械学習


 「Dall-E」は、OpenAIの画像生成AIモデル(AI:人工知能)と、同モデルを利用した画像生成サービスを指す。エンドユーザーが入力するテキスト形式のプロンプト(情報生成のための質問や指示)を使用して、新しい画像を生成する。Dall-Eは、エンドユーザーのプロンプトで指定されたさまざまなスタイルで画像を生成できる。

 Dall-Eという名称は、「アートとAI技術を融合させる」という目標を暗示している。最初の部分(DALL)は、有名なスペインのシュールレアリスト芸術家サルバドール・ダリが基になっている。2番目の部分(E)は、ディズニー映画「WALL・E」に登場する同名ロボットから着想を得ている。

Dall-Eの歴史

 OpenAIは2021年1月にDall-Eを提供開始した。この技術は、同社が開発したLLM(大規模言語モデル)の「GPT-3」と深層学習モデルに基づいている。

 Dall-Eは、OpenAIが2020年6月に提唱した概念「Image GPT」の進化版だ。Image GPTは、人間の脳の神経回路を再現した機械学習の要素技術であるニューラルネットワークを使用して、画像を新しく作成する方法を実証するOpenAIの最初の取り組みだった。Dall-EはImage GPTの着想を拡張したAIモデルで、エンドユーザーが自然言語を使って新しい画像を生成できるようにした。Dall-Eはデザインを自動生成する「ジェネレーティブデザインAI」に該当し、Stability AIの「Stable Diffusion」やMidjourneyの同名サービスといった他の画像生成AIモデルと競合する。

 Dall-Eの開発手法は、Open AIの研究者によって2021年2月に公開された「Zero-Shot Text-to-Image Generation」という、20ページの研究論文で説明されている。ゼロショット学習は、事前学習した知識と、それに関連する未知の補助情報を使用して、AIモデルが新しい画像の生成といったタスクを実行できるようにするためのAI開発の手法だ。この研究論文で取り上げられているDall-Eの最初のバージョン「Dall-E 1」は、dVAE(Discrete Variational Autoencoder)と呼ばれるデータの圧縮技術を使用してテキストから画像を生成する。

 Open AIはDall-Eの画像の出力精度を高めるために、4億枚のラベル付き画像でトレーニングされたCLIP(Contrastive Language-Image Pre-training)モデルも構築した。OpenAIはCLIPを使用して、生成された画像に最も適したキャプションを分析することで、Dall-Eの出力を評価した。

 次世代バージョンの「Dall-E 2」は、Dall-E 1で使用された手法を改良し、より高画質で写実的な画像を作成できるようになった。Dall-E 2は、CLIPのデータを基に従来のバージョンより高品質な画像を生成することが可能になった。OpenAIはWebサービスとしてのDall-E 2の提供を終了しているが、開発者はAPIを通して同モデルをまだ利用できる。

 OpenAIが2023年9月に発表した「DALL-E 3」は、同社のチャットbotサービス「ChatGPT」の技術を基に構築されており、プロンプトに書かれた内容に正確に沿った画像を生成する能力が向上している。ChatGPTのユーザーインタフェースを通したやりとりで、特定の画像の修正や微調整を実施する機能も備える。

 登場当初のDall-Eは、GPT-3のサブセットを使用して構築された。このサブセットは、GPT-3が持つ1750億個のパラメーター(モデルのトレーニングに使う変数)全てではなく、画像生成という用途に合わせた120億個のパラメーターを使用する。GPT-3と同様に、Dall-Eも自然言語を処理する深層学習モデルの「Transformer」を利用して、AIモデルがさまざまな概念と概念を結び付けて理解できるようにしている。

Dall-Eの使用例

 Dall-Eは次のような使用例が考えられる。

  • アイデアの獲得
    • 人が新しいアイデアを生み出すための着想を得るために、Dall-Eを使用できる。既存の創作過程に同サービスを組み込むことが可能だ。
  • エンターテインメント
    • Dall-Eによって作成された画像は、書籍やゲームで使用されることがある。Dall-Eは、新しいグラフィックスを自動で作成できるという点で、従来のグラフィックソフトウェアの機能を超えている。
  • 教育
    • 教師や教育者は、Dall-Eを使用してさまざまなテーマを説明する画像を生成できる。
  • マーケティング
    • 斬新でユニークな画像を作成できる能力は、広告やマーケティングに役立つ。
  • 製品デザイン
    • 製品設計者はDall-Eを使用することで、従来のCAD(コンピュータ支援設計)ソフトウェアや3DCGを使用して一から作業するよりも、高速に新しいデザイン案を視覚化できる可能性がある。
  • 美術
    • Dall-Eは誰でも使用できる。エンドユーザーは新しいアート作品を作成して楽しめる。
  1. 03#Dall-Eが抱える課題

Dall-Eが抱える課題

 Dall-Eにはさまざまな利点がある。しかしこの技術は欠点や課題を抱えている。著作権の課題はその一つだ。OpenAIはDall-Eでエンドユーザーが作成した画像を、エンドユーザーが販売したり転載したりすることを許可している。しかしAIモデルが生成した画像に著作権は発生するのか、誰が著作権を所有するのかといった点は各国の法律で異なり、議論の途上にある。OpenAIがDALL-Eのトレーニングに、第三者の著作権を侵害していない画像データを利用しているかどうかは、依然として不明だ。

 生成された画像の、芸術としての正当性も議論の対象となっている。「AI技術で生成した画像を芸術と言えるかどうか」「芸術作品の制作にAI技術を使うことが倫理的であるかどうか」といった議論が起こっている。

 Dall-Eは大規模なデータセットを使ってトレーニングされているが、完全ではない。特定のテーマやスタイルの画像の処理能力が不足している場合がある。そのためエンドユーザーは、プロンプトを入力しても意図した画像を生成できない可能性がある。

 プロンプト作成にスキルを要する点にも注意が必要だ。エンドユーザーが適切な画像を出力するには、明確に定義されたプロンプトが必要となる。プロンプトに書かれた内容が一般的過ぎて、コンテキスト(文脈)が欠如している場合、思った通りに画像が生成できなくなることがある。

DALL-Eの料金体系

 DALL-Eは、個人ユーザーと開発者向けの利用プランを用意している。2024年7月時点で、個人ユーザーはChatGPTのインタフェースを通してDALL-E 3を利用できる。開発者はAPIを使い、自分のサービスにDALL-Eの技術を組み込むことができる。

 ChatGPTでDALL-E 3を使うには、有料プランの「ChatGPT Plus」に加入する必要がある。

 APIを使用する開発者に対して、OpenAIは出力する画像の枚数に応じて課金する。料金は画像のサイズや解像度に応じて異なる。2024年7月時点で、DALL-E 2を利用して出力する場合、256×256ピクセルの画像は1枚当たり0.016ドルで、1024×1024ピクセルの画像は1枚当たり0.02ドルだ。DALL-E 3で標準画質の画像を出力する場合、1024×1024ピクセルの画像は1枚当たり0.04ドルで、高解像度で1024×1024ピクセルの画像は1枚当たり0.08ドルになる。

Copyright © ITmedia, Inc. All Rights Reserved.

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

製品資料 グーグル・クラウド・ジャパン合同会社

約80%の企業でAIが定着していない? その理由と成功させるためのポイントとは

生成AIを活用して業務や顧客体験の再構築を進める動きが活性化しているが、その多くが、PoCやラボ環境の段階にとどまっている。なぜなら、生成AIの可能性を最大限に引き出すための、インフラのパフォーマンスが不十分だからだ。

市場調査・トレンド グーグル・クラウド・ジャパン合同会社

ソフトウェア開発ライフサイクルにおける、生成AI活用のポイントを考察する

昨今のソフトウェア開発では、AIコーディングアシスタントの活用が主流になっている。しかし、最適なコーディングアシストツールは、開発者や企業によって異なるという。導入の際は、どのようなポイントに注意すればよいのか。

製品資料 グーグル・クラウド・ジャパン合同会社

データベースをモダナイズし、生成AIを最大限に活用する方法とは?

生成AIの活用にはデータベースが重要となるが、従来のデータベースは最新テクノロジーに対応できないなどの課題がある。本資料では、データベースをモダナイズし、生成AIを用いてビジネスイノベーションを生み出すための方法を探る。

製品資料 グーグル・クラウド・ジャパン合同会社

検索体験と結果の質をどう高める? ユーザーに喜ばれる検索体験を実現する方法

ビジネスにおいて、検索体験およびその結果の質の向上が重要なテーマとなっている。顧客はもちろん、自社の従業員に対しても、実用的な答えをより迅速に、手間なく入手できる環境の整備が求められている。

事例 グーグル・クラウド・ジャパン合同会社

検索の効率化からデータ活用まで、生成AIの業務組み込み事例5選

登場以来ビジネスへの活用方法が模索されてきた生成AI。近年では業務組み込みにおける具体的な成功例が数多く報告されている。本資料では、5件の生成AI活用事例を交えて、業務に組み込む上での具体的なアプローチを解説する。

郢晏生ホヲ郢敖€郢晢スシ郢ァ�ウ郢晢スウ郢晢ソスホヲ郢晢ソスPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

「Dall-E」とは何か? 画像生成AIの技術や用途、歴史を解説:OpenAIが開発したAIモデルの基礎 - TechTargetジャパン エンタープライズAI 隴�スー騾ケツ€髫ェ蛟�スコ�ス

TechTarget郢ァ�ク郢晢ス」郢昜サ」ホヲ 隴�スー騾ケツ€髫ェ蛟�スコ�ス

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。