「Dall-E」とは何か? 画像生成AIの技術や用途、歴史を解説:OpenAIが開発したAIモデルの基礎
OpenAIの「Dall-E」は、エンドユーザーの指示に応じて新しい画像を生成する生成AIモデルだ。同サービスの技術的な背景と使い方、依然として残る課題を説明する。
「Dall-E」は、OpenAIの画像生成AIモデル(AI:人工知能)と、同モデルを利用した画像生成サービスを指す。エンドユーザーが入力するテキスト形式のプロンプト(情報生成のための質問や指示)を使用して、新しい画像を生成する。Dall-Eは、エンドユーザーのプロンプトで指定されたさまざまなスタイルで画像を生成できる。
Dall-Eという名称は、「アートとAI技術を融合させる」という目標を暗示している。最初の部分(DALL)は、有名なスペインのシュールレアリスト芸術家サルバドール・ダリが基になっている。2番目の部分(E)は、ディズニー映画「WALL・E」に登場する同名ロボットから着想を得ている。
Dall-Eの歴史
併せて読みたいお薦め記事
「Dall-E」「画像生成AI」についてもっと詳しく
- Amazonが「画像生成AI」を提供する狙い “映える”イメージ作成が可能に
- 「画像生成AI」にマーケターが喜ぶ理由 “期待できる広告効果”とは?
- “大ヒット商品”に隠された「画像生成AI」の秘密とは? デザイナーが明かす
OpenAIは2021年1月にDall-Eを提供開始した。この技術は、同社が開発したLLM(大規模言語モデル)の「GPT-3」と深層学習モデルに基づいている。
Dall-Eは、OpenAIが2020年6月に提唱した概念「Image GPT」の進化版だ。Image GPTは、人間の脳の神経回路を再現した機械学習の要素技術であるニューラルネットワークを使用して、画像を新しく作成する方法を実証するOpenAIの最初の取り組みだった。Dall-EはImage GPTの着想を拡張したAIモデルで、エンドユーザーが自然言語を使って新しい画像を生成できるようにした。Dall-Eはデザインを自動生成する「ジェネレーティブデザインAI」に該当し、Stability AIの「Stable Diffusion」やMidjourneyの同名サービスといった他の画像生成AIモデルと競合する。
Dall-Eの開発手法は、Open AIの研究者によって2021年2月に公開された「Zero-Shot Text-to-Image Generation」という、20ページの研究論文で説明されている。ゼロショット学習は、事前学習した知識と、それに関連する未知の補助情報を使用して、AIモデルが新しい画像の生成といったタスクを実行できるようにするためのAI開発の手法だ。この研究論文で取り上げられているDall-Eの最初のバージョン「Dall-E 1」は、dVAE(Discrete Variational Autoencoder)と呼ばれるデータの圧縮技術を使用してテキストから画像を生成する。
Open AIはDall-Eの画像の出力精度を高めるために、4億枚のラベル付き画像でトレーニングされたCLIP(Contrastive Language-Image Pre-training)モデルも構築した。OpenAIはCLIPを使用して、生成された画像に最も適したキャプションを分析することで、Dall-Eの出力を評価した。
次世代バージョンの「Dall-E 2」は、Dall-E 1で使用された手法を改良し、より高画質で写実的な画像を作成できるようになった。Dall-E 2は、CLIPのデータを基に従来のバージョンより高品質な画像を生成することが可能になった。OpenAIはWebサービスとしてのDall-E 2の提供を終了しているが、開発者はAPIを通して同モデルをまだ利用できる。
OpenAIが2023年9月に発表した「DALL-E 3」は、同社のチャットbotサービス「ChatGPT」の技術を基に構築されており、プロンプトに書かれた内容に正確に沿った画像を生成する能力が向上している。ChatGPTのユーザーインタフェースを通したやりとりで、特定の画像の修正や微調整を実施する機能も備える。
登場当初のDall-Eは、GPT-3のサブセットを使用して構築された。このサブセットは、GPT-3が持つ1750億個のパラメーター(モデルのトレーニングに使う変数)全てではなく、画像生成という用途に合わせた120億個のパラメーターを使用する。GPT-3と同様に、Dall-Eも自然言語を処理する深層学習モデルの「Transformer」を利用して、AIモデルがさまざまな概念と概念を結び付けて理解できるようにしている。
Dall-Eの使用例
併せて読みたいお薦め記事
「Dall-E」「画像生成AI」についてもっと詳しく
- 「GPT-4 Turbo」「DALL-E 3」が利用可能に 「Azure OpenAI Service」の新機能
- Geminiの次は? LLMに何が起きる? AI市場の今後の見どころ
- 画像生成AIの“食わず嫌い”が駄目な理由
Dall-Eは次のような使用例が考えられる。
- アイデアの獲得
- 人が新しいアイデアを生み出すための着想を得るために、Dall-Eを使用できる。既存の創作過程に同サービスを組み込むことが可能だ。
- エンターテインメント
- Dall-Eによって作成された画像は、書籍やゲームで使用されることがある。Dall-Eは、新しいグラフィックスを自動で作成できるという点で、従来のグラフィックソフトウェアの機能を超えている。
- 教育
- 教師や教育者は、Dall-Eを使用してさまざまなテーマを説明する画像を生成できる。
- マーケティング
- 斬新でユニークな画像を作成できる能力は、広告やマーケティングに役立つ。
- 製品デザイン
- 製品設計者はDall-Eを使用することで、従来のCAD(コンピュータ支援設計)ソフトウェアや3DCGを使用して一から作業するよりも、高速に新しいデザイン案を視覚化できる可能性がある。
- 美術
- Dall-Eは誰でも使用できる。エンドユーザーは新しいアート作品を作成して楽しめる。
- 03#Dall-Eが抱える課題
Dall-Eが抱える課題
併せて読みたいお薦め記事
「Dall-E」「画像生成AI」についてもっと詳しく
Dall-Eにはさまざまな利点がある。しかしこの技術は欠点や課題を抱えている。著作権の課題はその一つだ。OpenAIはDall-Eでエンドユーザーが作成した画像を、エンドユーザーが販売したり転載したりすることを許可している。しかしAIモデルが生成した画像に著作権は発生するのか、誰が著作権を所有するのかといった点は各国の法律で異なり、議論の途上にある。OpenAIがDALL-Eのトレーニングに、第三者の著作権を侵害していない画像データを利用しているかどうかは、依然として不明だ。
生成された画像の、芸術としての正当性も議論の対象となっている。「AI技術で生成した画像を芸術と言えるかどうか」「芸術作品の制作にAI技術を使うことが倫理的であるかどうか」といった議論が起こっている。
Dall-Eは大規模なデータセットを使ってトレーニングされているが、完全ではない。特定のテーマやスタイルの画像の処理能力が不足している場合がある。そのためエンドユーザーは、プロンプトを入力しても意図した画像を生成できない可能性がある。
プロンプト作成にスキルを要する点にも注意が必要だ。エンドユーザーが適切な画像を出力するには、明確に定義されたプロンプトが必要となる。プロンプトに書かれた内容が一般的過ぎて、コンテキスト(文脈)が欠如している場合、思った通りに画像が生成できなくなることがある。
DALL-Eの料金体系
DALL-Eは、個人ユーザーと開発者向けの利用プランを用意している。2024年7月時点で、個人ユーザーはChatGPTのインタフェースを通してDALL-E 3を利用できる。開発者はAPIを使い、自分のサービスにDALL-Eの技術を組み込むことができる。
ChatGPTでDALL-E 3を使うには、有料プランの「ChatGPT Plus」に加入する必要がある。
併せて読みたいお薦め記事
「ChatGPT Plus」についてもっと詳しく
- 企業向け「ChatGPT Enterprise」は無料版ChatGPTと何が違う?
- 「ChatGPT」と「GPT」を利用料金で比較 具体的な金額とは?
- 「GPT-4o」の“すごい対話能力”が使える6つの方法はこれだ
APIを使用する開発者に対して、OpenAIは出力する画像の枚数に応じて課金する。料金は画像のサイズや解像度に応じて異なる。2024年7月時点で、DALL-E 2を利用して出力する場合、256×256ピクセルの画像は1枚当たり0.016ドルで、1024×1024ピクセルの画像は1枚当たり0.02ドルだ。DALL-E 3で標準画質の画像を出力する場合、1024×1024ピクセルの画像は1枚当たり0.04ドルで、高解像度で1024×1024ピクセルの画像は1枚当たり0.08ドルになる。
Copyright © ITmedia, Inc. All Rights Reserved.