DreamOmni2: プロンプトを終わらせるAI

その感覚を知っています。フラストレーションの鈍い音。AI画像生成器にプロンプトを入力して1時間が経過しました。「未来的な図書館の赤い革のアームチェア、スタイルはブレードランナー、ムーディーな照明。」生成を押します。赤いプラスチック椅子。図書館は高校のように見えます。照明は平坦です。

プロンプトを微調整します。「Aクリムゾン革のアームチェア...」再生成します。今度は椅子が正しいですが、図書館は消え、浮遊するオーブの混乱に置き換えられました。再生成します。そして再び。

これは創造性ではありません。これはギャンブルです。あなたはスロットマシンのレバーを引いて、ジャックポットを祈っています。何年もの間、これは生成AIの汚い秘密でした。GoogleやOpenAIのような巨人のツールは印象的ですが、それらはブラックボックスです。それらはおもちゃであり、ツールではありません。あなたはできません直接それらを。あなたはただ尋ねるそして希望。

その全体のフラストレーションの時代は終わりました。

香港科技大学（HKUST）のビジョナリーな教授、Jia Jiayaが率いる新しいオープンソースモデルが登場しました。それはDreamOmni2。「キングボム」というニックネームは、疲れ果てたクリエイターからのものです。

これは単なる漸進的な更新ではありません。それは力の根本的なシフトであり、閉じたプロンプトのみのモデルの限界を露呈する新しいパラダイムです。DreamOmni2は彼らのハンマーに対するメスであり、私たちが何十年も使用してきた「プロ」クリエイティブソフトウェアが今や正式に生命維持装置にあることを証明しています。

なぜ「Photoshopは死んだ」がついに現実になったのか

何年もの間、「Photoshopは死んだ」という見出しは純粋なクリックベイトでした。AIは生成できました新しい物事ですが、それはできませんでした編集プロフェッショナルが要求する精度で。その区別は今や消えました。高レベルのプロフェッショナルグレードの画像操作への参入障壁は蒸発しました。

テキストの壁：なぜあなたのプロンプトが失敗しているのか

私たちは皆、同じ壁にぶつかりました。AIアートの「ワオ」要素は、実際の仕事に使用しようとした最初の時点で消えました。問題？制御です。

できません本当にモデルに「構図が好きですが、テクスチャこの他の画像から照明この映画のスチルから」または「メイクアップスタイルこの写真から。」あなたはその言葉を入力できますが、AIはただ推測しています。それはあなたのプロンプトを解釈しているのであり、あなたの指示。それは意味的なスロットマシンです。

これがガラスの天井でした。私たちは皆、その下に閉じ込められていました。

推測ゲームを終わらせた「キングボム」

問題はあなたのプロンプトではありません。問題はですプロンプト。テキストは鈍く、不正確な手段です。それは視覚的なアイデアを伝えるための損失の多い形式です。

どれだけの言葉が必要ですか？正確な特定のツイードジャケットの生地の織り方？またはウェス・アンダーソン映画の微妙な色調整？できません。必要です表示だけでなく、伝える。

これがあなたが使用したすべての主要なモデルの失敗です。彼らはテキストのみです。彼らは半分の脳です。彼らはあなたに煙信号だけで交響曲を説明させています。

抽象的なアイデア：ビッグテックAIの盲点

テクノロジーの巨人たち—Google、OpenAI、その他—はこれを解決しませんでした。彼らはそれを強化しました。彼らは美しい、閉じた壁の庭を作りました。彼らのモデル、GoogleのNano BananaやOpenAIのGPT-4oのようなものは強力ですが、柔軟性がありません。

彼らのエコシステムに閉じ込められています。あなたは彼らの創造性の概念。

これが彼らの重大な盲点です：彼らは抽象的な概念。もちろん、彼らは生成できますオブジェクト「犬のような」しかし、あなたが制御しようとするとひどく失敗します。アイデアポーズ、特定のテクスチャ、照明設定、または芸術的スタイルのようなもの。これが理由ですDreamOmni2はそのような「キングボム」です。それは特に見る、理解し、制御これらの抽象的な概念。そして、それはオープンソースコミュニティが本物のクリエイティブツールの競争でビッグテックを追い越していることを証明しています。

DreamOmni2が衝撃的なクリエイティブコントロールを提供

ここでゲームが変わります。DreamOmni2はマルチモーダルAIです。「マルチモーダル」はシンプルなアイデアです：それはAIが複数の「モード」の情報を理解することを意味します。それはテキストを理解し、そしてそれは画像を理解し、そしてそれはそれらを組み合わせる方法を理解しています。

それについてではありませんプロンプトもうそれについてではありません。指示。

曖昧なプロンプトから正確な指示へ

新しいワークフローはシンプルであり、革命的です。あなたはソース画像（変更したいもの）、参照画像（コピーしたいもの）、そしてテキスト指示（コマンド）。

パンダの背景をID写真用に変更したいですか？

ソース：パンダの画像。
参照：単色背景の画像。
指示：「パンダの背景を画像1から画像2に置き換えてID写真を生成します。」

DreamOmni2推測しません。それは完璧な切り抜きを行い、個々の毛の詳細を保持し、新しい背景に配置します。これは、Photoshopで数分の注意深いマスキングを要する作業です。DreamOmni2それを数秒で行います。

特定の芸術スタイルを適用したいですか？

ソース：写真。
参照：油絵。
指示：「最初の画像を2番目の画像と同じ画像スタイルにしてください。」

再び、モデルは完璧に抽象的な概念色、雰囲気、筆使いをリファレンスから取り出し、ソース写真に適用します。これは私たちが夢見ていた精度のレベルです。

Googleを恥じ入らせるヘッド・トゥ・ヘッドテスト

これは単なる感覚ではありません。HKUSTのチームはDreamOmni2Google（Nano Banana）とOpenAI（GPT-4o）の最新かつ最高のモデルに対抗しました。結果は単に優れているだけでなく、億ドル規模のラボにとって恥ずかしいものでした。

簡単なテストが行われました。

ソース：ジャケットを着た男。
リファレンス：異なるスタイルのジャケット。
指示：「最初の画像のジャケットを2番目の画像の服に置き換えてください。」

何が起こったかを説明します。

GPT-4o：完全な失敗。合成された、過度にぼかされた、AIのような混乱を生み出しました。男のポーズを維持することさえできず、顔はぼやけた水彩画のように見えました。
GoogleのNano Banana：それはより良くなりました。男のポーズと顔を維持しました。しかしそれは指示に失敗しましたそれはジャケットの色しかしそのスタイル、そして完全にロゴを失いましたリファレンス画像から。
DreamOmni2：完璧な結果。それは男を正確に識別し、彼の顔とポーズをそのままにし、新しいジャケットを完璧に転送しました—その正しいスタイル、色、ロゴを含めて。

競争ではありませんでした。DreamOmni2唯一のものでした機能しました。

編集以上のもの：複数のリファレンスを使用して生成

さらに強力になります。DreamOmni21つのリファレンスに限定されません。それは複数リファレンスを想像し、それらを1つの新しい画像に組み合わせます。

この指示を想像してください：「ロゴ画像1から、カップの形画像2から、そしてそのカップをそのロゴでデスクに配置した新しい画像を生成します。」

システムはこの複雑で層状のリクエストを理解します。2つの異なる視覚的アイデアを1つの新しい、首尾一貫した、フォトリアリスティックな結果にシームレスに合成します。テストでは、ロゴをカップに完璧な照明と曲率で配置するだけでなく、反射を追加しましたカップをデスクの表面に配置します。これはコラージュではありません。本当の創造です。

真のAI指示の「生きた経験」

これは理論的なものではありません。これは私に個人的に影響します。

私のコーヒーマグとの4時間の戦い

先月、クライアントのために「簡単な」ことをしようとして4時間を費やしました。彼らの新しいロゴを持っていました。ただそれをコーヒーマグの写真に置いて製品モックアップを作成したかったのですが、それをリアルに見える。私はそれがマグのセラミックテクスチャと曲線照明と共に。

GPT-4oを試しました。それは平坦で醜いステッカーを吐き出しました。それは1995年のコピーペースト作業のように見えました。

別の「プロ」ウェブツールを試しました。それはただ...の写真をくれました異なるマグ、ロゴが不自然に浮いていました。

それは苛立たしいものでした。私は無力感を感じ、「再生成」を何度もクリックし、狂気に陥りました。私は「プロンプトエンジニアリング」をしていました。「フォトリアリスティック」、「ブレンド」、「テクスチャを適用」、「照明を一致させる」といった言葉を微調整していました。何も機能しませんでした。最終的に私はあきらめ、Photoshopでワープツールとレイヤーマスクを使って20分間偽装しました。

私のワークフローを変えた10秒の修正

それから私はDreamOmni2デモを試しました正確同じテスト。

画像1（ロゴ）+画像2（マグ）+プロンプト：「画像1のロゴを画像2のオブジェクトに印刷し、デスクに配置してください。」

10秒。完璧でした。ロゴはマグに沿って曲がり、照明は正しかった。それはデスク上にカップを生成しました反射を伴う。私はキーボードを投げそうになりました。すべての無駄な時間...ただ消えました。

これがDreamOmni2。それはAIにお願いする乞食から、命令を与えるディレクターに変わる感覚です。

DreamOmni2がAIの最大の問題を解決した方法

この飛躍は魔法ではありません。AIを妨げていた3つの最大の問題を解決した優れたエンジニアリングの結果です：良いデータ、良い翻訳者、そして良い順序。

データ革命：3段階のパラダイム

最大の課題はデータでした。どうやって訓練AIが「テクスチャ」のような抽象的なアイデアを理解するにはどうすればよいでしょうか。それをウェブからスクレイピングするだけではできません。

HKUSTチームは発明新しい方法でデータセットを構築します。彼らはそれを3段階のパラダイムと呼びますが、簡単に言えば次のような意味です：

ステージ1：完璧なペアを作成します。彼らは具体的なオブジェクト（「カップ」）と抽象的な概念（「セラミックテクスチャ」）の両方の高品質な画像ペアを生成できるシステムを構築しました。
ステージ2：「エクストラクター」を訓練します。彼らはこのデータを使用してモデルを訓練し、本当に得意抽出これらの概念を任意の画像から。レザージャケットを見てそれを分離することを学びましたオブジェクト（「ジャケット」）をコンセプト（「レザーテクスチャ」）。
ステージ3：「ディレクター」データセットを構築します。それから組み合わせましたすべて—ソース画像、複数のリファレンス画像、複雑なテキスト指示—を使用して、大規模で高品質なデータセットを作成しました。

このデータセットは、マルチリファレンス、抽象コンセプト編集のために特別に作られたもので、以前は存在しませんでしたDreamOmni2.

「翻訳者」：混沌とした人間のアイデアをVLMで使用する

これが最も素晴らしい部分かもしれません。私たちは「構造化されたコマンド」で考えるのではありません。私たちは混沌とした人間の言語で考えます。「このロゴをそのシャツに置いて、ちょっとビンテージでフェードした感じにして。」

DreamOmni2VLMを使用します—ビジョン言語モデル—その前頭葉として。VLMはテキストと画像の両方を深く理解するAIです。このVLMはユニバーサルトランスレーターとして機能します。

あなたの混沌とした人間の命令を与えます。VLMは理解しますあなたの意図を完璧で構造化された論理的なコマンドに翻訳し、AIの生成的AIの一部が完璧に実行できます。それはあなたの創造的な脳と機械の論理的な脳の間のギャップを埋めます。

「インデックスコード」：ピクセルブリードを止める方法

別の技術的なハードルがありました。古いモデルに複数の参照画像を与えると、混乱します。彼らはピクセルやスタイルを一つの参照から別の参照に「ブリード」させ、泥だらけで使い物にならない混乱を生み出します。

そのDreamOmni2チームは巧妙な修正を実装しました。彼らは「インデックスエンコーディング」と呼ばれるものを使用します。各参照画像に対する永久的なデジタル「ラベル」と考えてください。モデルは常に「画像1」がロゴで「画像2」がカップであることを知っています。これにより、混乱やピクセルブリードが防止され、モデルが指示を正確に守ることが保証されます。

最終的な考え

「プロンプトエンジニア」という名のもとに、スロットマシンのオペレーターのような時代は終わりました。テキストボックスと格闘する日々は終わりを迎えています。このようなツールはDreamOmni2新しい基準です。

これは他のAIモデルに対する脅威だけではありません。伝統的な手作業の「プロ」ソフトウェアにとっては絶滅レベルの出来事です。なぜPhotoshopで手動でマスキング、カラーマッチング、テクスチャーレイヤーの適用に何時間も費やすのでしょうか？より良く10秒で単一の指示で？

高レベルのクリエイティブツールの独占は破られました。創造性の未来はAIに許可を求めることではありません。それは指示それを正確に行います。そして最もエキサイティングな部分は？この革命はオープンソースです。ビッグテックが壁に囲まれた庭を作っている間に、オープンソースコミュニティはロケットシップを作りました。

このようなツールはDreamOmni2あなたの創造的なワークフローをどのように変えますか？あなたがついにコントロールを手に入れたとき、何を作りますか？

あなたの考えをお聞かせください！

よくある質問

DreamOmni2とは何ですか？ DreamOmni2HKUSTからの新しいオープンソースのマルチモーダルAIモデルです。高度なAI画像生成と編集のために設計されています。その主な特徴は、テキスト、ソース画像、および1つ以上の参照画像を組み合わせた指示を受け取り、非常に複雑で正確な編集を行う能力です。

DreamOmni2はDALL-EやGoogleのNano Bananaのような他のAI画像ジェネレーターとどう違うのですか？ほとんどのAIジェネレーターは「テキストから画像」です。テキストプロンプトを入力すると、画像が生成されます。DreamOmni2「マルチモーダル」エディターおよびジェネレーターです。あなたは既存の画像スタイル、テクスチャ、ポーズなどの参照として使用し、テキストプロンプトを使用して直接参照がどのように組み合わされるか、またはソース画像に適用されるかを制御します。これにより、はるかに多くの創造的なコントロールが得られます。

DreamOmni2の抽象的な概念を扱う能力はなぜ重要ですか？抽象的な概念（照明、素材のテクスチャ、芸術的スタイル、ポーズなど）を扱うことは、AI編集の聖杯です。他のモデルは具体的なオブジェクト（「猫」に「帽子」をかぶせるような）、DreamOmni2抽出できますただ絵画の「スタイル」やただ革ジャケットの「テクスチャ」を抽出し、別のオブジェクトに適用することができます。これはプロのアーティストやデザイナーが行う必要があることであり、これまでAIの大きな弱点でした。

DreamOmni2を使って自分の写真を編集できますか？はい。DreamOmni2複雑な編集作業のために設計されています。自分の写真を「ソース画像」として使用し、他の画像を「参照」として使用してそれを修正することができます。たとえば、参照写真を使用して元の写真の照明を変更したり、衣服の素材を変更したりすることができます。

DreamOmni2はPhotoshopのようなツールの必要性を置き換えますか？Photoshopで何時間もかかっていた複雑な編集作業（スタイル転送、テクスチャーマッチング、複雑なオブジェクトの置換など）に対して、DreamOmni2数秒で優れた結果を生み出すことができます。Photoshopは微調整に使用されるかもしれませんが、この新しい技術はかつては高度な手作業であったプロセスを自動化し、多くの一般的なワークフローにおいてそれを時代遅れにします。

DreamOmni2は本当にオープンソースですか？はい、HKUSTのチームがDreamOmni2オープンソースでGitHubで利用可能です。これにより、世界中の研究者や開発者がコードにアクセスし、それを基に構築し、自分のアプリケーションに統合することができ、急速な革新と採用が期待されます。