オープンソース画像生成モデルの対決：SD3.5は本当に追い越せるのか？ created with SeaArt AI

イントロダクション：

SDコミュニティはSD3への信頼を失い、Fluxに移行し始めていた矢先、SD3.5がついに登場し、驚くべきことに期待を裏切りませんでした。2024年6月12日にリリースされた待望のSD3 Mediumウェイトモデルは、多くの注目を集めました。最初のテスト画像（「芝生の上の少女」）は笑いを誘いましたが、SD3モデルはSDXLと比較して、プロンプトへの忠実性とテキスト生成において大きな改善を示しました。しかし、リアルな人間のフィギュア生成という多くのユーザーにとって重要な課題には依然として苦戦しており、強固な支持基盤を確保するには至りませんでした。7月5日、StabilityAIは「改良されたSD3 Medium」を約束しましたが、度重なる遅延によりユーザーの期待は次第に薄れていきました。その後、2024年8月1日、Fluxはプロンプトへの忠実性と人間描写に優れたモデルをリリースし、瞬く間に新たな人気を得て、SDコミュニティの焦点はFluxに移りました。

4ヶ月後、ユーザーの多くがFluxに移行したにもかかわらず、SD3.5 Largeが予想外の復活を遂げました。最初の反応は懐疑的でしたが、その後の数日間で、SD3.5の画像品質は予想以上に良好であることが判明しました。私自身のテストでは、SD3.5の色彩レンダリングやライティング効果はMidjourneyの基準に近づき、かなりの可能性を示しました。

この記事では、SD3.5の性能に詳しく迫ります！

1. SD3.5のセットアップ – クイックガイド：

●stabilityai/stable-diffusion-3.5-largeにアクセスし、ダウンロード矢印をクリックしてsd3.5_large.safetensorsモデルファイルをダウンロードし、ComfyUIディレクトリ内のmodels/checkpointフォルダに配置します。

● https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main text_encodersリンクにアクセスし、clip_g、clip_l、t5xxlをダウンロードします（GPUの容量に応じてfp8またはfp16を選択。16GB以上のVRAMがある場合は、品質向上のためにfp16を推奨します）。それらをmodels/clipディレクトリに配置します。

● https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main/text_encoders 公式 ComfyUIワークフローをダウンロードし、SD3.5L_example_workflow.jsonをComfyUIに読み込み、ダウンロードしたモデルを選択し、パラメータを調整します。（SD3.5のCFGは十分なため、24ステップに制限することをお勧めします。公式ワークフローで提案されている40ステップは必要ありません。）

これで生成された画像を使用できます！ただし、この記事にあるすべての画像はSeaArtで生成されています。

Fluxのテキストから画像への生成： https://www.seaart.ai/workFlowAppDetail/cqofr0le878c73dckp1g

SD 3.5のテキストから画像への生成： https://www.seaart.aiworkFlowAppDetail/cscbdlte878c73amh300

2. 画像生成の比較

➢ 写実的なテーマ

プロフェッショナルな写真 / 映画的ポートレート

プロンプト：「映画的な正面写真で、スリムな白人男性のドライアドが木から現れる。彼は目を閉じ、頭を下げて視聴者に向かって立ち、背中は木に寄りかかっている。腕と胸は緑の枝と白い花でできており、髪は茶色のつると枝で構成され、体は木の幹と融合している。肌は苔や葉に覆われ、肩や鎖骨は淡い人間の肌に似ている。この写真は、35mmレンズを使用し、黄金の時間のエッセンスを捉えている。」

このラウンドでは、SD3.5は色彩とライティングの面でFluxを上回り、Midjourney V6.1の品質に近づきました。Fluxは「正面からの視点」や「黄金の時間」、「枝でできた髪」などの細部にはより忠実でしたが、SD3.5の全体的な美学が優れており、これはオープンソースモデルとしては稀な成果です。美学とディテールのバランスを取ることは、モデルにとって一般的な課題であり、ユーザーが調整したFluxの出力でも、オリジナルのMidjourneyの結果に匹敵することは難しいです。さらに、複雑なプロンプトの一部はSDの公式Replicateプラットフォームでしか生成できず、CFGやDynamic Thresholdingを調整しても、ローカルで同様の結果を再現するのは難しい場合があります。

プロンプト：「20歳の女性が水中に横たわっているフルカラーポートレート写真で、太陽の光が彼女の顔や体にリアルな水のカスティクス（光の屈折）を映し出している。彼女は白いガーゼのドレスを着ている。」

このラウンドでは、全体的にSD3.5の結果がより良好でしたが、完璧とは言えません。SDの以前のバージョンやFluxは「水のカスティクス」の描写に苦戦していましたが、これをうまく扱えるのはMidjourneyやIdeogramだけでした。SD3.5の水のカスティクスは完璧ではなかったものの、Fluxに比べてよりリアルであり、Fluxの方は通常の環境に人工的に水のエフェクトを追加したように見えました。さらに、Fluxの鎖骨の影は硬すぎる一方で、SD3.5の解釈はより自然な水中シーンに近いものでした。

プロンプト：「細身で魅力的な女性がピアノを弾いているトップダウンのクローズアップ写真で、カメラは彼女の手に焦点を合わせている。彼女は赤と黒のチェック柄のスカートを履いており、ピアノは光沢のある黒色です。この写真は、柔らかく拡散した日差しが差し込む明るい部屋で撮影されている。」

このラウンドでは、SD3.5とFluxは互角の勝負でした。Fluxは手の構造の描写に優れており、これはよく知られた強みですが、生成された指が過度に均一でした。それに対して、SD3.5はより自然な肌のディテールを表現しましたが、色がやや赤みがかり、全体の見た目がやや不自然になりました。ピアノの鍵盤では、Fluxは間隔や配置の正確さで優れていましたが、SD3.5は色彩やライティングで美的な魅力を保っていたものの、ピアノの右側が未完成であり、最終的な出力に影響を与えました。

2. カジュアル / アマチュア風ポートレート

プロンプト：「スリムで魅力的な白人男性のアマチュア携帯写真で、彼は白い長袖シャツをボタンを外した状態で着ており、黒いパンツを履いている。ベッドの前端に座りながら、手で髪をかき上げ、視聴者を見つめている。この写真は夜の寝室で撮影され、寝室は暖かい色調の薄暗い照明で、唯一の光源はベッドサイドのランプである。2012年にRedditに投稿されたもので、画像はノイズが多く、モーションブラーがかかり、ソフトフォーカスのJPEGで、アマチュアが深いフォーカスで撮影し、デジタルシャープ化が加えられたぼんやりした拡散光の写真。」

このラウンドでは、SD3.5は全体的に失敗し、プロンプトの大部分を満たすことができませんでした。生成された人物はスリムには見えず、ベッドの前端に位置しておらず、髪をかき上げる手の動作も見られませんでした。照明も不十分で、ベッドサイドランプだけが光源である薄暗い雰囲気が欠けていました。全体的な画像品質はSDXLに近く、SDXL特有の「脚がベッドに沈み込む」問題も発生しました。要するに、このテストは、SD3.5が求められるカジュアルでアマチュア的な雰囲気を捉える能力に欠けていることを浮き彫りにしました。

プロンプト：「スリムな白人女性のアマチュア側面写真で、彼女はキッチンで料理をしており、白いエプロンを着けています。エプロンの下には無地のグレーのTシャツを着ており、彼女はステンレスのソース鍋の中の料理を見つめながら、頭を下げています。右手に木製のスプーンを持っています。この写真は彼女の左側からアマチュアが2015年にスマートフォンで撮影したもので、モダンなキッチンで柔らかく拡散した室内照明の下、夜に撮られたものです。」

このラウンドでも、SD3.5は大きく苦戦し、特に手の描写において不自然で現実離れした形状になってしまいました。Fluxもこのプロンプトで適切な被写界深度を実現するのに問題を抱えていましたが、SD3.5の出力は全体的により弱く、髪のボリュームが不自然で、側面の視線の描写が不正確であり、鍋の取っ手の形状も間違っており、プロンプトの期待に応えることができませんでした。

3. 建築 / オブジェクト / 動物

プロンプト：「エッフェル塔のローアングルのクローズアップ写真、パリの晴れた日、中央構図。」

このラウンドでは、SD3.5のパフォーマンスは比較的弱く、建築レンダリングにおいて重要な構造の正確さやディテールに苦戦しました。一方、Fluxは建築のディテールや全体的な構図を正確に捉え、より明確に定義された画像を生成しました。これにより、このラウンドはFluxの圧勝となり、SD3.5の試みはほとんどすべての面で及びませんでした。

プロンプト：「シール・バイカラー・ラグドール猫の写真で、カメラに向かって立ち、青い枕の上で後ろ足で立ちながら片方の前足を伸ばしています。魔法使いの帽子と紫色の魔法使いのローブを着ており、前足で呪文を唱えていて、銀色の輝きが前足の周りを渦巻いています。この写真は、春の朝の庭で、明るく拡散した自然光の下で撮影されています。」

このラウンドでは、SD3.5がついにリードを取りました。両モデルとも似たような品質の出力を生成しましたが、Fluxは被写界深度が過度に誇張されており、一方でSD3.5はプロンプトのディテールに近い、よりバランスの取れた画像を生成しました。SD3.5の猫の前足は完璧ではありませんでしたが、全体的な美学とポイントラグドールの特徴をうまく捉えていました。Fluxは「シール・バイカラー・ラグドール猫」の説明を誤解し、特定の品種のディテールを逃していました。また、「銀色の輝き」の描写もSD3.5の方が正確で、Fluxの金色の輝きとは異なっていました。

プロンプト：「壮麗なケーキの写真で、海の波にインスパイアされた複雑なフォンダン装飾が施されています。ケーキ全体のベースカラーは控えめなダークブルーで、ライトブルーの層が渦巻き状に波を形作り、下から上にかけて閉じていき、咲きかけのバラの蕾のような曲線を形成しています。ケーキの外側には、ピンクと紫のサンゴが海の波状フォンダンの底部を飾り、美しいティアラのように見えます。この写真は、シンプルな暗い背景の部屋で撮影されています。」

このラウンドでは、SD3.5はその美学の強みを発揮し、ブルーからグリーンへの見事なグラデーションを表現しましたが、サンゴの配置やバラの蕾の形状に関するプロンプトの指示に完全には従いませんでした。その色の遷移は魅力的で、視覚的に心地よい出力を生み出しました。一方で、Fluxはバラの蕾の形状により忠実でしたが、海の波の表現が洗練されておらず、求められる美学に欠けていました。さらに、サンゴは最終的なレンダリングで誤った配置になっていました。SD3.5の画像は、ケーキの基部にある紫色のリボンに若干の問題がありましたが、これはポストエディティングで簡単に修正可能です。

➢ アートスタイル

マンガ / アニメ / 落書き

プロンプト：「1980年代レトロ漫画スタイルのイラストで、細身の若い白人男性を描いています。彼はくしゃくしゃの波打つライトブラウンの髪と白い肌を持ち、顔は剃りたての状態で、頭を横に傾けています。画像には彼の顔と胸だけが描かれており、白いスイレンの花と緑の葉でできた長い衣装を着ています。厚い葉の層が全身を覆い、青い瞳との対比が鮮やかです。彼の頭には月桂樹の葉の冠があり、視聴者を見つめています。彼は夏の森で夕暮れ時に描かれており、柔らかく拡散した日差しが彼を照らしています。」

SD3.5とFluxの両方が、「1980年代レトロ漫画」スタイルの正確な描写に苦戦しました。SD3.5は、一般的な現代のイラストに近い画像を生成しましたが、Fluxの出力も同様に、クラシックな1980年代の漫画美学からは外れていました。ただし、Fluxは「スイレンの花と葉でできた長い衣装」のようなプロンプト要素をより適切に解釈し、よりふさわしい背景を提供しました。両モデルのトレーニングデータは、この特定のアートスタイルに関する素材が十分でないようで、明確な勝者を決めるのは難しいといえます。

プロンプト：「オフィスチェアに座り、コンピュータモニターに向かっているふわふわのオレンジ色の猫のベクトルクリップアートで、片方の前足はキーボードに、もう片方の前足はマウスに置かれており、振り返って視聴者を見ている。シンプルな淡いピンクの背景で、太い線のスタイル。」

このラウンドでは、SD3.5はプロンプトに応えることができませんでした。猫が椅子に正しく配置されておらず、前足がキーボードやマウスに置かれていませんでした。さらに、全体のスタイルもプロンプトで求められていた「シンプルなベクトルクリップアート」の外観とは一致しませんでした。一方で、Fluxはやや斜視の猫を生成したものの、プロンプトのほとんどの要件を満たしており、このラウンドの勝者となりました。

プロンプト：「太ったオレンジ色の猫の上にいる太った白いアヒル、その下にいる小さなカピバラのクレヨン画。3匹の動物が縦に積み重なって、晴れた庭の草の上にいる。」

このテストでは、SD3.5は「クレヨン画」の美学を効果的に捉え、プロンプトに記載されたような粗く即興的なスタイルを描写しました。SD3.5の画像は、ややラフな鉛筆画やマーカー画に近いものの、プロンプトが意図した遊び心のある手描き感を維持していました。一方、Fluxはラインが過度にきれいで、クレヨン画の持つ粗く素朴な魅力に欠けていました。SD3.5のよりラフな解釈が、このラウンドでの明確な勝因となりました。

2. その他のアートスタイル

プロンプト：「レトロな16ビットピクセルゲームアートで、不機嫌なペンギンが翼を持ち、視聴者に向かって立ちながら「IT'S PENGUIN, NOT PENGWING（ペンギンだ、ペングウィングじゃない）」と書かれた大きなボードを持っています。南極の氷の上に座っており、画像は懐かしくピクセル化されていて、鮮やかな色合いです。」

このテストでは、SD3.5とFluxの両方にそれぞれの強みが見られました。Fluxはより心地よい配色でしたが、SD3.5の出力はクラシックなレトロピクセルアートにより近く、大きなピクセルブロックや明るい色、コントラストの高い表現が、クラシックな16ビットゲームにより忠実でした。両モデルともプロンプトを比較的うまく処理しましたが、それぞれに独自の利点があったため、最終的には引き分けとなりました。

プロンプト：「3Dアニメーション映画のシーンで、不機嫌なペンギンが翼を持ち、視聴者に向かって立ちながら「IT'S PENGUIN, NOT PENGWING（ペンギンだ、ペングウィングじゃない）」と書かれた大きなボードを持っています。南極の氷の上に座っており、DreamWorks風のスタイルです。」

SD3.5とFluxの両方がプロンプトに合った3Dアニメーションシーンを生成することに成功しましたが、それぞれに顕著な欠点が見られました。SD3.5は詳細な翼を描写しましたが、顔が不自然に見えたため、全体的なリアリズムが損なわれました。FluxのペンギンデザインはDreamWorksの『マダガスカル』シリーズのペンギンスタイルに近かったものの、翼の接続部分に問題がありました。SD3.5は翼に手のような奇妙なディテールが見られましたが、Fluxのより認識しやすいスタイルがこのラウンドでは優勢でした。

プロンプト：「ルネサンス風の油絵で、魚と猫が融合したキメラのような奇妙な生き物。上半身は白いアンゴラ猫で、下半身は虹色の魚鱗を持つ熱帯魚に似ています。その生き物は海の中を泳いでおり、水は濃い青色です。」

この最終テストでは、SD3.5がしっかりとしたパフォーマンスを発揮し、キメラのコンセプトをより自然に解釈し、猫の上半身をよりリアルに描写しました。Fluxは魚の体を本物の油絵の質感でうまく表現しましたが、猫の描写は誇張されすぎており、自然なプロポーションに欠けていました。SD3.5は「濃い青色の水」をうまく描写し、Fluxが見逃した部分を補完しました。このラウンドでは、プロンプトとの整合性が高かったSD3.5の勝利となりました。

これで、SD3.5対Fluxのレビューは終了です！異なる見解や生成された画像の他の例がある場合は、ぜひあなた自身のレビューを共有し、この対話に参加してください！