上手に画像生成してくれない時、さてどうする?
何も分からない状態から、画像生成AIを触って分かったコツみたいな物を記しておく。
画像生成AI導入した物の、なんだか思った通りに生成してくれないな、と言う超初心者に向けた記事である。
1:学習データの得意不得意を理解しよう
checkpointと呼ばれる学習データを画像生成AIに読み込ませて、それをベースに画像が生成される。
実写が得意な物、イラストが得意な物、学習データ毎に得意不得意がハッキリあるので、まずは、自分がイメージする欲しい画像に必要な学習データを探す所から始める必要がある。
学習データの中には、特定のモチーフや表現の画像にのみ特化させた物もあり、種類は豊富だ。
また、一見合ってそうなテイストでも出力される画像の系統で希望通りの物を作る事が難しいなんて事もあるし、学習データのバージョンが新しい物より古い物の方がマッチするなんて事もあり得る。
色々な種類を使ってみる事から始めて、好みの学習データをいくつか探そう。
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【A~B】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【C】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【D】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【E~F】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【G~H】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【I~J】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【K~L】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【M】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【N~O】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【P~Q】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【R】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【S】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【T~V】
- StableDiffusionのmodel(checkpoint)使用感やクセの比較まとめ【W~Z】
何を入れれば良いか分からない人は、modelを「みんなにDLされている順」に上から数個入れて試せば、まあ、間違いはない。
2:プロンプトを何となく理解しよう
画像生成AIは、テキストから絵を生成する場合は、文字列を入力する事で画像が生成される。
この文字列だが、基本は英語なので、英語が苦手な場合は翻訳しながら頑張ろう。
いざ文字列を入力すると、それっぽい画像が生成されるが、きっと納得いく画像をいきなり作るのは最初は難しい筈だ。
文字列は順番にも意味があるが、最初は欲しい画像に近づく様に色々試す事から始めよう。
最初は、画像に使われるモチーフや状況を設定する文字を入力するだろうが、画像生成AIではクオリティタグと言われるキーワードがあって、それを入れると画像のクオリティが上がる様になっている。
まず、クオリティタグが超大事と言う事を覚えよう。
慣れない内は、お守りみたいに毎回(master peace:1),とか、入れておこう。
それだけで生成される画像が、安定する。
他には、プロンプトには色々な特殊な記述文があり、覚えて行けば超便利と言う事も覚えよう。
まずは、さっきも出した(master peace:1),の(○○:1),と言う部分だ。
多分だが、カッコの中の要素を画像生成Aiが基準値1の重みで画像に反映してくれる。
1が基準で100%的だが、プロンプトが長いと平気で無視される事もある。
要素を弱めるには、(○○:0.9),とか減らし、強めるには(○○:1.1),とかすると増える。
キーワードの要素が干渉する場合は、この調整で混ざり度合いや優先順位を多少操作できる。
そこまで分かったら、ネガティブプロンプトも理解しよう。
これは、文字を入れれば、その要素を描画しない様に気を付けてくれると言う機能だ。
例えば、学習データのクセで毎回なぜか背景にアルパカが写り込む様な場合、ネガティブプロンプトにアルパカと英語で入れてやると、消してくれる確率が上がる。
ネガティブプロンプトも通常のプロンプトと同じ様に、順番や(○○:1),で優先順位や重み付け出来るし、クオリティタグにも対応している。
人を描画する際は、崩れた足や手をネガティブプロンプトに入れておくと、画像生成AIが気を付けて描画してくれる事で、手足指が無いとか沢山と言う事が減る。
最初は、この辺を覚えておけば、プロンプトは怖くない。
もっと詳しく知りたい場合は、
- 画像で見て分かる学べる、StableDiffusionのプロンプトの基本法則【初心者脱出編】
- 画像で見て分かる学べる、StableDiffusionのプロンプトの基本法則【クオリティ強調&人数変更編】
- 画像で見て分かる学べる、StableDiffusionのプロンプトの基本法則【基本表情編】
- 画像で見て分かる学べる、StableDiffusionのプロンプトの基本法則【基本アクション編】
を参照。
プロンプトで意識したい事
テキストでの画像生成では、学習データをベースにテキストから連想される画像が生成される。
なので、テキストで具体的に指定しない場合、そこはAIのお任せとなる。
つまり、学習データの癖を掴みつつ、テキストの増減で欲しい画像に誘導していく必要がある。
また、欲しい画像を出す為に、単語にこだわったり執着するのも間違いで、あくまでも学習データとAIの癖に使用者の方が合わせに行く姿勢が重要となる。
AIの事を考え、どれだけ上手に指示を出せるか勝負と言う話だ。
逆に、バリエーションが出力される絵に欲しい場合は、そこの指示を曖昧にしたり、出さない事でAIが勝手に判断してくれるので、それを利用してアイディア出しなんかも出来る。
バリエーションを指定で出すには「ワイルドカード」と言う機能があるが、今は簡単な部分だけ覚えよう。
プロンプトで指示を出せる事(割と良く使うヤツ)
品質
- クオリティ:クオリティ操作が出来る。
- ディテール:詳細度を操作できる。
- 複雑さ:複雑か、シンプルか。
コアプロンプト
- メインモチーフ、被写体:画像に描きたい人や物。一番の基本。
- 背景:場所を指定したり、白一色にしたり。背景画像なら、これがメイン。
追加・変更・指定情報
- 色:指定した物の色を変えられる。人体なら肌、髪、目、等。
- 時間:朝昼夜だけでも、良い感じに環境設定を変えてくれる。
- ライティング:ソフトライト、等。
- パーツ:指や目、等。
- 身体特徴:耳が尖っている、痩せている、顎がしゃくれている、等。
- 人数:大勢描画したい時用。女性を二人出すなら(2girls:1),とか指示出すと良い。数はともかくいっぱい出したいなら(6+girls:1.2),とか入れると、頑張ってくれる時がある。
- 髪型:ポニーテール、ショートカット、等。
- 属性:ボーイッシュとかカワイイで、良い感じにしてくれる。
- 人種:学習データによっては、狙った人種っぽい画像を出すのに指定が必要。
- 年齢:(○○age:1),(○○years old:1),とか入れると、それっぽい背格好にしてくれる。大人、子供でも大丈夫。
- 服装、恰好、小物:メイド服、手にワイングラス、等。学習データ次第では、ネガティブプロンプトに裸と入れないと執拗に脱がそうとしてくるなんて事も。
- 表情:笑顔、泣き顔、驚き顔、等。
- 行動:走っている、ジャンプ、パンチ、等。
- 状態:立っている、泣いている。
- 状況:落ちている、等。
スタイル
- 作風:作風指示を出せる。ピカソ風とかゴッホ風とか。
- 画風:主線無し、モノクロ、セル画、油絵、水彩、パステル調、映画フィルム風、等。
- 媒体再現:設定資料風、コンセプトアート風、コミック表紙風等。
- リアル度:リアルにすると写真みたいになり、イラスト風にすると絵の様になる。
- 想定撮影機器:撮影するカメラ等の名前やレンズを指定すると、理解出来れば結構頑張る。
構図
- アングル:俯瞰、煽り、POV(一人称視点)、等。全身を入れたいか、一部で良いか指定できる。
- ショットサイズ:クローズアップ、ロングショット、等。
描画指定
- AND:複数の要素を混ぜずになるべく出す為に使用。増えすぎると根を上げちゃう事も。
3:各種機能を使おう
Stable Diffusionはアップデートを繰り返しており、便利な機能が初期装備されている。
顔の修復、高解像度補助、サンプリング方法やステップ数等を変えるとプロンプト以外でクオリティアップに繋がる。
一部だけ生成失敗した画像は、一部だけ修正するなんて事も出来る。
時間はかかるが画像は一度に複数枚生成出来るので、大量に生成させて席を離れるなんて事も可能だ。
出来の良い物を部分修正すると、効率的に良い感じの絵を作る事が出来る。
他人が出力した画像データには、一部の画像データ内のタグを消さないサイトにアップロードされた物は、PNG内の情報を表示機能を使えばプロンプトやら設定を見る事が出来る。
ちなみに、画像内のデータは編集したり消す事は容易に出来るので、秘密にしたい人は消しても良いし、サイトによっては自動消去されるので確認してみよう。
4:拡張機能を追加しよう
操作画面の日本語化、checkpointやLORA等のサムネイル追加等、便利な機能が色々ある。
入れすぎるとバグる事もあるらしいが、あったら便利だと感じた機能は一旦入れて見よう。
また「controlNet」と言う機能が、別画像の要素を利用して画像生成を補助出来て、使い方が分かるとかなり便利だ。
5:LoRAを使おう
LoRAとは追加学習データだ。
ゲームで言うと、ダウンロードコンテンツに当たり、どのcheckpointでも、相性問題こそあるが使える。
このLoRAだが、組わせて使う事が出来るので、組み合わせ次第では狙った画像を更に生成しやすくなる。
また、特定のキャラクターに特化したり、シチュエーションやポーズに特化した物もあり、コスプレ画像やキャライラストの大半は、LoRAを用いて制作されている。
根気と材料があれば自作のLoRAを作る事も出来るので、特定のキャラクターのLORAがどうしても欲しい場合は、自炊するかLORAを作れる人に学習元データを渡してお願いするとかで幸せになれるだろう。
LoRAは他に、styleと言う作風を再現する物もあり、特定のイラストレーター風の画像を作る補助にも使える。
なので、自分の絵を覚えさせれば、自分の絵柄をAIが模倣してくれるので、創作の補助にも使える筈だ。
6:ネットの先人から学ぼう
civitai、chichi-pui、様々な所で画像と共に画像生成条件を公開している人が多数いる。
そう言う人の生成条件を真似たり、数枚の生成パターンを見比べて共通点から必須条件を学べたり、得られる物は非常に多い。
まずは、自分が目指す生成画像のイメージに合った師匠を探そう。
その人の画像生成条件を理論でも体感でも学べば、似た画像を割と最初から高いレベルで生成出来る。
7:おすすめの環境を真似しよう
VAEの設定や、マージ(checkpointの合体?)の配合比率等をネットに共有してくれている人がいる。
良く分からないけど、とりあえず、良さそうなのは真似しておこう(雑)。
終わりに

とりあえず、2週間ぐらい実際にさわってみた人の感想と、実際の学びへの肌感と言う感じである。
まあ、あくまでも参考までに。
余談1
何が学びを促進させるのか?
ツールとしての面白さも当然あるが、それ以上に大きなモチベーションとなるのは、結局、最後はエロスだ。
ビデオデッキはアダルトビデオで普及し、PCはエロゲーやエロ画像、エロ動画によって普及し、VRもエロで普及が促進している部分が少なからずある。
そんな前置きをし、この画像生成AIだが、大半の学習データがモザイク等無い物から学んでいるので、生成される画像には、基本的にモザイクが無い。
なので、エロスな画像を日本で投稿する際は、自分でモザイク処理をしなければならない。
ああ、実に面倒臭い(すっとぼけ)。
頭の良い人なら気付いているかもしれないが、プロンプトは学習データを変えても使えるので、好みの画像が作れるプロンプトが一つでもあれば、そこから派生させてリアルからエロも、エロからリアルも、コスプレも、キャラクター物も、作り放題である。
部分修正で有名人を剥いたり、エッチな画像に有名人の顔をはめたり、そんな事をして遊んでいる人も多い事だろう(そう言うのは外に出すと訴えられかねない事は、みんな分かっている。違法な事は、絶対やめよう)。
そして、先人達が高品質なプロンプトを沢山公開していると言う事は、つまり、そう言う事だ。
なんでこんな、みんな避けてる分かりきった話をわざわざ、と思うだろうが、画像生成AIを普及させる為である。
エロがモチベーションでも良いから、一度環境導入と操作さえしてしまえば、そこからズブズブになるのは分かり切っている。
そうして、一人でも多く画像生成AIユーザーが増え、その中に欲しい画像の為にcheckpointやLoRAの自作にまで手を出したり突き抜ける人が出来れば、画像生成AI界隈は面白くなる。
余談2
ころぶ画像が苦手、なんて話がSNSで以前話題になった。
ころぶ、と言う学習元の画像が少ない画像が学びが足りずに苦手と言う話なのだが、画像生成AI君は、静止画で偏った学びをしているので、動きのある絵がとにかく苦手だ。
現状は、ポーズを指定して、モーションブラーや効果線で誤魔化したり加筆で色々作れるが、躍動感溢れるシーンを得意とする学習データは、驚くほど少ない。
つまり、その辺の痒い所に手が届く、アニメーションや実写映画の動きをパターン化して学習させた学習データが登場すると、画像生成AIの使い所が一歩前に進む気がする。
問題は、日々の技術革新が早すぎて、テキストから動画を生成出来るAIも、割とすぐに画像生成AIと同じ様に一般化を目指すのでは無いかと言う事が予想出来る事だ。
動画で欲しい動きを模索出来る様になれば、躍動感のある絵を生成する学習データを作るよりも、遥かに汎用性が高い何かが爆誕する事は想像するに難くない。
でも、個人的には、戦っているシーンとか、滅茶苦茶決まっている戦闘シーンとかも画像生成出来たら、とても嬉しい今日この頃である。
“画像生成AIを使うコツ集【Stable Diffusion/超初心者向け】” への4件の返信