StableDiffusion

2023年5月24日

Stable Diffusionは「Diffusion Model」を搭載した画像生成AIで、ユーザーは作成したい画像のイメージをテキストで入力する等して、様々な画像を生成することができます。
オープンソースのAIとして無料公開されており、ユーザーは無料かつ生成枚数の制限なく利用することができます。

無料

レビュー

3大画像生成AIのひとつである「StableDiffusion」。
最初は使用方法がわからず、https://stablediffusionweb.com/やDiffusion Modelを利用できる画像生成サービスを利用していましたが、この度Macで「Stable Diffusion Web UI」をインストールできたので使ってみました。
結論から言って、人物などの生成はStableDiffusionの一強ではと思いました。Midjourneyは画面構成や背景の作り込みなどが優れていると感じましたが、StableDiffusionは違う次元の凄さがあります。
インストールして利用するこちらのWebUIは、生成環境つまりPCのスペックに左右されるため、環境によっては上手く生成されない可能性があります。
ただし、学習元となった大量の画像には著作権で保護された画像も含まれていたりと、著作権の問題があります。お使いになる際はその点をご留意の上ご利用ください。
補足として、インストール方法からモデルの紹介、細かな設定方法など、つまずきやすいポイントについても解説したいと思います。

使ってみた

画面は日本語化済みのものです。

画面の見かた

❶ここでモデルを選択
→モデルを指定して生成する画像に反映させます。
❷テキストから画像、画像から画像などのモードをタブ選択
→学習などの高度な機能もあるようです。（このへんはまだ全部理解できてません）
❸プロンプトを入力
→生成結果に反映させたい言葉を英語で入力します。
❹ネガティブプロンプトを入力
→逆に、反映させたくない言葉を入力します。例えば「black and white」などの文言を入れると、白黒画像は生成されなくなります。
❺設定
→ここで細かな設定を行います。（後述）
❻生成ボタン
→下にある🗑や🎴 などは、直前のプロンプトを読み込んだり、現在のプロンプトの削除、スタイルの保存やLoRAなどのメニューを表示させます。
❼生成結果
→最初はぼやけた画像ですが、進行度によってだんだんクリアになっていきます（楽しい）
❽生成画像の操作
→生成された画像はすべてStableDiffusionローカルフォルダに保存されます。
📁ボタンでそのフォルダを開き、保存を押すと現在の生成結果を自由に保存可能。ZIPで圧縮ファイルの保存も可能です。

Midjourneyと違って、かなり細かく指定できますね。特に人間やキャラクターなどを自分の思い通りの結果で生成したい！という方にはおすすめ。

作ってみた

レインボーカラーの髪の女性。美しいです。
モデル：majicmixRealistic
プロンプト：masterpiece, best quality, (realistic, highly detailed), rainbow hair vortex, wild hair, mane
設定：全てデフォルト値

ギターを持った女の子。いい感じ！でもギター履いてる？
モデル：toonyou_beta
プロンプト：((1girl)), ((cinematic light)), colorful, hyper detail, dramatic light, intricate details, best quality, solo, black skirt, blue eyes, electric guitar, guitar, headphones, holding, holding plectrum,
設定：画像サイズ1000×1000　それ以外は全てデフォルト

よくわからない椅子が生まれました・・・でも質感とかすごいですね。
モデル：Product Design (minimalism-eddiemauro)
プロンプト：3D Product render style, futuristic chair, finely detailed, purism, ue 5, a computer rendering, minimalism, octane render, 4k
設定：画像サイズ1000×1000　それ以外は全てデフォルト

すごいです。上記はとりあえずの生成だったのでネガティブプロンプトは入れていませんが、ネガティブプロンプトも設定することでより自分の理想に近い画像が生成できそうですね。

インストール方法

StableDIffusion Web UI　※Mac環境

インストール方法については、HomebrewやStable Diffusionツールをターミナルからのコマンド入力でインストールします。（めったにターミナルを使わないのですが、本当に実行できるのか不安になるくらい時間がかかりました）

Windowsの場合は、詳しく説明されている方がたくさんいらっしゃるのでググってみてください。

Homebrewのインストール

正直私もよくわかっていませんが、Homebrewを入れることでターミナルから色々なアプリケーションやツールをインストールできるようになるようです。とにかくこちらが必須なのでインストールしましょう！よくわからなかったけど出来たので難しくないはずです！

Homebrewがインストールされているかのチェック

ターミナルを起動して、以下を入力、実行（エンター押す）してみてください。

brew -v

Homebrew 4.0.18　など、バージョン情報が表示されたらあなたのMacにはHomebrewをインストール済みなので、インストール作業は必要ありません。

not found的なことが表示された場合は、インストールが必要です。以下を入力して実行しましょう。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

途中でパスワード入力を求めらたら、Macに設定しているパスワードを入力してください。

M1、M2 Macの場合

途中、「Next Steps」という言葉が出てインストールが止まります。その下の行に
Run these two commands in your terminal to add Homebrew to your PATH:
と出てきますが、さらにその下にある二行をコピぺして実行する必要があります。（下のテキストは例です。ご自身の環境によって異なるので、必ずターミナルからそのままコピーしてください。）

(echo; echo 'eval "$(/opt/homebrew/bin/brew shellenv)"') >> /Users/ユーザ名/.zprofile
eval "$(/opt/homebrew/bin/brew shellenv)"

stable Diffusionのインストール

※インストール時、結構時間がかかる場合がありますが焦らず待ちましょう。

まず、以下を実行します。

brew install cmake protobuf rust python@3.10 git wget

次に、以下を1つずつ続けて実行。ホームフォルダにインストールします。

CD ~

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

モデルのダウンロードと保存

モデルはHugging Faceやcivitaiからダウンロードできます。お好みのモデルをダウンロードして、ホームフォルダの中のstable-diffusion-webui＞models＞Stable-diffusion フォルダに保存します。
！モデルはかなり容量が大きいのでご注意ください。

次に、以下を1つずつ続けて実行します。

cd ~/stable-diffusion-webui

./webui.sh

これでインストールが始まります。かなり時間がかかるので他の作業をしながら待ちましょう。

しばらく待つと、以下のような文字列が表示されます。（細かい表記は環境によって異なると思われます。）

weights to model: 5.9s, apply half(): 1.2s, move model to device: 0.4s). Running on local URL: http://127.0.0.1:7860 To create a public link, set `share=True` in `launch()`.

これで準備は完了です！

ChromeやSafariなどのブラウザを起動して、アドレス欄に　http://127.0.0.1:7860/　と入力・エンターを押します。

すると、このような画面に。※こちらはUIの言語設定を日本語にしています。

設定項目について

■サンプリング方法（(Sampling Method)
正直よくわかりません！色々試すしかないです。「こういうプロンプトにはこのサンプラー！」的なものがあれば良いのですが、人によって好みや理想が異なるので、こればかりは試してみるしかありません。逆に自分の好みを見つけて調整していく感覚が面白いですよ。
特徴としては、
・名前の後にaが入ってる・・・ステップ数で絵が変わる
・その他・・・ステップ数でディティールを改善する
■ステップ数（Sampling steps）
画像を改善する（変更する）回数を設定します。ただし、数値が多いほど良い結果が得られるかというとそうでもない＋あげすぎると時間がかかるので、10~50くらいの間で試してみるのが良いでしょう。
■顔の修復（Restore faces）＊チェックボックス
実写画像向けの機能で、顔のディティールがリアルになります。アニメやイラストの画像には不向きです。
■タイリング（Tiling）＊チェックボックス
ONにすると、並べると繋がるパターン画像を出力することができます。
■高解像度補助（Hires.fix）＊チェックボックスをONにすると、詳細メニューが表示されます。
サイズが大きいなどの高解像度画像を生成する場合、構図や結果を安定させることができます。
・高解像度ステップ数…サンプリングステップ数以下の数値推奨です。（ただし０は重くなる）
・ノイズ除去強度…数値小→忠実だけどぼやける　大→画質は精細だが、忠実でなくなる
・倍率…拡大率。数値が大きいと時間がかかります。
・サイズ変更後の幅、高さ…最終的なサイズの設定。
■幅、高さ（Width、Height）
大きくしすぎると余計な描写が増える可能性が高くなります。
■バッチ回数（Batch count）
生成処理を繰り返す回数
■バッチサイズ（Batch size）
同時に生成する枚数
　(例) Batch count=4、Batch size=2にすると、画像を8枚生成します。(2枚同時生成を4回行う＝8枚)
■CFGスケール（CFG Scale）
プロンプトに従わせる強さです。数値が大きいほど従い、小さいとAIが補完して画像生成します。
※モデルデータに推奨数値が明記してあることもあります。
■シード（Seed）
乱数です。一般的にこの数値にすると良い！という数値は特にありません。
この数値を変えるだけで異なる画像を生成します。