心智圖資源庫 Stable Diffusion
Stable Diffusion詳解,介紹了模型/lora/VAE/插件/embeddings的安裝部署、文生圖的介面參數和基礎用法。
編輯於2024-04-08 21:25:40Stable Diffusion
1.模型/lora/VAE/插件/embeddings的安裝部署
擴充插件安裝的三種方式
1.到擴充頁面,點擊可用一載入擴充列表,記得取消勾選[含廣告、語言包、已安裝],可以看到外掛程式列表
這裡我們以安裝3DOpenpose編輯器為例,由於插件太多,我們可以用Ctrl F網頁搜尋功能,輸入openpose來快速搜尋到對應的插件,然點擊後面的安裝即可
2.找到插件的網址,每個都不一樣,從網址安裝,複製連結安裝
這種方法需要知道插件的github位址
推薦以上兩種安裝方式,需要開啟魔法,才能安裝成功,但不穩定有幾率出現安裝出錯不成功等狀況
優點是可以直接從拓展-檢查更新處進行更新插件
也可以直接從秋葉啟動器更新
3.如果以上方法都失敗了或插件不顯示,那麼手動安裝至插件路徑,我們以安裝Controlnet插件為例,打開Contrglnet插件所在GitHub的網址:https://qithub.com/lllyasviel/ControlNet-v1- 1-nightly
下載完成後解壓縮,放入 ovelai-webui\extensions擴充資料夾即可重啟webUI,就可以發現外掛程式安裝好了。
缺點,必須更新後手動把更新後的資料夾放入插件目和秋葉包自動更新
安裝完插件後,都要重新載入weib ui,如果沒有顯示,嘗試關掉啟動器重新進入
大模型、lora、VAE、插件、embeddings的關聯
大模型:盤子,分很多種
stable diffusion\models\Stable-diffusion
又叫底模型,主模型。對效果影響最大的模型。
真人/產品/二次元
體積比較大,一般在幾個G
Lora:豐富的食物
stable diffusion\models\Lora
簡單來說掛載Lora就可以指定生成人物或風格的特徵
漢服/水墨風/三視圖/盲盒
體積在100M左右
vae:調味料,讓食物變得美味
stable diffusion\models|VAE
可以把VAE簡單理解為顏色配置或圖片濾鏡,在不加VAE的情況下,畫面會發灰
現在許多大模型已經自備vae,個別沒有的,需要使用,常用84000,一般預設不變
插件:筷子,叉子,讓我們更好的去吃飯
stable diffusion\extensions
例如翻譯插件、和ControlNet
embeddings:現成的料理包
stable diffusion\embeddings
其實是提示詞打包的意思,常用於避免人體結構及畫風、空間結構等等出現崩壞的情況。如果沒有embedding,你想避免畫風崩壞,你可能需要說幾十個關鍵字,但是現在有製作好的embedding,你只需輸入一個提示詞,就能生成很好的圖片。
模式網址
需要魔法的
官方模式網址C站:https://civitai.com/
Hugging Face(抱臉): ttps://huggingface.co/models?other=stable-diffusion
無需魔法的
哩布哩布ai: http://www.liblibai.com/#/
煉丹閣: http://www.liandange.com/models
秋葉啟動器,沒有預覽圖,不是很真實性
2.文生圖的介面參數和基礎用法
介面參數
大模型選擇:選擇需要使用的模型(底模),這是對生成結果影響最大的因素,主要體現在畫面風格上
vae:簡單理解為濾鏡,預設84000
調過層數:clip層數值越小,那麼描述越貼近描述詞,如果clip越大那麼自由發揮程度越高。預設數值開2,不用更改
提示詞輸入
正向提示詞
畫質類:masterpiece, best quality, highres, highly detailed, 傑作,最好的質量,高清晰度,高度的細節
主體:一個女孩、一個男孩、一隻狗、一個房子
屬性:金色長髮、藍眼睛、胖、瘦、耳環、穿風衣、穿裙子、現代風、巴洛克、中國風
背景:醫院、學校、公寓、街道、透明背景、漸層背景
畫風:寫實風、插畫風、單色、漫畫、復古 鏡頭:全身像、半生像、 頭像自拍鏡、正臉、看著觀眾、面對鏡頭
其他:冬天、下雪、下雨、暖色調、青橙色調
反向提示詞
如果不輸入,出圖品質不高,畫風容易崩壞,可以設定為固定模板
NSFW, nude, naked, porn, (worst quality, low quality:1.4), deformediris, deformed pupils, (deformed, distorted, disfigured:1.3), croppedout of frame, poorly drawn, wrong amisy, exawn limb, floating limbs, cloned face, (mutated hands andfingers:1.4), disconnected limhs, extra legs, fused fingers, too manyfingers, long neck, mutation, mutated, ugly, disgusting, jpwation, disgusc, jpm, disgus, jpwation, dist, jpwation, 20, jpm, dist. text, Signature, sketch,
NSFW,裸體,裸體,色情,(最差質量,低質量:1.4),變形虹膜,變形瞳孔,(變形,扭曲,毀容:1.3),裁剪,脫離架,畫得不好,不好的解部,錯誤的解剖額外的肢體,缺少的肢體,浮動的肢體,克隆的臉(變異的手和手指:1.4),斷裂的肢體,額外的腿,融合的手指太多的手指,長脖子,變異,突變醜陋噁心,截肢模糊,jpeg偽影,水印水印文字,簽名,草圖
儲存模版的方法
將目前提示詞儲存為預設樣式
採樣次數
Stable diffusion翻譯成中文:穩定的擴散。原理就是它是在訓練圖像上逐漸添加噪聲,最後變成完全隨機噪聲圖。這個過程就像是一滴墨水滴在一杯清水里,會慢慢擴散最終均勻分佈在清水裡一樣,擴散這個名字就是那麼來的
採樣迭代步數越高,圖片越好,但是運算時間越長,無特殊需求一般來說大部分時候採樣部署只需要保持在20~30之間即可 (預設20) ,30以上沒有特別的變化
採樣方法
我們知道Stable Diffusion是一種基於擴散模型實現生成畫像,它的過程是將以一張滿是噪點的圖為基準,一點一點地向目標(prompt)「擴散靠近。這就是擴散採樣器工作的地方。影像
採樣方法決定了出圖得質量,有很多,但是目前常用的基本只有幾種推薦採用器
Euler a
速度最快的採樣方式,最直接簡單穩定的採樣器
對採樣步數要求很低,同時隨著採樣步數增加並不雲增細節,會在採樣步數增加到一定步數時構圖突變,所以不要在高步數情境下使用
適合場景:二次元影像、小場景
DPM 2S a Karras
可以在速度與質量之間進行平衡,並產生更精確的影像及其細節
二次元
DPM SDE Karras
跟2s差不錯,總之主要特點是相對於Euler a來說,同等解析度下細節會更多,例如可以在小圖下塞進全身,代價是採樣速度更慢
寫實風格、人像、複雜場景
DDIM
很少會用到,出圖快,可以快速產生高品質影像,但是如果想嘗試超高步數可以使用,隨著步數增加可以疊加細節
適合場景:寫實人像、複雜場景
臉部修復 (一般對寫實人像較有作用,二次元幾乎沒用)
平鋪圖(用於生成花紋紋理的)
高解析度修復
通俗來說,就是以重新繪製的方式將影像放大,並且在放大的同時補充一些細節
放大演算法:用預設值即可,Latent, 真人使用:R-ESRGAN 4x , 二次元使用:R-ESRGAN 4x Anime6B
重繪幅度:不同重繪幅度值所造成的影響(一般選擇0.4-0.7比較適合)
寬高設定
絕大多數模型都是在512*512解析度下訓練的,少數在768*768下訓練所以當輸出尺寸比較大比如說1024*1024的時候,ai就會嘗試在圖中塞入兩到三張圖片的內容量,於是會出現各種肢體拼接,不受詞條控制的多人,多角度等情況,增加詞條可以部分緩解,但是更關鍵的還是控制好畫幅,先算中小圖,再放大為大圖.
最重要的是,圖片生成過大,計算慢,容易爆顯存(建議在512、768得基礎上去生成圖片)
如果有特定得參考圖片,放到ps裡,修改等比例尺寸r讓高度寬度數值務必保持一項在512-768像素之內,另一尺寸可隨意。如果想要更大尺寸,那就用高清修復功能
方圖512*512,會傾向出臉和半身像
高圖512*768,會傾向於出站著坐著的全身像
產生批次/數量
產生的圖片數量=產生批次*每批數量
顯示卡配置不好的,不建議調節數量參數,建議修改推薦修改生成批次出圖會更快一點
Stable Diffusion
2.文生圖的介面參數和基礎用法
介面參數
提示詞引導係數(CFG Scale)
CFG數值越高,Ai越聽話,產生的圖像與提示詞越相關
CFG在5-10區間是比較安全的,一般建議為7-10,依實際情況減少或加大
一般預設:7足夠,依畫面內容微調
CFG數值越低,Ai越不聽話,越自由發揮生成的圖像與提示詞的相關性越弱
隨機種子數
用來控制隨機性和產生結果多樣性的一個重要參數
點擊篩子按鈕可以將隨機種子設為-1,也就是隨機
點擊回收按鈕可以將隨機種子設為右邊圖片欄裡正在看的那張圖片的隨機種子
變異隨機種子:調節變異強度(一點點數值即可,如:0.001)
產生
使用上一次產生影像資料(包括正反提示詞以及各項參數)
清空正反提示詞
調出模型等內容
將所選預設樣式插入到目前提示詞之後
儲存提示詞模板
若要修改先前儲存的提示詞模板,在sd檔案下找到style文件,右鍵記事本方式打開,即可進行刪改。 (註: 必須是要儲存過一個範本後,才會出現找個文件)
使用說明
如果圖片產生失敗即爆內存了,嘗試調整圖的長寬,步數直到可以正常運行
關鍵字強度設定不宜過高(自己試試看)
關鍵字和負關鍵字千萬別寫反了
畫面步數我一般用20~50(但顯存低其實大部分還是30),關鍵字強度7~15
3.提示詞的語法和權重
正向提示詞:相較於Midjourney 需要寫得更精準、細緻,描述越多越接近想要的內容描述少則給 AI 更多自由發揮空間
反向提示詞:不想出現的內容
書寫原則
幾乎所有模型都只理解英文詞彙
所有符號都要使用英文半角,短語之間使用半角逗號隔開
可以換行,但每一行的行末最好也打上分隔符號(英文半角逗號)
文法原則
越前的詞彙權重就會越高,比如說
tree,1girl,可能會出現樹,旁邊站著女孩
1girl,tree,可能會出現女孩肖像,背景是樹
所以多數情況下的常用的提示詞格式是(三段式寫法)
masterpiece, bestquality, sketch, 1girl, stand, black jacket, wallbackgoround, full of poster, 由 token,
進階語法 分步繪製(漸變混合是通俗的叫法,分步繪製更貼近原意)
[ tagA : tagB : 0.3 ]30%進度前畫關鍵字A,30%進度後畫關鍵字B [cat : dog :0.6 ]60%進度前畫貓,60%進度後畫狗
[dog:dragon:6],in the sky,half-body,close-up------當數值大於等於1時,表示步數*步前畫dog,*步進度後畫dragon 可以通過控制步數,調整兩者的比例。透過不同步數,可以達到從關鍵字1到關鍵字2的漸變,這就是漸變俗名的由來
分佈結束繪製[a girl:5] in the seaside 【】中括號是減權,想要誰不突出,不重要就給誰加上中括號,並帶上步數(數值越小,不想要的東西越明顯,數值越大,不想要的東西展現越少)
寫法 畫面品質詞 主體描述 背景 構圖
面質詞(masterpiece,best quality等)
主題描述(1girl, long hair, Blue dress, smiling for the camera等)
場景與環境(forest,tree,white flower, day,sunlight, cloudy sky等)
畫面視角與構圖(close-up,full body, distant等)
試著自己按照上面的結構來寫一段關鍵字吧
畫質詞/構圖
傑作,最佳質量,8k,瘋狂的細節,複雜的細節,超細節,超質量,高細節,半身
masterpiece, best quality, 8k, insane details, intricatedetails,hyperdetailed, hyper quality, high detail, half body,
主體描述(稍微詳細一點)
1個女孩,紅色長髮,綠色的眼睛,帶著圍巾,條紋毛衣,對著鏡頭微天,
1 girl, long red hair, green eyes, shirt, jeans, smiling at the camera,
背景是什麼樣的
複雜的背景,在沙灘上,夜晚,星空
Complex background, on the beach, at night, starry sky
不知道怎麼寫,可以去c站複製他人優秀的作品關鍵來學習
複製關鍵字的時候,記得查看是否與有本地lora套件名稱一致(沒有此lora,產生結果會不一致)
貼至正向關鍵字框內,點選第一個按鈕
減少成人元素的提示詞
正向:family_friendly(調整比例來調整權重,數值比例高畫出兒童的幾率就很高)
反向:nsfw,nude,naked,porn(工作場所不宜,裸體, 裸露,色情 ),通常是成人向的意思,建議每次繪畫都加上nsfw
固定起手式
建議儲存為模板,方便下次使用
簡單的正面和反面起手式
正向提示詞: masterpiece best quality,傑作,最佳品質
反向提示詞: nsfw,(worst quality, bad quality:1.3) nsfw,(最差的質量,壞的質量:1.3)
稍長的正面和反面起手式
正向提示字: masterpiece, best quality, 8k, insane details, intricatedetails, hyperdetailed, hyper quality, high detail, ultra detailed,
(傑作,最佳品質,超級品質,8K分辨率,瘋狂的細節,複雜的細節。超詳細細節,高細節度,超詳細)
反向提示詞: NSFW,nude, naked, porn,(worst quality, low quality:1.4),deformed iris, deformed pupils, (deformed, distorted, disfigured:1.3),cropped, out of frame, poorly drawn, frame0 , wrong anatomy.extra limb, missing limb, floating limbs, cloned face, (mutated handsand fingers:1.4), disconnected limbs,extra legs, fused fingers, too manyfingers, long neck, muet, muet, muet, fug, fug, fug, fug, muet, mu), muman, i f四處), fug), muet, i fug), mu箱, jpeg artifacts, watermark, watermarked, text, Signature, sketch,
NSFW,裸體,裸露,色情,(差的質量,低質量: 1.4)變形的虹膜,變形的瞳孔,(變形,扭曲,毀容: 1.3)裁剪,畫框外,畫得不好,糟糕的結構,錯誤的結構,多餘的肢體,缺失的肢體,漂浮的肢體,克隆的臉,(變異的手和手指:1.4)斷開的肢體,額外的腿,融合的手指,多餘的手指,長脖子,變異,突變的,醜陋,噁心,截肢,模糊,jpeg偽影,水印,有水印文字,簽名,草圖
--NSFW not suittable for work 不適合工作的圖
除了通用的這些詞,也可以根據畫面需要去加,例如生成的畫面中出現了狗,而你並不想讓狗出現在畫面裡,那麼可以把「dog」加到反向提示詞中
讓寫實人像出圖品質更高清的起手式
正向提示詞: photography,masterpiece, best quality,8K,HDR,ROWphoto,highres, absurdres:1.2, Kodak portra 400, film grain, blurrybackground, bokeh:1.2, lens flare, (vibrant color:1.
photography 攝影
masterpiece, best quality. 是品質優秀的(傑作,最好的品質)
8K, HDR, ROW photo,highres, absurdres:1.2 是清晰、高解析度的 (8K,HDR,ROW照片,高解析度、荒謬的:1.2
Kodak portra 400, film grain, 是底片特性(柯達Portra 400,底片顆粒)
blurry background, bokeh:1.2, lens flare, 是模糊背景、虛化、光暈
vibrant color:1.2 是多彩的
輸入以上關鍵字,更有氛圍感覺,有細節
提示詞分隔符
1.分隔符號以英文逗號或「 」分割(提示詞:Rococo style,living room,largewindows,red sofd種子:3391285208)
2.分隔符號前後有空格並不會產生影響
3.跟MJ一樣,詞越靠前權重越高