Galleria mappe mentale Diffusione stabile
Spiegazione dettagliata di Stable Diffusion, introduzione all'installazione e alla distribuzione di model/lora/VAE/plug-in/embedding, ai parametri dell'interfaccia e all'utilizzo di base dei diagrammi Vincent.
Modificato alle 2024-04-08 21:25:40Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Diffusione stabile
1. Installazione e distribuzione di modello/lora/VAE/plug-in/embedding
Tre modi per installare le estensioni
1. Vai alla pagina delle estensioni, fai clic su Disponibile per caricare l'elenco delle estensioni, ricordati di deselezionare [Includi pubblicità, pacchetto lingua, installato] per visualizzare l'elenco dei plug-in
Qui prendiamo come esempio l'installazione dell'editor 3D Openpose Poiché ci sono troppi plug-in, possiamo utilizzare la funzione di ricerca web Ctrl F e inserire openpose per cercare rapidamente i plug-in corrispondenti, quindi fare clic su Installa in seguito. .
2. Trova l'URL del plug-in Ognuno è diverso. Installa dall'URL e copia il collegamento per installarlo.
Questo metodo richiede la conoscenza dell'indirizzo github del plug-in
Si consigliano i due metodi di installazione precedenti. È necessario attivare la magia per eseguire l'installazione correttamente. Tuttavia, è instabile e potrebbe causare errori di installazione e tentativi non riusciti.
Il vantaggio è che puoi aggiornare il plug-in direttamente da Extension-Check for Updates
Puoi anche aggiornare direttamente dal launcher Autumn Leaves
3. Se i metodi precedenti falliscono o il plug-in non viene visualizzato, installarlo manualmente nel percorso del plug-in. Prendiamo come esempio l'installazione del plug-in Controlnet. Apri l'URL GitHub in cui si trova il plug-in Contrglnet. si trova: https://qithub.com/lllyasviel/ControlNet-v1-1-nightly
Dopo il download, decomprimilo e inseriscilo nella cartella dell'estensione ovelai-webui\extensions per riavviare webUI e scoprirai che il plug-in è installato.
Svantaggio: dopo l'aggiornamento, è necessario inserire manualmente la cartella aggiornata nella directory del plug-in e il pacchetto Akiye si aggiornerà automaticamente.
Dopo aver installato il plug-in, è necessario ricaricare weib ui. Se non viene visualizzato, provare a spegnere il launcher e ad accedervi nuovamente.
Associazioni tra modelli di grandi dimensioni, lora, VAE, plug-in e incorporamenti
Modello grande: piatti, tante tipologie
diffusione stabile\modelli\diffusione stabile
Chiamato anche modello inferiore e modello principale. Il modello che ha il maggiore impatto sulle prestazioni.
Persona reale/prodotto/bidimensionale
Il volume è relativamente grande, di solito diversi G
Lora: cibo ricco
diffusione stabile\modelli\Lora
In poche parole, montando Lora, è possibile specificare le caratteristiche del personaggio o dello stile da generare.
Hanfu/stile inchiostro/tre viste/scatola cieca
Il volume è di circa 100 milioni
vae: condimento per rendere il cibo delizioso
diffusione stabile\modelli|VAE
VAE può essere semplicemente inteso come un profilo colore o un filtro immagine. Senza VAE, l'immagine sarà grigia.
Al giorno d'oggi, molti modelli di grandi dimensioni dispongono di VAE integrato. Alcuni di essi non ce l'hanno e devono essere utilizzati comunemente. L'impostazione predefinita è generalmente invariata.
Plug-in: bacchette, forchette, mangiamo meglio
diffusione\estensioni stabili
Come il plug-in di traduzione e ControlNet
incorporamenti: pacchetti di cucina già pronti
diffusione/incorporamento stabile
In realtà, significa un rapido confezionamento delle parole, che viene spesso utilizzato per evitare il collasso della struttura del corpo umano, dello stile pittorico, della struttura spaziale, ecc. Se non c'è l'incorporamento, se vuoi evitare il collasso dello stile pittorico, potresti dover pronunciare decine di parole chiave, ma ora con un buon incorporamento, devi solo inserire una parola immediata per generare una buona immagine.
URL del modello
Hai bisogno di magia
Sito ufficiale del modello C: https://civitai.com/
Faccia che abbraccia: ttps://huggingface.co/models?other=stable-diffusion
Nessuna magia richiesta
LibuLibuai: http://www.liblibai.com/#/
Padiglione dell'Alchimia: http://www.liandange.com/models
Autumn Leaf Launcher, nessuna immagine di anteprima, non molto realistica
2. Parametri dell'interfaccia e utilizzo di base del diagramma di Vincent
Parametri dell'interfaccia
Ampia selezione del modello: seleziona il modello (modello base) da utilizzare Questo è il fattore che ha il maggiore impatto sui risultati generati, riflesso principalmente nello stile dell'immagine.
Vae: inteso semplicemente come filtro, il default è 84000
Regola il numero di livelli: minore è il valore del livello di clip, più vicina sarà la descrizione al descrittore. Maggiore è la clip, maggiore è il grado di libertà. Il valore predefinito è 2, non è necessario modificarlo
Immissione rapida di parole
parole chiave positive
Categoria di qualità dell'immagine: capolavoro, migliore qualità, alta risoluzione, altamente dettagliato, Capolavoro, migliore qualità, alta definizione, alto dettaglio
Soggetto: una ragazza, un ragazzo, un cane, una casa
Attributi: lunghi capelli biondi, occhi azzurri, grasso, magro, orecchini, indossa una giacca a vento, indossa una gonna, stile moderno, barocco, stile cinese
Sfondo: ospedale, scuola, appartamento, strada, sfondo trasparente, sfondo sfumato
Stile di pittura: stile realistico, stile illustrazione, monocromatico, fumetto, retrò Scatti: ritratto a figura intera, ritratto a metà vita, specchio selfie, volto frontale, guardando il pubblico, di fronte alla telecamera
Altri: inverno, neve, pioggia, colori caldi, colori verde-arancio
invertire la parola immediata
Se non lo inserisci, la qualità dell'output non sarà elevata e lo stile di pittura crollerà facilmente. Puoi impostarlo come modello fisso.
NSFW, nudo, nudo, porno, (peggiore qualità, bassa qualità: 1.4), iride deformata, pupille deformate, (deformato, distorto, sfigurato: 1.3), ritagliato dall'inquadratura, disegnato male, cattiva anatomia, anatomia sbagliata, arto extra, mancante arto, arti fluttuanti, viso clonato, (mani e dita mutate: 1.4), arti disconnessi, gambe extra, dita fuse, troppe dita, collo lungo, mutazione, mutato, brutto, disgustoso, amputazione, sfocato, artefatti jpeg, filigrana, filigrana, testo, firma, schizzo,
NSFW, Nudità, Nudità, Porno, (peggiore qualità, bassa qualità: 1.4), Iris distorte, Pupille distorte, (Deformato, Distorto, Sfigurato: 1.3), Ritagliato, Fuori inquadratura, Disegnato male, Cattiva interpretazione, anatomia errata degli arti extra , arti mancanti, arti fluttuanti, volti clonati (mani e dita mutate: 1.4), arti rotti, gambe extra, dita fuse, troppe dita, colli lunghi, mutazioni, mutazione brutta disgustosa, sfocatura dell'amputazione, artefatti jpeg, testo filigrana filigrana, firma , schizzo
Come salvare i modelli
Salva la parola del prompt corrente come stile predefinito
Tempi di campionamento
Diffusione stabile si traduce in cinese: diffusione stabile. Il principio è che aggiunge gradualmente rumore all'immagine di addestramento e infine si trasforma in un'immagine di rumore completamente casuale. Questo processo è come una goccia d'inchiostro lasciata cadere in un bicchiere d'acqua. Si diffonderà lentamente e alla fine verrà distribuita uniformemente nell'acqua. Da qui deriva il nome diffusione.
Maggiore è il numero di passaggi di iterazione del campionamento, migliore è l'immagine, ma più lungo è il tempo di calcolo. Senza requisiti speciali, in generale, la maggior parte delle volte la distribuzione del campionamento deve essere mantenuta solo tra 20 e 30 (default 20). non c'è alcun cambiamento speciale sopra i 30.
Metodo di campionamento
Sappiamo che la diffusione stabile è un metodo per generare immagini basato sul modello di diffusione. Il suo processo consiste nell'utilizzare un'immagine piena di rumore come riferimento per diffondersi gradualmente più vicino al target (richiesta). In poche parole, questi campionatori sono un algoritmo che dopo ogni passaggio confronta l'immagine generata con l'immagine richiesta dal prompt del testo, quindi aggiunge alcune modifiche al rumore finché non raggiunge gradualmente un'immagine che corrisponde alla descrizione del testo
Esistono molti metodi di campionamento che determinano la qualità dell'immagine, ma attualmente ce ne sono fondamentalmente solo alcuni consigliati comunemente utilizzati.
Eulero a
Il metodo di campionamento più veloce, il campionatore più diretto, semplice e stabile
I requisiti per il numero di passaggi di campionamento sono molto bassi. Allo stesso tempo, all'aumentare del numero di passaggi di campionamento, i dettagli non aumenteranno. La composizione cambierà improvvisamente quando il numero di passaggi di campionamento aumenta fino a un certo numero non usarlo in scenari ad alto passo.
Scene adatte: immagini bidimensionali, piccole scene
DPM 2S a Karras
Può bilanciare la velocità con la qualità e produrre immagini più accurate e i loro dettagli
Due dimensioni
DPM SDE Karras
Non male rispetto a 2s In breve, la caratteristica principale è che rispetto a Euler a ci saranno più dettagli con la stessa risoluzione. Ad esempio, l'intero corpo può essere stipato nell'immagine piccola, ma la velocità di campionamento è più lenta.
Stile realistico, ritratti, scene complesse
DDIM
Utilizzato raramente, è veloce e può generare rapidamente immagini di alta qualità. Tuttavia, se desideri provare un numero elevatissimo di passaggi, puoi utilizzarlo. Man mano che il numero di passaggi aumenta, i dettagli possono essere sovrapposti.
Scene adatte: ritratti realistici, scene complesse
Restauro del viso (generalmente più efficace per i ritratti realistici, il 2D è quasi inutile)
Mappa delle tessere (utilizzata per generare texture del motivo)
Restauro ad alta risoluzione
In parole povere, significa ingrandire l'immagine ridisegnandola e aggiungere alcuni dettagli mentre la ingrandiamo.
Algoritmo di amplificazione: basta usare il valore predefinito, Latent, per persone reali: R-ESRGAN 4x, per uso bidimensionale: R-ESRGAN 4x Anime6B
Ampiezza di ridisegno: l'impatto di diversi valori di ampiezza di ridisegno (di solito 0,4-0,7 è più adatto)
Impostazioni di larghezza e altezza
La maggior parte dei modelli è addestrata alla risoluzione 512*512 e alcuni sono addestrati a 768*768. Pertanto, quando la dimensione di output è relativamente grande, come 1024*1024, l'intelligenza artificiale proverà a inserire due o tre immagini nell'immagine la quantità di contenuto nell'immagine, ci saranno varie giunzioni di arti, più persone non controllate dalle voci, più angolazioni, ecc. L'aggiunta di voci può alleviare parzialmente il problema, ma la cosa più importante è controllare l'inquadratura, prima calcola le immagini piccole e medie, quindi ingrandisci per l'immagine grande.
La cosa più importante è che la generazione dell'immagine è troppo grande, il calcolo è lento ed è facile consumare la memoria video (si consiglia di generare immagini basate su 512 o 768)
Se disponi di un'immagine di riferimento specifica, inseriscila in PS e modifica la dimensione proporzionale r in modo che i valori di altezza e larghezza debbano essere mantenuti entro 512-768 pixel e l'altra dimensione possa essere arbitraria. Se desideri una dimensione più grande, utilizza la funzione di ripristino HD
L'immagine quadrata 512*512 tenderà a mostrare volti e busti
L'immagine alta è 512*768, che tenderà a mostrare immagini di tutto il corpo in piedi e seduti.
Genera lotto/quantità
Numero di immagini generate = batch generato * numero di ciascun batch
Se la configurazione della scheda grafica non è buona, non è consigliabile regolare i parametri della quantità. Si consiglia di modificarla. Sarà più veloce generare immagini batch.
Diffusione stabile
2. Parametri dell'interfaccia e utilizzo di base del diagramma di Vincent
Parametri dell'interfaccia
Coefficiente di guida delle parole suggerite (scala CFG)
Più alto è il valore CFG, più Ai è obbediente e più rilevante è l'immagine generata per la parola richiesta.
Il CFG è relativamente sicuro nell'intervallo 5-10. In genere si consiglia di ridurlo o aumentarlo a seconda della situazione reale.
Generalmente impostazione predefinita: 7 è sufficiente, ottimizzare in base al contenuto dello schermo
Più basso è il valore CFG, più Ai è disobbediente e più liberamente può giocare, più debole è la correlazione tra l'immagine generata e la parola suggerita.
Numero di semi casuale
Un parametro importante utilizzato per controllare la casualità e la diversità dei risultati generati.
Fare clic sul pulsante del setaccio per impostare il seme casuale su -1, che è casuale
Fai clic sul pulsante Ricicla per impostare il seme casuale sul seme casuale dell'immagine che stai guardando nella barra delle immagini a destra.
Seme casuale della mutazione: regola l'intensità della mutazione (è sufficiente un piccolo valore, ad esempio: 0,001)
creare
Utilizza gli ultimi dati dell'immagine generati (comprese le parole di prompt positive e negative e vari parametri)
Chiare parole positive e negative
Richiama modelli e altri contenuti
Inserisce lo stile preimpostato selezionato dopo la parola del prompt corrente
Salva il modello di parole rapide
Se desideri modificare il modello di parole del prompt salvato in precedenza, trova il file di stile sotto il file sd, fai clic con il pulsante destro del mouse per aprirlo in modalità Blocco note e puoi eliminarlo. (Nota: è necessario salvare un modello prima che venga visualizzato un file)
Istruzioni per l'uso
Se la generazione dell'immagine fallisce e la memoria è piena, prova a regolare la lunghezza, la larghezza e il numero di passaggi finché non può funzionare normalmente.
L'impostazione della forza della parola chiave non dovrebbe essere troppo alta (provala tu stesso e vedrai)
Non scrivere mai parole chiave e parole chiave a corrispondenza inversa al contrario
Di solito utilizzo da 20 a 50 per i passaggi dello schermo (ma con poca memoria video, la maggior parte di essi sono ancora 30) e l'intensità delle parole chiave da 7 a 15.
3. Grammatica e peso delle parole pronte
Parole di suggerimento positive: rispetto a Midjourney, deve essere scritto in modo più accurato e attento. Più descrizioni si avvicinano al contenuto desiderato. Meno descrizioni danno all'IA più spazio per giocare liberamente.
Parole di richiesta inverse: contenuto che non desideri venga visualizzato
Principi di scrittura
Quasi tutti i modelli capiscono solo le parole inglesi
Tutti i simboli devono utilizzare la mezza larghezza inglese e le frasi devono essere separate da virgole a mezza larghezza.
Sono consentite interruzioni di riga, ma è meglio inserire un delimitatore (virgola inglese a mezza larghezza) alla fine di ogni riga.
Principi grammaticali
Ad esempio, quanto prima viene scritta la parola, tanto maggiore sarà il peso
albero, 1 ragazza, potrebbe esserci un albero con una ragazza in piedi accanto ad esso
1ragazza,albero, potrebbe apparire il ritratto di una ragazza, con un albero sullo sfondo
Pertanto, il formato della parola di richiesta comunemente utilizzato nella maggior parte dei casi è (scrittura di tre paragrafi)
capolavoro, migliore qualità, schizzo, 1 ragazza, stand, giacca nera, wallbackgoround, pieno di poster, per token,
Grammatica avanzata Disegno passo dopo passo (la fusione dei gradienti è il nome popolare, il disegno passo dopo passo è più vicino all'intenzione originale)
[ tagA : tagB : 0.3 ] Disegna la parola chiave A prima del 30% di progresso, disegna la parola chiave B dopo il 30% di progresso [cat : dog :0.6 ] Disegna il gatto prima del 60% di progresso, disegna il cane dopo il 60% di progresso
[cane:drago:6], nel cielo, metà corpo, primo piano------Quando il valore è maggiore o uguale a 1, indica il numero di passi * disegna il cane prima del passo e disegna il drago dopo * l'avanzamento del passo Puoi passare Controllare il numero di passi e regolare il rapporto tra i due. Attraverso diversi passaggi è possibile ottenere il gradiente dalla parola chiave 1 alla parola chiave 2. Questa è l'origine del nome comune di gradiente.
La distribuzione termina disegnando [una ragazza: 5] al mare [ ] Le parentesi quadre sono di riduzione del peso Se vuoi che qualcuno non si distingua o non sia importante, aggiungi parentesi quadre a chi non è importante, e aggiungi il numero di passi (. più piccolo è il valore, meno desideri, più è ovvio, più grande è il valore, meno cose indesiderate vengono visualizzate).
Metodo di scrittura Parole sulla qualità dell'immagine, descrizione del soggetto, sfondo, composizione
Parole di qualità (capolavoro, migliore qualità, ecc.)
Descrizione dell'argomento (1 ragazza, capelli lunghi, vestito blu, sorridente davanti alla fotocamera, ecc.)
Scene e ambienti (foresta, albero, fiore bianco, giorno, luce solare, cielo nuvoloso, ecc.)
Prospettiva e composizione dell'immagine (primo piano, corpo intero, distante, ecc.)
Prova a scrivere un paragrafo di parole chiave secondo la struttura sopra.
Parola/composizione della qualità dell'immagine
capolavoro, migliore qualità, 8k, dettaglio pazzesco, dettaglio intricato, dettaglio ultra, qualità ultra, dettaglio alto, busto
capolavoro, migliore qualità, 8k, dettagli folli, dettagli intricati, iperdettagliato, iperqualità, dettaglio elevato, metà corpo,
Descrizione del corpo principale (un po' più dettagliata)
1 ragazza con lunghi capelli rossi, occhi verdi, indossa una sciarpa e un maglione a righe, sorride leggermente alla telecamera,
1 ragazza, camicia, capelli lunghi rossi, occhi verdi, jeans, sorridente alla telecamera,
Che aspetto ha lo sfondo?
Sfondo intricato sulla spiaggia, notte, cielo stellato
Sfondo complesso, sulla spiaggia, di notte, cielo stellato
Se non sai scrivere, puoi andare al sito c e copiare i punti chiave degli ottimi lavori di altre persone per imparare.
Quando copi le parole chiave, ricorda di verificare se sono coerenti con il nome del pacchetto lora locale (senza questo lora, i risultati generati non saranno coerenti)
Incollalo nella casella della parola chiave in avanti e fai clic sul primo pulsante
Suggerimenti per ridurre gli elementi per adulti
Positivo: family_friendly (regola la proporzione per regolare il peso. Maggiore è la proporzione numerica, maggiore è la possibilità di attirare bambini)
Rovescio: nsfw, nudo, nudo, porno (non adatto al posto di lavoro, nudità, nudità, pornografia), di solito significa orientato agli adulti, si consiglia di aggiungere nsfw ogni volta che si disegna
Corretta la mano iniziale
Si consiglia di salvarlo come modello per un facile utilizzo la prossima volta
Semplici posizioni di partenza anteriori e posteriori
Parole pronte positive: capolavoro, migliore qualità, capolavoro, migliore qualità
Inverti le parole del prompt: nsfw,(peggiore qualità, cattiva qualità:1.3) nsfw,(peggiore qualità, cattiva qualità:1.3)
Pose iniziali leggermente più lunghe davanti e dietro
Parole immediate positive: capolavoro, migliore qualità, 8k, dettagli folli, dettagli intricati, iperdettagliato, iperqualità, dettaglio elevato, ultra dettagliato,
(Capolavoro, Qualità migliore, Qualità super, Risoluzione 8K, Dettaglio pazzesco, Dettaglio intricato. Dettaglio super, Dettaglio elevato, Dettaglio ultra)
Parole invertite: NSFW, nudo, nudo, porno, (peggiore qualità, bassa qualità: 1.4), iride deformata, pupille deformate, (deformato, distorto, sfigurato: 1.3), ritagliato, fuori cornice, disegnato male, cattiva anatomia, Anatomia errata. arto extra, arto mancante, arti fluttuanti, viso clonato, (mani e dita mutate: 1.4), arti disconnessi, gambe extra, dita fuse, troppe dita, collo lungo, mutazione, mutato, brutto, disgustoso, amputazione, sfocato, artefatti jpeg, filigrana, filigrana, testo, firma, schizzo,
NSFW, Nudità, Nudità, Porno, (Cattiva qualità, Bassa qualità: 1.4) Iridi distorte, Pupille distorte, (Distorto, Sfigurato: 1.3) Ritagliato, Fuori cornice, Disegnato male, Costruzione scadente, Strutture errate, arti extra, arti mancanti , arti fluttuanti, volti clonati, (mani e dita mutate: 1.4) arti disconnessi, gambe extra, dita fuse, dita extra, colli lunghi, mutazioni, mutato, brutto, disgustoso, amputazione, sfocato, artefatti jpeg, filigrana, testo filigranato, firma, schizzo
--NSFW non adatto al lavoro foto non adatto al lavoro
Oltre a queste parole generali, puoi anche aggiungerle in base alle esigenze dell'immagine. Ad esempio, se nell'immagine generata appare un cane, ma non vuoi che appaia nell'immagine, puoi aggiungere ". cane" alla parola di richiesta inversa.
Come realizzare ritratti realistici più ad alta definizione
Parole positive: fotografia, capolavoro, migliore qualità, 8K, HDR, ROWphoto, alta risoluzione, assurdità: 1,2, Kodak portra 400, grana della pellicola, sfondo sfocato, bokeh: 1,2, riflesso lente, (colore vibrante: 1,2).gril
fotografia fotografia
capolavoro, la migliore qualità è di ottima qualità (capolavoro, la migliore qualità)
8K, HDR, foto ROW, alta risoluzione, assurdità:1.2 È CHIARO, ALTA RISOLUZIONE (8K, HDR, FOTO A FILA, ALTA RISOLUZIONE: 1.2
Kodak Portra 400, grana della pellicola, è la caratteristica della pellicola (Kodak Portra 400, grana della pellicola)
sfondo sfocato, bokeh:1.2, riflesso lente, sfondo sfocato, sfocatura, alone
colore vibrante: 1.2 è colorato
Inserisci le parole chiave sopra per ottenere un'atmosfera e dettagli più suggestivi.
Separatore di parole prompt
1. Utilizzare le virgole inglesi o " " come delimitatori (parole suggerite: stile rococò, soggiorno, grandi finestre, seme rosso sofd: 3391285208)
2. Ci sono spazi prima e dopo il separatore e questo non avrà alcun effetto.
3. Come MJ, prima viene pronunciata la parola, maggiore è il peso.