Login
Accedi

Galleria mappe mentale Diffusione stabile

Diffusione stabile

Spiegazione dettagliata di Stable Diffusion, introduzione all'installazione e alla distribuzione di model/lora/VAE/plug-in/embedding, ai parametri dell'interfaccia e all'utilizzo di base dei diagrammi Vincent.

Modificato alle 2024-04-08 21:25:40

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Breve storia del tempo
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Il coraggio di essere odiato
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
Appunti di lettura di Il coraggio di non piacere.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.

Diffusione stabile

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Consigliato per te
Profilo

Genera modello
- 15
WSCoUtCI

Diffusione stabile

1. Installazione e distribuzione di modello/lora/VAE/plug-in/embedding

Tre modi per installare le estensioni

1. Vai alla pagina delle estensioni, fai clic su Disponibile per caricare l'elenco delle estensioni, ricordati di deselezionare [Includi pubblicità, pacchetto lingua, installato] per visualizzare l'elenco dei plug-in

Qui prendiamo come esempio l'installazione dell'editor 3D Openpose Poiché ci sono troppi plug-in, possiamo utilizzare la funzione di ricerca web Ctrl F e inserire openpose per cercare rapidamente i plug-in corrispondenti, quindi fare clic su Installa in seguito. .

2. Trova l'URL del plug-in Ognuno è diverso. Installa dall'URL e copia il collegamento per installarlo.

Questo metodo richiede la conoscenza dell'indirizzo github del plug-in

Si consigliano i due metodi di installazione precedenti. È necessario attivare la magia per eseguire l'installazione correttamente. Tuttavia, è instabile e potrebbe causare errori di installazione e tentativi non riusciti.

Il vantaggio è che puoi aggiornare il plug-in direttamente da Extension-Check for Updates

Puoi anche aggiornare direttamente dal launcher Autumn Leaves

3. Se i metodi precedenti falliscono o il plug-in non viene visualizzato, installarlo manualmente nel percorso del plug-in. Prendiamo come esempio l'installazione del plug-in Controlnet. Apri l'URL GitHub in cui si trova il plug-in Contrglnet. si trova: https://qithub.com/lllyasviel/ControlNet-v1-1-nightly

Dopo il download, decomprimilo e inseriscilo nella cartella dell'estensione ovelai-webui\extensions per riavviare webUI e scoprirai che il plug-in è installato.

Svantaggio: dopo l'aggiornamento, è necessario inserire manualmente la cartella aggiornata nella directory del plug-in e il pacchetto Akiye si aggiornerà automaticamente.

Dopo aver installato il plug-in, è necessario ricaricare weib ui. Se non viene visualizzato, provare a spegnere il launcher e ad accedervi nuovamente.

Associazioni tra modelli di grandi dimensioni, lora, VAE, plug-in e incorporamenti

Modello grande: piatti, tante tipologie

diffusione stabile\modelli\diffusione stabile

Chiamato anche modello inferiore e modello principale. Il modello che ha il maggiore impatto sulle prestazioni.

Persona reale/prodotto/bidimensionale

Il volume è relativamente grande, di solito diversi G

Lora: cibo ricco

diffusione stabile\modelli\Lora

In poche parole, montando Lora, è possibile specificare le caratteristiche del personaggio o dello stile da generare.

Hanfu/stile inchiostro/tre viste/scatola cieca

Il volume è di circa 100 milioni

vae: condimento per rendere il cibo delizioso

diffusione stabile\modelli|VAE

VAE può essere semplicemente inteso come un profilo colore o un filtro immagine. Senza VAE, l'immagine sarà grigia.

Al giorno d'oggi, molti modelli di grandi dimensioni dispongono di VAE integrato. Alcuni di essi non ce l'hanno e devono essere utilizzati comunemente. L'impostazione predefinita è generalmente invariata.

Plug-in: bacchette, forchette, mangiamo meglio

diffusione\estensioni stabili

Come il plug-in di traduzione e ControlNet

incorporamenti: pacchetti di cucina già pronti

diffusione/incorporamento stabile

In realtà, significa un rapido confezionamento delle parole, che viene spesso utilizzato per evitare il collasso della struttura del corpo umano, dello stile pittorico, della struttura spaziale, ecc. Se non c'è l'incorporamento, se vuoi evitare il collasso dello stile pittorico, potresti dover pronunciare decine di parole chiave, ma ora con un buon incorporamento, devi solo inserire una parola immediata per generare una buona immagine.

URL del modello

Hai bisogno di magia

Sito ufficiale del modello C: https://civitai.com/

Faccia che abbraccia: ttps://huggingface.co/models?other=stable-diffusion

Nessuna magia richiesta

LibuLibuai: http://www.liblibai.com/#/

Padiglione dell'Alchimia: http://www.liandange.com/models

Autumn Leaf Launcher, nessuna immagine di anteprima, non molto realistica

2. Parametri dell'interfaccia e utilizzo di base del diagramma di Vincent

Parametri dell'interfaccia

Ampia selezione del modello: seleziona il modello (modello base) da utilizzare Questo è il fattore che ha il maggiore impatto sui risultati generati, riflesso principalmente nello stile dell'immagine.

Vae: inteso semplicemente come filtro, il default è 84000

Regola il numero di livelli: minore è il valore del livello di clip, più vicina sarà la descrizione al descrittore. Maggiore è la clip, maggiore è il grado di libertà. Il valore predefinito è 2, non è necessario modificarlo

Immissione rapida di parole

parole chiave positive

Categoria di qualità dell'immagine: capolavoro, migliore qualità, alta risoluzione, altamente dettagliato, Capolavoro, migliore qualità, alta definizione, alto dettaglio

Soggetto: una ragazza, un ragazzo, un cane, una casa

Attributi: lunghi capelli biondi, occhi azzurri, grasso, magro, orecchini, indossa una giacca a vento, indossa una gonna, stile moderno, barocco, stile cinese

Sfondo: ospedale, scuola, appartamento, strada, sfondo trasparente, sfondo sfumato

Stile di pittura: stile realistico, stile illustrazione, monocromatico, fumetto, retrò Scatti: ritratto a figura intera, ritratto a metà vita, specchio selfie, volto frontale, guardando il pubblico, di fronte alla telecamera

Altri: inverno, neve, pioggia, colori caldi, colori verde-arancio

invertire la parola immediata

Se non lo inserisci, la qualità dell'output non sarà elevata e lo stile di pittura crollerà facilmente. Puoi impostarlo come modello fisso.

NSFW, nudo, nudo, porno, (peggiore qualità, bassa qualità: 1.4), iride deformata, pupille deformate, (deformato, distorto, sfigurato: 1.3), ritagliato dall'inquadratura, disegnato male, cattiva anatomia, anatomia sbagliata, arto extra, mancante arto, arti fluttuanti, viso clonato, (mani e dita mutate: 1.4), arti disconnessi, gambe extra, dita fuse, troppe dita, collo lungo, mutazione, mutato, brutto, disgustoso, amputazione, sfocato, artefatti jpeg, filigrana, filigrana, testo, firma, schizzo,

NSFW, Nudità, Nudità, Porno, (peggiore qualità, bassa qualità: 1.4), Iris distorte, Pupille distorte, (Deformato, Distorto, Sfigurato: 1.3), Ritagliato, Fuori inquadratura, Disegnato male, Cattiva interpretazione, anatomia errata degli arti extra , arti mancanti, arti fluttuanti, volti clonati (mani e dita mutate: 1.4), arti rotti, gambe extra, dita fuse, troppe dita, colli lunghi, mutazioni, mutazione brutta disgustosa, sfocatura dell'amputazione, artefatti jpeg, testo filigrana filigrana, firma , schizzo

Come salvare i modelli

Salva la parola del prompt corrente come stile predefinito

Tempi di campionamento

Diffusione stabile si traduce in cinese: diffusione stabile. Il principio è che aggiunge gradualmente rumore all'immagine di addestramento e infine si trasforma in un'immagine di rumore completamente casuale. Questo processo è come una goccia d'inchiostro lasciata cadere in un bicchiere d'acqua. Si diffonderà lentamente e alla fine verrà distribuita uniformemente nell'acqua. Da qui deriva il nome diffusione.

Maggiore è il numero di passaggi di iterazione del campionamento, migliore è l'immagine, ma più lungo è il tempo di calcolo. Senza requisiti speciali, in generale, la maggior parte delle volte la distribuzione del campionamento deve essere mantenuta solo tra 20 e 30 (default 20). non c'è alcun cambiamento speciale sopra i 30.

Metodo di campionamento

Sappiamo che la diffusione stabile è un metodo per generare immagini basato sul modello di diffusione. Il suo processo consiste nell'utilizzare un'immagine piena di rumore come riferimento per diffondersi gradualmente più vicino al target (richiesta). In poche parole, questi campionatori sono un algoritmo che dopo ogni passaggio confronta l'immagine generata con l'immagine richiesta dal prompt del testo, quindi aggiunge alcune modifiche al rumore finché non raggiunge gradualmente un'immagine che corrisponde alla descrizione del testo

Esistono molti metodi di campionamento che determinano la qualità dell'immagine, ma attualmente ce ne sono fondamentalmente solo alcuni consigliati comunemente utilizzati.

Eulero a

Il metodo di campionamento più veloce, il campionatore più diretto, semplice e stabile

I requisiti per il numero di passaggi di campionamento sono molto bassi. Allo stesso tempo, all'aumentare del numero di passaggi di campionamento, i dettagli non aumenteranno. La composizione cambierà improvvisamente quando il numero di passaggi di campionamento aumenta fino a un certo numero non usarlo in scenari ad alto passo.

Scene adatte: immagini bidimensionali, piccole scene

DPM 2S a Karras

Può bilanciare la velocità con la qualità e produrre immagini più accurate e i loro dettagli

Due dimensioni

DPM SDE Karras

Non male rispetto a 2s In breve, la caratteristica principale è che rispetto a Euler a ci saranno più dettagli con la stessa risoluzione. Ad esempio, l'intero corpo può essere stipato nell'immagine piccola, ma la velocità di campionamento è più lenta.

Stile realistico, ritratti, scene complesse

DDIM

Utilizzato raramente, è veloce e può generare rapidamente immagini di alta qualità. Tuttavia, se desideri provare un numero elevatissimo di passaggi, puoi utilizzarlo. Man mano che il numero di passaggi aumenta, i dettagli possono essere sovrapposti.

Scene adatte: ritratti realistici, scene complesse

Restauro del viso (generalmente più efficace per i ritratti realistici, il 2D è quasi inutile)

Mappa delle tessere (utilizzata per generare texture del motivo)

Restauro ad alta risoluzione

In parole povere, significa ingrandire l'immagine ridisegnandola e aggiungere alcuni dettagli mentre la ingrandiamo.

Algoritmo di amplificazione: basta usare il valore predefinito, Latent, per persone reali: R-ESRGAN 4x, per uso bidimensionale: R-ESRGAN 4x Anime6B

Ampiezza di ridisegno: l'impatto di diversi valori di ampiezza di ridisegno (di solito 0,4-0,7 è più adatto)

Impostazioni di larghezza e altezza

La maggior parte dei modelli è addestrata alla risoluzione 512*512 e alcuni sono addestrati a 768*768. Pertanto, quando la dimensione di output è relativamente grande, come 1024*1024, l'intelligenza artificiale proverà a inserire due o tre immagini nell'immagine la quantità di contenuto nell'immagine, ci saranno varie giunzioni di arti, più persone non controllate dalle voci, più angolazioni, ecc. L'aggiunta di voci può alleviare parzialmente il problema, ma la cosa più importante è controllare l'inquadratura, prima calcola le immagini piccole e medie, quindi ingrandisci per l'immagine grande.

La cosa più importante è che la generazione dell'immagine è troppo grande, il calcolo è lento ed è facile consumare la memoria video (si consiglia di generare immagini basate su 512 o 768)

Se disponi di un'immagine di riferimento specifica, inseriscila in PS e modifica la dimensione proporzionale r in modo che i valori di altezza e larghezza debbano essere mantenuti entro 512-768 pixel e l'altra dimensione possa essere arbitraria. Se desideri una dimensione più grande, utilizza la funzione di ripristino HD

L'immagine quadrata 512*512 tenderà a mostrare volti e busti

L'immagine alta è 512*768, che tenderà a mostrare immagini di tutto il corpo in piedi e seduti.

Genera lotto/quantità

Numero di immagini generate = batch generato * numero di ciascun batch

Se la configurazione della scheda grafica non è buona, non è consigliabile regolare i parametri della quantità. Si consiglia di modificarla. Sarà più veloce generare immagini batch.

Diffusione stabile

2. Parametri dell'interfaccia e utilizzo di base del diagramma di Vincent

Parametri dell'interfaccia

Coefficiente di guida delle parole suggerite (scala CFG)

Più alto è il valore CFG, più Ai è obbediente e più rilevante è l'immagine generata per la parola richiesta.

Il CFG è relativamente sicuro nell'intervallo 5-10. In genere si consiglia di ridurlo o aumentarlo a seconda della situazione reale.

Generalmente impostazione predefinita: 7 è sufficiente, ottimizzare in base al contenuto dello schermo

Più basso è il valore CFG, più Ai è disobbediente e più liberamente può giocare, più debole è la correlazione tra l'immagine generata e la parola suggerita.

Numero di semi casuale

Un parametro importante utilizzato per controllare la casualità e la diversità dei risultati generati.

Fare clic sul pulsante del setaccio per impostare il seme casuale su -1, che è casuale

Fai clic sul pulsante Ricicla per impostare il seme casuale sul seme casuale dell'immagine che stai guardando nella barra delle immagini a destra.

Seme casuale della mutazione: regola l'intensità della mutazione (è sufficiente un piccolo valore, ad esempio: 0,001)

creare

Utilizza gli ultimi dati dell'immagine generati (comprese le parole di prompt positive e negative e vari parametri)

Chiare parole positive e negative

Richiama modelli e altri contenuti

Inserisce lo stile preimpostato selezionato dopo la parola del prompt corrente

Salva il modello di parole rapide

Se desideri modificare il modello di parole del prompt salvato in precedenza, trova il file di stile sotto il file sd, fai clic con il pulsante destro del mouse per aprirlo in modalità Blocco note e puoi eliminarlo. (Nota: è necessario salvare un modello prima che venga visualizzato un file)

Istruzioni per l'uso

Se la generazione dell'immagine fallisce e la memoria è piena, prova a regolare la lunghezza, la larghezza e il numero di passaggi finché non può funzionare normalmente.

L'impostazione della forza della parola chiave non dovrebbe essere troppo alta (provala tu stesso e vedrai)

Non scrivere mai parole chiave e parole chiave a corrispondenza inversa al contrario

Di solito utilizzo da 20 a 50 per i passaggi dello schermo (ma con poca memoria video, la maggior parte di essi sono ancora 30) e l'intensità delle parole chiave da 7 a 15.

3. Grammatica e peso delle parole pronte

Parole di suggerimento positive: rispetto a Midjourney, deve essere scritto in modo più accurato e attento. Più descrizioni si avvicinano al contenuto desiderato. Meno descrizioni danno all'IA più spazio per giocare liberamente.

Parole di richiesta inverse: contenuto che non desideri venga visualizzato

Principi di scrittura

Quasi tutti i modelli capiscono solo le parole inglesi

Tutti i simboli devono utilizzare la mezza larghezza inglese e le frasi devono essere separate da virgole a mezza larghezza.

Sono consentite interruzioni di riga, ma è meglio inserire un delimitatore (virgola inglese a mezza larghezza) alla fine di ogni riga.

Principi grammaticali

Ad esempio, quanto prima viene scritta la parola, tanto maggiore sarà il peso

albero, 1 ragazza, potrebbe esserci un albero con una ragazza in piedi accanto ad esso

1ragazza,albero, potrebbe apparire il ritratto di una ragazza, con un albero sullo sfondo

Pertanto, il formato della parola di richiesta comunemente utilizzato nella maggior parte dei casi è (scrittura di tre paragrafi)

capolavoro, migliore qualità, schizzo, 1 ragazza, stand, giacca nera, wallbackgoround, pieno di poster, per token,

Grammatica avanzata Disegno passo dopo passo (la fusione dei gradienti è il nome popolare, il disegno passo dopo passo è più vicino all'intenzione originale)

[ tagA : tagB : 0.3 ] Disegna la parola chiave A prima del 30% di progresso, disegna la parola chiave B dopo il 30% di progresso [cat : dog :0.6 ] Disegna il gatto prima del 60% di progresso, disegna il cane dopo il 60% di progresso

[cane:drago:6], nel cielo, metà corpo, primo piano------Quando il valore è maggiore o uguale a 1, indica il numero di passi * disegna il cane prima del passo e disegna il drago dopo * l'avanzamento del passo Puoi passare Controllare il numero di passi e regolare il rapporto tra i due. Attraverso diversi passaggi è possibile ottenere il gradiente dalla parola chiave 1 alla parola chiave 2. Questa è l'origine del nome comune di gradiente.

La distribuzione termina disegnando [una ragazza: 5] al mare [ ] Le parentesi quadre sono di riduzione del peso Se vuoi che qualcuno non si distingua o non sia importante, aggiungi parentesi quadre a chi non è importante, e aggiungi il numero di passi (. più piccolo è il valore, meno desideri, più è ovvio, più grande è il valore, meno cose indesiderate vengono visualizzate).

Metodo di scrittura Parole sulla qualità dell'immagine, descrizione del soggetto, sfondo, composizione

Parole di qualità (capolavoro, migliore qualità, ecc.)

Descrizione dell'argomento (1 ragazza, capelli lunghi, vestito blu, sorridente davanti alla fotocamera, ecc.)

Scene e ambienti (foresta, albero, fiore bianco, giorno, luce solare, cielo nuvoloso, ecc.)

Prospettiva e composizione dell'immagine (primo piano, corpo intero, distante, ecc.)

Prova a scrivere un paragrafo di parole chiave secondo la struttura sopra.

Parola/composizione della qualità dell'immagine

capolavoro, migliore qualità, 8k, dettaglio pazzesco, dettaglio intricato, dettaglio ultra, qualità ultra, dettaglio alto, busto

capolavoro, migliore qualità, 8k, dettagli folli, dettagli intricati, iperdettagliato, iperqualità, dettaglio elevato, metà corpo,

Descrizione del corpo principale (un po' più dettagliata)

1 ragazza con lunghi capelli rossi, occhi verdi, indossa una sciarpa e un maglione a righe, sorride leggermente alla telecamera,

1 ragazza, camicia, capelli lunghi rossi, occhi verdi, jeans, sorridente alla telecamera,

Che aspetto ha lo sfondo?

Sfondo intricato sulla spiaggia, notte, cielo stellato

Sfondo complesso, sulla spiaggia, di notte, cielo stellato

Se non sai scrivere, puoi andare al sito c e copiare i punti chiave degli ottimi lavori di altre persone per imparare.

Quando copi le parole chiave, ricorda di verificare se sono coerenti con il nome del pacchetto lora locale (senza questo lora, i risultati generati non saranno coerenti)

Incollalo nella casella della parola chiave in avanti e fai clic sul primo pulsante

Suggerimenti per ridurre gli elementi per adulti

Positivo: family_friendly (regola la proporzione per regolare il peso. Maggiore è la proporzione numerica, maggiore è la possibilità di attirare bambini)

Rovescio: nsfw, nudo, nudo, porno (non adatto al posto di lavoro, nudità, nudità, pornografia), di solito significa orientato agli adulti, si consiglia di aggiungere nsfw ogni volta che si disegna

Corretta la mano iniziale

Si consiglia di salvarlo come modello per un facile utilizzo la prossima volta

Semplici posizioni di partenza anteriori e posteriori

Parole pronte positive: capolavoro, migliore qualità, capolavoro, migliore qualità

Inverti le parole del prompt: nsfw,(peggiore qualità, cattiva qualità:1.3) nsfw,(peggiore qualità, cattiva qualità:1.3)

Pose iniziali leggermente più lunghe davanti e dietro

Parole immediate positive: capolavoro, migliore qualità, 8k, dettagli folli, dettagli intricati, iperdettagliato, iperqualità, dettaglio elevato, ultra dettagliato,

(Capolavoro, Qualità migliore, Qualità super, Risoluzione 8K, Dettaglio pazzesco, Dettaglio intricato. Dettaglio super, Dettaglio elevato, Dettaglio ultra)

Parole invertite: NSFW, nudo, nudo, porno, (peggiore qualità, bassa qualità: 1.4), iride deformata, pupille deformate, (deformato, distorto, sfigurato: 1.3), ritagliato, fuori cornice, disegnato male, cattiva anatomia, Anatomia errata. arto extra, arto mancante, arti fluttuanti, viso clonato, (mani e dita mutate: 1.4), arti disconnessi, gambe extra, dita fuse, troppe dita, collo lungo, mutazione, mutato, brutto, disgustoso, amputazione, sfocato, artefatti jpeg, filigrana, filigrana, testo, firma, schizzo,

NSFW, Nudità, Nudità, Porno, (Cattiva qualità, Bassa qualità: 1.4) Iridi distorte, Pupille distorte, (Distorto, Sfigurato: 1.3) Ritagliato, Fuori cornice, Disegnato male, Costruzione scadente, Strutture errate, arti extra, arti mancanti , arti fluttuanti, volti clonati, (mani e dita mutate: 1.4) arti disconnessi, gambe extra, dita fuse, dita extra, colli lunghi, mutazioni, mutato, brutto, disgustoso, amputazione, sfocato, artefatti jpeg, filigrana, testo filigranato, firma, schizzo

--NSFW non adatto al lavoro foto non adatto al lavoro

Oltre a queste parole generali, puoi anche aggiungerle in base alle esigenze dell'immagine. Ad esempio, se nell'immagine generata appare un cane, ma non vuoi che appaia nell'immagine, puoi aggiungere ". cane" alla parola di richiesta inversa.

Come realizzare ritratti realistici più ad alta definizione

Parole positive: fotografia, capolavoro, migliore qualità, 8K, HDR, ROWphoto, alta risoluzione, assurdità: 1,2, Kodak portra 400, grana della pellicola, sfondo sfocato, bokeh: 1,2, riflesso lente, (colore vibrante: 1,2).gril

fotografia fotografia

capolavoro, la migliore qualità è di ottima qualità (capolavoro, la migliore qualità)

8K, HDR, foto ROW, alta risoluzione, assurdità:1.2 È CHIARO, ALTA RISOLUZIONE (8K, HDR, FOTO A FILA, ALTA RISOLUZIONE: 1.2

Kodak Portra 400, grana della pellicola, è la caratteristica della pellicola (Kodak Portra 400, grana della pellicola)

sfondo sfocato, bokeh:1.2, riflesso lente, sfondo sfocato, sfocatura, alone

colore vibrante: 1.2 è colorato

Inserisci le parole chiave sopra per ottenere un'atmosfera e dettagli più suggestivi.

Separatore di parole prompt

1. Utilizzare le virgole inglesi o " " come delimitatori (parole suggerite: stile rococò, soggiorno, grandi finestre, seme rosso sofd: 3391285208)

2. Ci sono spazi prima e dopo il separatore e questo non avrà alcun effetto.

3. Come MJ, prima viene pronunciata la parola, maggiore è il peso.