Galleria mappe mentale Algoritmo di regressione di base per l'apprendimento automatico
Riepiloga gli algoritmi di regressione di base nell'apprendimento automatico, come regressione lineare di base, regressione ricorsiva, regressione lineare regolarizzata, regressione lineare sparsa Lasso, regressione con funzione di base lineare, scomposizione di valori singolari, scomposizione di errori dell'apprendimento di regressione, ecc.
Modificato alle 2023-02-15 23:14:30Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
apprendimento automatico Algoritmo di regressione di base
apprendimento di regressione
Caratteristiche
apprendimento supervisionato
Set di dati con etichetta y
processo di apprendimento
Il processo di determinazione dei parametri del modello w
prevedere o estrapolare
Il processo di calcolo dell'output della regressione sostituendo nuovi input
regressione lineare
regressione lineare di base
funzione lineare obiettivo
Presupposto della distribuzione gaussiana degli errori
C'è una discrepanza tra il valore di output e il valore etichettato
Supponendo che l'output del modello sia il valore atteso, la funzione di probabilità della variabile casuale (valore etichettato) yi è
Poiché i campioni sono distribuiti in modo indipendente e identico, la funzione di densità di probabilità congiunta di tutti i valori etichettati lo è
Funzione di verosimiglianza per trovare parametri ottimali (soluzione LS dei minimi quadrati)
funzione di verosimiglianza logaritmica
errore somma dei quadrati
soluzione di massima verosimiglianza
Formula del test dell'errore quadratico medio
Apprendimento ricorsivo per la regressione lineare
Problemi mirati
La portata del problema è troppo grande ed è difficile risolvere la matrice
algoritmo di discesa del gradiente
Prendi tutti i campioni per calcolare il gradiente medio
gradiente medio
Formula di ricorsione
Algoritmo SGD di discesa del gradiente stocastico (LMS)
Prendi campioni casuali per calcolare il gradiente
gradiente stocastico
Formula di ricorsione
Algoritmo SGD mini-batch
Prendi un piccolo lotto di campioni per calcolare il gradiente medio
gradiente medio
Formula di ricorsione
regressione lineare regolarizzata
Problemi mirati
Il numero di condizione della matrice è molto grande e la stabilità numerica non è buona.
La natura del numero di condizione elevato del problema
Alcuni vettori colonna di una matrice sono proporzionali o approssimativamente proporzionali
Sono presenti coefficienti di peso ridondanti e si verifica un overfitting.
Soluzione
Dovrebbe "ridurre il numero di parametri del modello" o "regolarizzare i parametri del modello"
Funzione obiettivo regolarizzata
Somma degli errori dei quadrati J(w) iperparametro λ vettore dei parametri vincolanti w
modulo
Soluzione LS dei minimi quadrati regolarizzata
Interpretazione della probabilità della regressione lineare regolarizzata
La distribuzione a priori del vettore del coefficiente di peso w è la MAP bayesiana della "stima della massima probabilità a posteriori" sotto la distribuzione gaussiana
Algoritmo di ricorsione del gradiente (metodo di discesa del gradiente stocastico in piccoli batch SGD come esempio)
Regressione lineare con output multipli (vettore di output y).
Problemi mirati
L'output è un vettore y anziché uno scalare y
Errore somma dei quadrati funzione obiettivo J(W)
Soluzione LS dei minimi quadrati
Lazo di regressione lineare sparsa
norma del termine di regolarizzazione
Norma p>1
Nessuna delle coordinate della soluzione è 0 e la soluzione non è sparsa.
Norma p=1
La maggior parte delle coordinate della soluzione sono 0, le soluzioni sono sparse e l'elaborazione è relativamente semplice.
Norma p<1
La maggior parte delle coordinate della soluzione sono 0, le soluzioni sono sparse e l'elaborazione è difficile.
Problema del lazo
contenuto
Per il problema di minimizzare l'errore della funzione somma dei quadrati, viene imposto il vincolo ||w||1<t
espressione di regolarizzazione
Algoritmo di discesa delle coordinate cicliche di Lasso
preelaborazione
Zero-significa le colonne X della matrice di dati e normalizzale su Z
Soluzione di Lasso nel caso a variabile singola
Soluzione al lazo
Generalizzazione della soluzione Lasso in casi multivariabili
Metodo di discesa delle coordinate cicliche CCD
Determinare innanzitutto uno dei parametri wj
Calcolare i parametri che minimizzano la somma degli errori quadrati
In questo momento, altri parametri w non sono valori ottimali, quindi il risultato del calcolo di wj è solo una stima.
Calcolo del ciclo
La stessa idea viene utilizzata per calcolare altri parametri in un ciclo finché le stime dei parametri non convergono.
Parte del valore residuo ri(j) sostituisce yi
Matematicamente coerente con univariato
stime dei parametri
Algoritmo LAR di Lasso
Sii applicabile
Risolvere il problema della regressione sparsa con vincoli di 1 norma
Corrispondente al problema della regressione regolarizzata
Classificazione
λ=0
Problema dei minimi quadrati standard
Maggiore è λ
Quanto più sparsa è la soluzione dei parametri del modello w vettore, tanto più sparsa è
Regressione con funzione di base lineare
funzione di base
modello di regressione
matrice dei dati
soluzione del coefficiente di regressione
Scomposizione di un valore singolo
pseudoinverso
Decomposizione dell'SVD
Soluzione del modello dei coefficienti di regressione
Scomposizione degli errori per l'apprendimento della regressione
funzione di errore
aspettativa di errore
Modello
miglior modello teorico
Modello di apprendimento
scomposizione degli errori
Complessità del modello e scomposizione degli errori
Il modello è semplice
Grande deviazione, piccola varianza
Il modello è complesso
Piccola deviazione, grande varianza
È necessario scegliere la complessità del modello appropriata