Galleria mappe mentale Riepilogo dei punti di conoscenza dell'apprendimento automatico dell'intelligenza artificiale di sklearn (con illustrazioni pratiche del codice)
Un riepilogo dei punti di conoscenza pratici dell'apprendimento automatico basati su sklearn, inclusi codici pratici e diagrammi dei risultati scritti dall'autore, che possono essere utilizzati per l'apprendimento, la revisione dei colloqui e l'uso avanzato.
Modificato alle 2022-03-20 14:40:39Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
apprendimento automatico
Pacchetto guida 1
DictVectorizer
CountVectorizer
Cinese
jieba.cut
participio balbettante
Chiama la funzione a sinistra e contavettorizzatore
TF-IDF
L'idea principale di TF-IDF
Se una parola o una frase appare con un'alta probabilità in un articolo, E se appare raramente in altri articoli, si ritiene che questa parola o frase abbia una buona distinzione di categoria. L'abilità è adatta per la classificazione.
Tf: frequenza del termine: il numero di volte in cui appare la parola frequenza
idf: frequenza inversa del documento frequenza inversa del documento =log(numero totale di documenti nel corpus/numero di documenti in cui compare la parola 1)
TF-IDF=tf*idf rappresenta il grado di importanza
Normalizzato
Caratteristiche: mappa i dati su (l'impostazione predefinita è [0,1]) trasformando i dati originali
+
Funzione: la discesa del gradiente è più veloce, la soluzione ottimale viene trovata più velocemente e il modello viene addestrato più velocemente
Svantaggi: facilmente influenzato da valori estremi
standardizzazione
Caratteristiche: Trasforma i dati originali in un intervallo con media pari a 0 e deviazione standard pari a 1 (distribuzione normale standard)
𝑋′= (𝑥−media)/𝜎
Agisce su ciascuna colonna, media è la media e 𝜎 è la deviazione standard.
std diventa la varianza, 𝜎= √std
Se si verificano valori anomali, a causa di una certa quantità di dati, un numero limitato di valori anomali non avrà un grande impatto sul valore medio, quindi la varianza cambierà poco.
Gestione dei valori mancanti
I valori mancanti possono essere riempiti dalla media o dalla mediana di ciascuna riga o colonna.
Selezione delle funzionalità
sottoargomento
Filtro: Soglia varianza
Rimuovere le funzionalità a bassa varianza
var = VarianceThreshold(threshold=0.2) # Elimina quelli con varianza inferiore a 0.2 dati = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
Embedded: regolarizzazione, albero decisionale, rete neurale
Involucro (avvolto)
Il metodo di avvolgimento seleziona continuamente sottoinsiemi di funzionalità dall'insieme di funzionalità iniziale, forma lo studente e valuta i sottoinsiemi in base alle prestazioni dello studente fino a quando non viene selezionato il sottoinsieme migliore.
Analisi delle componenti principali della PCA
Scopo: compressione della dimensionalità dei dati, riducendo il più possibile la dimensionalità (complessità) dei dati originali e perdendo una piccola quantità di informazioni
Funzione: può ridurre il numero di funzionalità nell'analisi di regressione o nell'analisi dei cluster.
Pacchetto guida 2
fit_transform
Il test è fit_transform, il che significa che nel processo di standardizzazione vengono utilizzate solo la media e la varianza del test.
test è una trasformazione, che indica che la media e la varianza del treno vengono utilizzate nel processo di standardizzazione.
Progetto KNN-Facebook
Punti di conoscenza
Se il valore k di KNN è troppo piccolo, è facile adattarlo eccessivamente.
Problema di selezione del valore k
Se è troppo grande, il modello è troppo semplice e incline a sottodimensionarsi.
Se è troppo piccolo, il modello è troppo complesso e facile da adattare.
Errore di approssimazione ed errore di stima:
L'errore di approssimazione è l'errore di addestramento sul set di addestramento
L'errore di stima è l'errore di test sul set di test
Combattimento reale
Formato dei dati: row_id x y precisione ora place_id
x y è la coordinata, l'ora è 23234 s, il numero di secondi dal 1 gennaio 1970, place_id è la posizione
L'obiettivo è prevedere in quale negozio place_id andare in base a x y
Preelaborazione dei dati
Costruisci il modello KNN
Vantaggi e svantaggi
vantaggio
Semplice ed efficace
La riqualificazione è economica
Adatto per campioni incrociati di domini di classe
Adatto per la classificazione automatica di campioni di grandi dimensioni
discordanza
apprendimento pigro
L'output non è molto interpretabile
Non bravo con campioni sbilanciati
Troppi di una categoria e troppo pochi di altre
Selezione e messa a punto del modello
Convalida incrociata
Convalidare in modo incrociato il set di training
ricerca in griglia
Ricerca iperparametrica
Combattimento reale
Metriche di valutazione per modelli di classificazione
matrice di confusione
Tasso di precisione: il risultato della previsione è la proporzione di esempi positivi tra gli esempi positivi (controllo accurato) TP/(TP FP)
Tasso di richiamo: la proporzione di esempi positivi previsti tra i campioni che sono effettivamente esempi positivi (ricerca completa, capacità di distinguere i campioni positivi) TP/(TP FN)
Punteggio F1: riflette la robustezza del modello
TPR, FPR, TNR, FNR, curva ROC, valore AUC
L'accuratezza può essere intesa come il numero di classificazioni corrette in tutti gli esperimenti
Algoritmo di classificazione Naive Bayes
formula
Esempio
Smussamento laplaciano
Otteniamo una probabilità di intrattenimento pari a 0, il che è irragionevole
formula
α è il coefficiente specificato, che generalmente è 1, e m è il numero di parole caratteristiche contate nel documento di formazione.
Vantaggi e svantaggi
vantaggio
Il modello Naive Bayes ha origine dalla teoria matematica classica e ha un'efficienza di classificazione stabile.
Non è molto sensibile ai dati mancanti e l'algoritmo è relativamente semplice. Viene spesso utilizzato per la classificazione del testo.
Elevata precisione di classificazione e velocità elevata
discordanza
È necessario conoscere la probabilità a priori P(F1,F2,…|C), quindi ad un certo punto l'effetto di previsione sarà scarso a causa del modello a priori assunto: se gli articoli non vengono raccolti bene, ad esempio, ci sono imbrogli gli articoli pieni di determinate parole interferiranno con i risultati
Combattimento reale
Preelaborazione dei dati
Previsione e valutazione del modello
Algoritmo di classificazione dell'albero decisionale
entropia informativa
L'albero decisionale è suddiviso in base al guadagno di informazioni.
Custodia ID3
Algoritmi comuni
ID3
Il criterio per massimizzare il guadagno di informazioni
Comprendi dal punto di vista estremo: se viene aggiunta solo una categoria a una determinata funzionalità, il guadagno di informazioni è pari a zero e elimineremo questa funzionalità
Svantaggi: quando i valori di entropia sono simili, due caratteristiche vengono moltiplicate per 1/2 e tre caratteristiche vengono moltiplicate per 1/3, quindi il guadagno è ampio. Pertanto, l'algoritmo ID3 preferisce funzionalità con un numero relativamente elevato di funzionalità.
C4.5
Criterio massimo del rapporto di guadagno delle informazioni
CARRELLO
Albero di classificazione: criterio minimo del coefficiente di Gini
Se il prestito è in arretrato
dati
Suddiviso in base alla disponibilità abitativa
Secondo il matrimonio
Secondo il reddito annuo
I rimanenti attributi continuano ad essere divisi
albero decisionale finale
Riepilogo dei tipi comuni di alberi decisionali
Vantaggi e svantaggi:
vantaggio
1. Comprensione e spiegazione semplici, visualizzazione dell'albero. 2. Richiede poca preparazione dei dati, altre tecniche di solito richiedono la normalizzazione e la standardizzazione dei dati
discordanza
1. Completamente sviluppato, l'albero è troppo complesso e facile da adattare. 2. Gli alberi decisionali potrebbero essere instabili poiché piccole modifiche nei dati potrebbero causare la generazione di alberi completamente diversi.
modi per migliorare
potatura del carro
pre-potatura
(1) Il numero minimo di campioni contenuti in ciascun nodo, ad esempio 10. Se il numero totale di campioni nel nodo è inferiore a 10, non verrà eseguita alcuna classificazione.
(2) Specificare l'altezza o la profondità dell'albero, ad esempio, la profondità massima dell'albero è 4;
(3) Se l'entropia del nodo specificato è inferiore a un certo valore, non verrà più divisa.
post-potatura
Eseguire l'eliminazione dell'albero decisionale di overfitting generato per ottenere una versione semplificata dell'albero decisionale eliminato.
Progetto di previsione della sopravvivenza del Titanic
Gestisci i valori mancanti e i dati divisi
Converti il testo in vettori e quindi modella la previsione
Metodo di apprendimento dell'insieme: foresta casuale
Una foresta casuale è un classificatore che contiene più alberi decisionali e la sua categoria di output è determinata dalla modalità di output della categoria dai singoli alberi.
Passaggi chiave nel processo di costruzione casuale della foresta (utilizzare N per rappresentare il numero di casi di addestramento (campioni), M per rappresentare il numero di caratteristiche): 1) Selezionare casualmente un campione alla volta, campionamento con sostituzione, ripetere N volte (potrebbero verificarsi campioni duplicati) 2) Selezionare casualmente m caratteristiche, m <<M, e costruire un albero decisionale
processo di impostazione
1. Perché campionare casualmente il set di addestramento? Se il campionamento casuale non viene eseguito e il training set di ciascun albero è lo stesso, i risultati finali della classificazione degli alberi addestrati saranno esattamente gli stessi. 2. Perché è necessario il campionamento con sostituzione? Se non c'è campionamento con sostituzione, allora i campioni di addestramento di ogni albero sono diversi e non hanno intersezioni. In questo modo ogni albero è "distorto" e assolutamente "unilaterale" (ovviamente è possibile dirlo sbagliato). , vale a dire, ogni albero è molto diverso dopo l'addestramento e la classificazione finale della foresta casuale dipende dal voto di più alberi (classificatori deboli);
vantaggio
1 ha un'eccellente precisione tra tutti gli algoritmi attuali 2. In grado di funzionare in modo efficace su set di dati di grandi dimensioni 3. In grado di elaborare campioni di input con caratteristiche altamente dimensionali senza richiedere la riduzione della dimensionalità. 4. Capacità di valutare l'importanza di ciascuna caratteristica nei problemi di classificazione 5. Si possono ottenere buoni risultati anche per problemi relativi ai valori predefiniti.
Codice effettivo
Pacchetto guida 3
Algoritmo di regressione: analisi di regressione lineare
Definizione: la regressione lineare è un'analisi di regressione che modella la relazione tra una o più variabili indipendenti e una variabile dipendente. che è caratterizzato da una combinazione lineare di uno o più parametri del modello chiamati coefficienti di regressione
formula
funzione di perdita
Diagramma visivo
Metodo di soluzione: come trovare W nel modello per ridurre al minimo la perdita? (Lo scopo è trovare il valore W corrispondente alla perdita minima, questo è il punto chiave)
equazione normale
Processo di derivazione (𝑋 è la matrice degli autovalori, 𝑦 è la matrice dei valori target )
Svantaggi: 1. Quando le funzionalità sono troppo complesse, la velocità della soluzione è troppo lenta. 2. A volte la trasposizione di X moltiplicata per la matrice inversa di X non è disponibile e non può essere risolta.
Previsioni sul rendimento dei prezzi delle case a Boston nella pratica
Preelaborazione dei dati
Lr=Previsione LinearRegression()
discesa del gradiente
Formula di discesa del gradiente (w=w1-tasso di apprendimento * derivata della perdita rispetto a w)
tasso di apprendimento
è un iperparametro, regolalo per ottenere la perdita minima
processo di discesa
Previsioni sul rendimento dei prezzi delle case a Boston nella pratica
previsione sgd = SGDRegressor(eta0=0.008).
Esistono molti parametri per la discesa del gradiente stocastico. Qui vengono elencati solo i parametri comuni: la penalità, divisa in L1 e L2, tasso di apprendimento tasso_di apprendimento e forza di regolarizzazione alfa.
Alcuni punti di conoscenza
SGD sta per Stochastic Gradient Descent: e aggiorna il modello man mano che il programma di intensità (cioè il tasso di apprendimento) diminuisce.
Il regolarizzatore è una penalità sulla funzione di perdita
La regolarizzazione L1 produce pesi sparsi, La regolarizzazione L1 tende a essere scarsa. Eseguirà automaticamente la selezione delle funzionalità e rimuoverà alcune funzionalità inutili, ovvero reimposterà i pesi corrispondenti a queste funzionalità su 0. Previene l'overfitting.
La funzione principale di L2 è prevenire l'overfitting. Quando i parametri richiesti sono più piccoli (i parametri sono coefficienti dei termini di ordine superiore), i coefficienti dei termini di ordine superiore sono più piccoli e i termini di ordine superiore sono più vicini a 0, indicando che il valore il modello è più semplice, e quanto più semplice è il modello, tanto più tende ad essere più fluido, evitando così un adattamento eccessivo.
Forza della regolarizzazione: ampia: i parametri si avvicinano a 0, i termini di ordine superiore si avvicinano a 0 Piccolo: le modifiche ai parametri sono piccole (il peso dei termini di ordine superiore non cambia)
metodo della discesa del gradiente
Algoritmo di discesa del gradiente completo (FG)
Calcolare gli errori di tutti i campioni nel training set, sommarli e prendere la media come funzione obiettivo. La discesa del gradiente in batch è lenta perché è necessario calcolare tutti i gradienti sull'intero set di dati quando si esegue ogni aggiornamento. Allo stesso tempo, la discesa del gradiente in batch non può gestire set di dati che superano il limite di capacità della memoria.
Algoritmo di discesa del gradiente stocastico (SG)
La funzione obiettivo di ogni ciclo di calcolo non è più l'errore di tutti i campioni, ma solo l'errore di un singolo campione. Cioè, viene calcolato ogni volta solo il gradiente della funzione obiettivo di un campione per aggiornare il peso, e poi viene prelevato il campione successivo e il processo viene ripetuto finché il valore della funzione di perdita non arresta il declino o il valore della funzione di perdita è inferiore a una soglia tollerabile. Questo processo è semplice ed efficiente e in genere può impedire meglio la convergenza delle iterazioni di aggiornamento verso la soluzione ottimale locale.
Regressione della cresta
La regressione di cresta è una versione regolarizzata della regressione lineare, ovvero aggiunge termini regolari alla funzione di costo della regressione lineare originale (ovvero, regressione lineare con regolarizzazione l2)
formula
Codice effettivo
Regressione lazo(Regressione lazo)
La regressione lazo è una regressione lineare con regolarizzazione L1
formula
Come scegliere il giusto algoritmo di machine learning
Il motivo dell’underfitting: vengono apprese meno caratteristiche dei dati. Soluzione: aumentare il numero di caratteristiche dei dati.
Cause e soluzioni al sovradattamento
motivo: Ci sono troppe caratteristiche originali e ci sono alcune caratteristiche rumorose. Il modello è troppo complesso perché il modello cerca di tenerne conto singoli punti dati di test
Soluzione: Eseguire la selezione delle funzionalità ed eliminare funzionalità altamente rilevanti (difficile da fare) Convalida incrociata (lascia che tutti i dati vengano addestrati) Regolarizzazione (comprensione)
Algoritmo di classificazione - Regressione logistica
Può risolvere solo problemi di classificazione a 2. Per risolvere problemi di classificazione multipla, richiede una classificazione continua a 2 punti.
funzione di attivazione
funzione sigmoidea
Formula della funzione (z è il risultato della regressione)
Output: valore di probabilità nell'intervallo [0,1], valore predefinito 0,5 come soglia
funzione di perdita di costo
Processo di calcolo 1
Derivata della funzione di perdita di costo rispetto a w
Il processo di derivazione
Discesa del gradiente per trovare il w ottimale
Formula di discesa del gradiente
Il processo di discesa del gradiente ottiene gradualmente la linea di demarcazione ottimale
Combattimento pratico: regressione logistica per la classificazione binaria per la previsione del cancro
Preelaborazione dei dati
Previsione del modello
risultato
modelli discriminativi e generativi
Apprendimento non supervisionato - analisi dei cluster
k-significa
Principi base dell'algoritmo
K indica metriche di valutazione delle prestazioni
Coefficiente di contorno
Spiegazione del coefficiente di silhouette
1. Se 〖𝑠𝑐〗_ responsabile è inferiore a 0, significa che la distanza media di 𝑎_ responsabile è maggiore degli altri cluster più vicini. L'effetto di clustering non è buono 2. Se 〖𝑠𝑐〗_ responsabile è maggiore, significa che la distanza media di 𝑎_ responsabile è inferiore rispetto agli altri cluster più vicini. Buon effetto di clustering 3. Il valore del coefficiente di silhouette è compreso tra [-1,1]. Quanto più si avvicina a 1, tanto migliori sono la coesione e la separazione.
Analisi pratica dei cluster di utenti di combattimento-Taobao
Leggi tabelle, unisci tabelle
Crea una tabella incrociata di ID utente e ID prodotto
Riduzione dimensionale dell'analisi delle componenti principali della PCA
modello di clustering
Risultati del clustering
Calcolo del coefficiente di silhouette
Metodo di rilevamento dei valori anomali
Disegna un diagramma a scatola
principio
Punteggio Z
principio
DBSCAN
Tutti i punti dati sono definiti come punti centrali (Core Points), punti di confine (Border Points) o punti di rumore e quindi raggruppati
Foresta dell'Isolamento|Foresta dell'Isolamento
Sono necessarie meno suddivisioni per isolare i valori anomali rispetto a quelli non anomali, ovvero i valori anomali hanno numeri di isolamento inferiori rispetto ai punti non anomali. Pertanto, un punto dati viene definito come valore anomalo se il suo numero di orfani è inferiore alla soglia.
Apprendimento d'insieme
Definizione: unificare i risultati dei classificatori di base in una decisione finale
Classificazione
Potenziamento (seriale)
La previsione del successivo classificatore di base dipende dall'output del precedente classificatore di base
Il metodo Boosting utilizza un metodo seriale per addestrare i classificatori di base e esistono dipendenze tra ciascun classificatore di base. La sua idea di base è quella di impilare i classificatori di base strato per strato Durante l'addestramento, ogni strato attribuisce un peso maggiore ai campioni che sono stati classificati erroneamente dal classificatore di base del livello precedente. Durante il test, il risultato finale si ottiene in base alla ponderazione dei risultati di ciascun livello di classificatori.
Insacco (parallelo)
Non esiste una forte dipendenza tra i classificatori di base e possono essere addestrati in parallelo. Ad esempio, una foresta casuale basata su un classificatore basato su un albero decisionale. Per rendere i classificatori di base indipendenti l'uno dall'altro, il set di addestramento è diviso in diversi sottoinsiemi (quando il numero di campioni di addestramento è piccolo, potrebbe esserci sovrapposizione tra i sottoinsiemi). È più simile a un processo decisionale collettivo. Ogni individuo impara individualmente. Il contenuto di apprendimento può essere lo stesso, diverso o parzialmente sovrapposto. Tuttavia, a causa delle differenze tra gli individui, i giudizi finali non saranno del tutto coerenti. Nel processo decisionale finale, ogni individuo esprime un giudizio individualmente, quindi la decisione collettiva finale viene presa tramite votazione.
Comprendere le differenze tra i metodi Boosting e Bagging dal punto di vista dell'eliminazione della distorsione e della varianza del classificatore di base
L'errore del classificatore di base è la somma degli errori di distorsione e di varianza. La distorsione è dovuta principalmente ad errori sistematici causati dalla limitata capacità espressiva del classificatore, che si manifesta nella non convergenza dell'errore di addestramento. La varianza è dovuta al fatto che il classificatore è troppo sensibile alla distribuzione del campione, con conseguente overfitting quando il numero di campioni di addestramento è piccolo.
deviazione
Il bias si riferisce alla deviazione tra l'output medio del modello addestrato e l'output del modello reale. L'errore causato dal bias si riflette solitamente nell'errore di addestramento.
varianza
La varianza si riferisce alla varianza dell'output di tutti i modelli addestrati da tutti i set di dati di addestramento campionati di dimensione m. La varianza è solitamente causata dal fatto che la complessità del modello è troppo elevata rispetto al numero di campioni di addestramento m. L'errore causato dalla varianza si riflette solitamente nell'incremento dell'errore del test rispetto all'errore di addestramento. Le previsioni a bassa varianza hanno un buon clustering di valori
Esempio di modello di ripresa
Supponiamo che uno scatto sia il modello che fa una previsione su un campione. Raggiungere la posizione del centro significa che la previsione è accurata e quanto più si discosta dal centro, maggiore è l'errore di previsione.
Nell'angolo in alto a sinistra, i risultati dello scatto sono accurati e concentrati, indicando che la distorsione e la varianza del modello sono molto piccole; Sebbene il centro dei risultati della ripresa nell'immagine in alto a destra sia attorno al bersaglio, la distribuzione è relativamente dispersa, indicando che il modello ha una piccola deviazione ma una grande varianza; La figura in basso a sinistra mostra che la varianza del modello è piccola e la deviazione è ampia; L'immagine in basso a destra mostra che il modello presenta un'ampia varianza e un'ampia deviazione.
La relazione tra errore di generalizzazione, distorsione, varianza e complessità del modello
Il metodo Boosting riduce la distorsione del classificatore integrato concentrandosi gradualmente sui campioni che sono stati classificati erroneamente dal classificatore di base.
Il metodo Bagging adotta una strategia divide et impera per ridurre la varianza del classificatore integrato campionando più volte i campioni di addestramento, addestrando più modelli diversi separatamente e quindi sintetizzandoli.
Diagramma di insaccamento
Il Modello 1, il Modello 2 e il Modello 3 vengono tutti addestrati utilizzando un sottoinsieme del set di addestramento. Visti individualmente, i loro confini decisionali sono molto tortuosi e tendono ad adattarsi eccessivamente. Il confine decisionale del modello integrato (mostrato dalla linea rossa) è più uniforme di quello di ciascun modello indipendente. Ciò è dovuto al metodo di voto ponderato integrato, che riduce la varianza.
Passi fondamentali dell'apprendimento d'insieme
(1) Trovare un classificatore di base i cui errori siano indipendenti l'uno dall'altro. (2) Addestrare il classificatore di base. (3) Unisci i risultati dei classificatori di base. Esistono due metodi per unire i classificatori di base: votazione e impilamento.
Esempio
Adaboost
Selezionare l'albero decisionale ID3 come classificatore di base Il motivo è: il modello ad albero ha una struttura semplice ed è quindi incline alla casualità Più comunemente usato
Per i campioni classificati correttamente il peso viene ridotto, mentre per i campioni classificati in modo errato il peso viene aumentato o mantenuto invariato. Nel processo finale di fusione del modello, anche i classificatori di base vengono ponderati e fusi in base al tasso di errore. I classificatori con bassi tassi di errore hanno un maggiore “diritto di parola”
Albero decisionale per l'incremento del gradiente GBDT
idea principale
Addestrare un nuovo classificatore debole in base al gradiente negativo della funzione di perdita del modello, quindi combinare i classificatori deboli addestrati nel modello esistente in forma cumulativa (ovvero utilizzare i residui per l'addestramento)
Esempio
I siti Web di video devono prevedere l'età di ciascun utente. Le caratteristiche includono la durata della visita della persona, il periodo di tempo, i tipi di video guardati, ecc. Ad esempio, l'età reale dell'utente A è 25 anni, ma l'età prevista del primo albero decisionale è 22 anni, ovvero una differenza di 3 anni, ovvero il residuo è di 3 anni. Quindi nel secondo albero impostiamo l'età di A a 3 anni per apprendere se il secondo albero può dividere A in un nodo foglia di 3 anni, i risultati dei due alberi possono essere sommati per ottenere la vera età di A. ; Se la conclusione del secondo albero ha 5 anni, allora A ha ancora un residuo di −2 anni e l'età di A nel terzo albero diventa −2 anni e continua ad apprendere. Infine, somma i risultati. L'uso dei residui per continuare ad apprendere qui è ciò che significa Gradient Boosted in GBDT.
XGBoost
Il GBDT originale costruisce un nuovo albero decisionale basato sul gradiente negativo della funzione di perdita empirica e lo pota solo dopo la costruzione dell'albero decisionale. XGBoost aggiunge termini regolari nella fase di costruzione dell'albero decisionale. Rispetto a GBDT, XGBoost ha apportato molte ottimizzazioni anche nell'implementazione tecnica.
Classificatori di base comunemente usati
albero decisionale
I motivi sono principalmente tre. (1) Gli alberi decisionali possono integrare più facilmente il peso dei campioni nel processo di addestramento. (2) La capacità di espressione e la capacità di generalizzazione dell'albero decisionale possono essere compromesse regolando il numero di strati dell'albero. (3) La perturbazione dei campioni di dati ha un impatto maggiore sull'albero decisionale, quindi il classificatore di base dell'albero decisionale generato da diversi insiemi di sottocampioni è più casuale. Un tale "studente instabile" è più adatto come classificatore di base. Inoltre, quando il nodo dell'albero decisionale viene suddiviso, un sottoinsieme di funzionalità viene selezionato casualmente per trovare l'attributo di suddivisione ottimale, il che introduce bene la casualità.
modello di rete neurale
Poiché anche il modello della rete neurale è relativamente "instabile", Inoltre, la casualità può essere introdotta anche regolando il numero di neuroni, i metodi di connessione, il numero di strati di rete, i pesi iniziali, ecc.
problema comune
È possibile sostituire il classificatore di base nella foresta casuale dall'albero decisionale al classificatore lineare o al vicino K-più vicino?
Non posso. La foresta casuale appartiene alla classe bagging dell'apprendimento d'insieme. Il vantaggio principale del bagging è che la varianza del classificatore integrato è inferiore alla varianza del classificatore di base. Il classificatore di base utilizzato nell'insaccamento dovrebbe preferibilmente essere sensibile alla distribuzione del campione (il cosiddetto classificatore instabile), in modo che l'insaccamento possa essere utile. I classificatori lineari o i vicini K più vicini sono classificatori relativamente stabili e le loro varianze non sono grandi.
Quali sono i vantaggi e i limiti del GBDT?
vantaggio (1) La velocità di calcolo nella fase di previsione è elevata. (2) Su set di dati densamente distribuiti, la capacità di generalizzazione e la capacità di espressione sono molto buone, il che rende GBDT spesso in cima alla lista in molte competizioni Kaggle. (3) L'utilizzo degli alberi decisionali come classificatori deboli fa sì che il modello GBDT abbia una migliore interpretabilità e robustezza, possa scoprire automaticamente relazioni di ordine elevato tra caratteristiche e non richieda una preelaborazione speciale dei dati come la normalizzazione, ecc.
limitazioni (1) GBDT ha prestazioni peggiori rispetto alle macchine vettoriali di supporto o alle reti neurali su set di dati sparsi ad alta dimensione. (2) GBDT non presenta vantaggi evidenti nell'affrontare i problemi relativi alle caratteristiche di classificazione del testo. (3) Il processo di formazione richiede una formazione seriale e alcuni metodi paralleli locali possono essere utilizzati solo all'interno dell'albero decisionale per migliorare la velocità di formazione.
La differenza tra l'aumento del gradiente e la discesa del gradiente
Nella discesa del gradiente, il modello è rappresentato in forma parametrizzata, in modo che l'aggiornamento del modello equivale all'aggiornamento dei parametri.
Nel gradient boosting, il modello non ha bisogno di essere parametrizzato, ma è definito direttamente nello spazio delle funzioni, il che espande notevolmente i tipi di modelli che possono essere utilizzati, in modo che diversi modelli possano essere combinati insieme, come GBDT
Perché i modelli di apprendimento d’insieme possono migliorare l’accuratezza
Principio di calcolo del voto
Apprendimento integrato nella pratica
Genera dati
make_moons (y ha due etichette 0,1)
suddivisione dei dati
diviso
La regressione logistica, l'SVC e l'albero decisionale classificano e prevedono rispettivamente, quindi votano
Classificatore di voto per l'apprendimento integrato
voto duro e voto morbido
Utilizzare il bagging, il design oob (test utilizzando dati non ottenuti), njobs definisce il core (n_jobs=-1 la formazione multi-core migliora l'efficienza)
bootstrap_features seleziona alcune funzionalità, Rispetto alla foresta casuale
Extra-Trees alberi casuali estremi
Gli alberi decisionali utilizzano funzionalità casuali e soglie casuali per dividere i nodi. Fornisce ulteriore casualità, inibisce l'overfitting, ma aumenta la distorsione ---- riduce la varianza e aumenta la distorsione Avere una velocità di allenamento più elevata
BoostingSerial
AdaBoost GBDT