Login
Accedi

Galleria mappe mentale Riepilogo dei punti di conoscenza dell'apprendimento automatico dell'intelligenza artificiale di sklearn (con illustrazioni pratiche del codice)

Riepilogo dei punti di conoscenza dell'apprendimento automatico dell'intelligenza artificiale di sklearn (con illustrazioni pratiche del codice)

Un riepilogo dei punti di conoscenza pratici dell'apprendimento automatico basati su sklearn, inclusi codici pratici e diagrammi dei risultati scritti dall'autore, che possono essere utilizzati per l'apprendimento, la revisione dei colloqui e l'uso avanzato.

Modificato alle 2022-03-20 14:40:39

WSCoUtCI

Lavori recenti Visualizza più lavori>>

Riepilogo dei punti di conoscenza dell'apprendimento automatico dell'intelligenza artificiale di sklearn (con illustrazioni pratiche del codice)

WSCoUtCI

Lavori recenti Visualizza più lavori>>

Consigliato per te
Profilo

Capitolo 3 Modello lineare
- 7
WSZUS4lF
Apprendimento d'insieme
- 7
VisioneCreativa
clustering gerarchico
- 12
VisioneCreativa
DBSCAN
- 10
VisioneCreativa
K-significa
- 11
VisioneCreativa
riconoscimento di modelli
- 13
WSZUS4lF
AI
- 7
WSCoUtCI
Sviluppo della tecnologia dell'intelligenza artificiale
- 6
WSCoUtCI
AI
- 6
WSCoUtCI
Introduzione all'intelligenza artificiale
- 6
WSCoUtCI

apprendimento automatico

Pacchetto guida 1

DictVectorizer

CountVectorizer

Cinese

jieba.cut

participio balbettante

Chiama la funzione a sinistra e contavettorizzatore

TF-IDF

L'idea principale di TF-IDF

Se una parola o una frase appare con un'alta probabilità in un articolo, E se appare raramente in altri articoli, si ritiene che questa parola o frase abbia una buona distinzione di categoria. L'abilità è adatta per la classificazione.

Tf: frequenza del termine: il numero di volte in cui appare la parola frequenza

idf: frequenza inversa del documento frequenza inversa del documento =log(numero totale di documenti nel corpus/numero di documenti in cui compare la parola 1)

TF-IDF=tf*idf rappresenta il grado di importanza

Normalizzato

Caratteristiche: mappa i dati su (l'impostazione predefinita è [0,1]) trasformando i dati originali

Funzione: la discesa del gradiente è più veloce, la soluzione ottimale viene trovata più velocemente e il modello viene addestrato più velocemente

Svantaggi: facilmente influenzato da valori estremi

standardizzazione

Caratteristiche: Trasforma i dati originali in un intervallo con media pari a 0 e deviazione standard pari a 1 (distribuzione normale standard)

𝑋′= (𝑥−media)/𝜎

Agisce su ciascuna colonna, media è la media e 𝜎 è la deviazione standard.

std diventa la varianza, 𝜎= √std

Se si verificano valori anomali, a causa di una certa quantità di dati, un numero limitato di valori anomali non avrà un grande impatto sul valore medio, quindi la varianza cambierà poco.

Gestione dei valori mancanti

I valori mancanti possono essere riempiti dalla media o dalla mediana di ciascuna riga o colonna.

Selezione delle funzionalità

sottoargomento

Filtro: Soglia varianza

Rimuovere le funzionalità a bassa varianza

var = VarianceThreshold(threshold=0.2) # Elimina quelli con varianza inferiore a 0.2 dati = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

Embedded: regolarizzazione, albero decisionale, rete neurale

Involucro (avvolto)

Il metodo di avvolgimento seleziona continuamente sottoinsiemi di funzionalità dall'insieme di funzionalità iniziale, forma lo studente e valuta i sottoinsiemi in base alle prestazioni dello studente fino a quando non viene selezionato il sottoinsieme migliore.

Analisi delle componenti principali della PCA

Scopo: compressione della dimensionalità dei dati, riducendo il più possibile la dimensionalità (complessità) dei dati originali e perdendo una piccola quantità di informazioni

Funzione: può ridurre il numero di funzionalità nell'analisi di regressione o nell'analisi dei cluster.

Pacchetto guida 2

fit_transform

Il test è fit_transform, il che significa che nel processo di standardizzazione vengono utilizzate solo la media e la varianza del test.

test è una trasformazione, che indica che la media e la varianza del treno vengono utilizzate nel processo di standardizzazione.

Progetto KNN-Facebook

Punti di conoscenza

Se il valore k di KNN è troppo piccolo, è facile adattarlo eccessivamente.

Problema di selezione del valore k

Se è troppo grande, il modello è troppo semplice e incline a sottodimensionarsi.

Se è troppo piccolo, il modello è troppo complesso e facile da adattare.

Errore di approssimazione ed errore di stima:

L'errore di approssimazione è l'errore di addestramento sul set di addestramento

L'errore di stima è l'errore di test sul set di test

Combattimento reale

Formato dei dati: row_id x y precisione ora place_id

x y è la coordinata, l'ora è 23234 s, il numero di secondi dal 1 gennaio 1970, place_id è la posizione

L'obiettivo è prevedere in quale negozio place_id andare in base a x y

Preelaborazione dei dati

Costruisci il modello KNN

Vantaggi e svantaggi

vantaggio

Semplice ed efficace

La riqualificazione è economica

Adatto per campioni incrociati di domini di classe

Adatto per la classificazione automatica di campioni di grandi dimensioni

discordanza

apprendimento pigro

L'output non è molto interpretabile

Non bravo con campioni sbilanciati

Troppi di una categoria e troppo pochi di altre

Selezione e messa a punto del modello

Convalida incrociata

Convalidare in modo incrociato il set di training

ricerca in griglia

Ricerca iperparametrica

Combattimento reale

Metriche di valutazione per modelli di classificazione

matrice di confusione

Tasso di precisione: il risultato della previsione è la proporzione di esempi positivi tra gli esempi positivi (controllo accurato) TP/(TP FP)

Tasso di richiamo: la proporzione di esempi positivi previsti tra i campioni che sono effettivamente esempi positivi (ricerca completa, capacità di distinguere i campioni positivi) TP/(TP FN)

Punteggio F1: riflette la robustezza del modello

TPR, FPR, TNR, FNR, curva ROC, valore AUC

L'accuratezza può essere intesa come il numero di classificazioni corrette in tutti gli esperimenti

Algoritmo di classificazione Naive Bayes

formula

Esempio

Smussamento laplaciano

Otteniamo una probabilità di intrattenimento pari a 0, il che è irragionevole

formula

α è il coefficiente specificato, che generalmente è 1, e m è il numero di parole caratteristiche contate nel documento di formazione.

Vantaggi e svantaggi

vantaggio

Il modello Naive Bayes ha origine dalla teoria matematica classica e ha un'efficienza di classificazione stabile.

Non è molto sensibile ai dati mancanti e l'algoritmo è relativamente semplice. Viene spesso utilizzato per la classificazione del testo.

Elevata precisione di classificazione e velocità elevata

discordanza

È necessario conoscere la probabilità a priori P(F1,F2,…|C), quindi ad un certo punto l'effetto di previsione sarà scarso a causa del modello a priori assunto: se gli articoli non vengono raccolti bene, ad esempio, ci sono imbrogli gli articoli pieni di determinate parole interferiranno con i risultati

Combattimento reale

Preelaborazione dei dati

Previsione e valutazione del modello

Algoritmo di classificazione dell'albero decisionale

entropia informativa

L'albero decisionale è suddiviso in base al guadagno di informazioni.

Custodia ID3

Algoritmi comuni

ID3

Il criterio per massimizzare il guadagno di informazioni

Comprendi dal punto di vista estremo: se viene aggiunta solo una categoria a una determinata funzionalità, il guadagno di informazioni è pari a zero e elimineremo questa funzionalità

Svantaggi: quando i valori di entropia sono simili, due caratteristiche vengono moltiplicate per 1/2 e tre caratteristiche vengono moltiplicate per 1/3, quindi il guadagno è ampio. Pertanto, l'algoritmo ID3 preferisce funzionalità con un numero relativamente elevato di funzionalità.

C4.5

Criterio massimo del rapporto di guadagno delle informazioni

CARRELLO

Albero di classificazione: criterio minimo del coefficiente di Gini

Se il prestito è in arretrato

dati

Suddiviso in base alla disponibilità abitativa

Secondo il matrimonio

Secondo il reddito annuo

I rimanenti attributi continuano ad essere divisi

albero decisionale finale

Riepilogo dei tipi comuni di alberi decisionali

Vantaggi e svantaggi:

vantaggio

1. Comprensione e spiegazione semplici, visualizzazione dell'albero. 2. Richiede poca preparazione dei dati, altre tecniche di solito richiedono la normalizzazione e la standardizzazione dei dati

discordanza

1. Completamente sviluppato, l'albero è troppo complesso e facile da adattare. 2. Gli alberi decisionali potrebbero essere instabili poiché piccole modifiche nei dati potrebbero causare la generazione di alberi completamente diversi.

modi per migliorare

potatura del carro

pre-potatura

(1) Il numero minimo di campioni contenuti in ciascun nodo, ad esempio 10. Se il numero totale di campioni nel nodo è inferiore a 10, non verrà eseguita alcuna classificazione.

(2) Specificare l'altezza o la profondità dell'albero, ad esempio, la profondità massima dell'albero è 4;

(3) Se l'entropia del nodo specificato è inferiore a un certo valore, non verrà più divisa.

post-potatura

Eseguire l'eliminazione dell'albero decisionale di overfitting generato per ottenere una versione semplificata dell'albero decisionale eliminato.

Progetto di previsione della sopravvivenza del Titanic

Gestisci i valori mancanti e i dati divisi

Converti il testo in vettori e quindi modella la previsione

Metodo di apprendimento dell'insieme: foresta casuale

Una foresta casuale è un classificatore che contiene più alberi decisionali e la sua categoria di output è determinata dalla modalità di output della categoria dai singoli alberi.

Passaggi chiave nel processo di costruzione casuale della foresta (utilizzare N per rappresentare il numero di casi di addestramento (campioni), M per rappresentare il numero di caratteristiche): 1) Selezionare casualmente un campione alla volta, campionamento con sostituzione, ripetere N volte (potrebbero verificarsi campioni duplicati) 2) Selezionare casualmente m caratteristiche, m <<M, e costruire un albero decisionale

processo di impostazione

1. Perché campionare casualmente il set di addestramento? Se il campionamento casuale non viene eseguito e il training set di ciascun albero è lo stesso, i risultati finali della classificazione degli alberi addestrati saranno esattamente gli stessi. 2. Perché è necessario il campionamento con sostituzione? Se non c'è campionamento con sostituzione, allora i campioni di addestramento di ogni albero sono diversi e non hanno intersezioni. In questo modo ogni albero è "distorto" e assolutamente "unilaterale" (ovviamente è possibile dirlo sbagliato). , vale a dire, ogni albero è molto diverso dopo l'addestramento e la classificazione finale della foresta casuale dipende dal voto di più alberi (classificatori deboli);

vantaggio

1 ha un'eccellente precisione tra tutti gli algoritmi attuali 2. In grado di funzionare in modo efficace su set di dati di grandi dimensioni 3. In grado di elaborare campioni di input con caratteristiche altamente dimensionali senza richiedere la riduzione della dimensionalità. 4. Capacità di valutare l'importanza di ciascuna caratteristica nei problemi di classificazione 5. Si possono ottenere buoni risultati anche per problemi relativi ai valori predefiniti.

Codice effettivo

Pacchetto guida 3

Algoritmo di regressione: analisi di regressione lineare

Definizione: la regressione lineare è un'analisi di regressione che modella la relazione tra una o più variabili indipendenti e una variabile dipendente. che è caratterizzato da una combinazione lineare di uno o più parametri del modello chiamati coefficienti di regressione

formula

funzione di perdita

Diagramma visivo

Metodo di soluzione: come trovare W nel modello per ridurre al minimo la perdita? (Lo scopo è trovare il valore W corrispondente alla perdita minima, questo è il punto chiave)

equazione normale

Processo di derivazione (𝑋 è la matrice degli autovalori, 𝑦 è la matrice dei valori target )

Svantaggi: 1. Quando le funzionalità sono troppo complesse, la velocità della soluzione è troppo lenta. 2. A volte la trasposizione di X moltiplicata per la matrice inversa di X non è disponibile e non può essere risolta.

Previsioni sul rendimento dei prezzi delle case a Boston nella pratica

Preelaborazione dei dati

Lr=Previsione LinearRegression()

discesa del gradiente

Formula di discesa del gradiente (w=w1-tasso di apprendimento * derivata della perdita rispetto a w)

tasso di apprendimento

è un iperparametro, regolalo per ottenere la perdita minima

processo di discesa

Previsioni sul rendimento dei prezzi delle case a Boston nella pratica

previsione sgd = SGDRegressor(eta0=0.008).

Esistono molti parametri per la discesa del gradiente stocastico. Qui vengono elencati solo i parametri comuni: la penalità, divisa in L1 e L2, tasso di apprendimento tasso_di apprendimento e forza di regolarizzazione alfa.

Alcuni punti di conoscenza

SGD sta per Stochastic Gradient Descent: e aggiorna il modello man mano che il programma di intensità (cioè il tasso di apprendimento) diminuisce.

Il regolarizzatore è una penalità sulla funzione di perdita

La regolarizzazione L1 produce pesi sparsi, La regolarizzazione L1 tende a essere scarsa. Eseguirà automaticamente la selezione delle funzionalità e rimuoverà alcune funzionalità inutili, ovvero reimposterà i pesi corrispondenti a queste funzionalità su 0. Previene l'overfitting.

La funzione principale di L2 è prevenire l'overfitting. Quando i parametri richiesti sono più piccoli (i parametri sono coefficienti dei termini di ordine superiore), i coefficienti dei termini di ordine superiore sono più piccoli e i termini di ordine superiore sono più vicini a 0, indicando che il valore il modello è più semplice, e quanto più semplice è il modello, tanto più tende ad essere più fluido, evitando così un adattamento eccessivo.

Forza della regolarizzazione: ampia: i parametri si avvicinano a 0, i termini di ordine superiore si avvicinano a 0 Piccolo: le modifiche ai parametri sono piccole (il peso dei termini di ordine superiore non cambia)

metodo della discesa del gradiente

Algoritmo di discesa del gradiente completo (FG)

Calcolare gli errori di tutti i campioni nel training set, sommarli e prendere la media come funzione obiettivo. La discesa del gradiente in batch è lenta perché è necessario calcolare tutti i gradienti sull'intero set di dati quando si esegue ogni aggiornamento. Allo stesso tempo, la discesa del gradiente in batch non può gestire set di dati che superano il limite di capacità della memoria.

Algoritmo di discesa del gradiente stocastico (SG)

La funzione obiettivo di ogni ciclo di calcolo non è più l'errore di tutti i campioni, ma solo l'errore di un singolo campione. Cioè, viene calcolato ogni volta solo il gradiente della funzione obiettivo di un campione per aggiornare il peso, e poi viene prelevato il campione successivo e il processo viene ripetuto finché il valore della funzione di perdita non arresta il declino o il valore della funzione di perdita è inferiore a una soglia tollerabile. Questo processo è semplice ed efficiente e in genere può impedire meglio la convergenza delle iterazioni di aggiornamento verso la soluzione ottimale locale.

Regressione della cresta

La regressione di cresta è una versione regolarizzata della regressione lineare, ovvero aggiunge termini regolari alla funzione di costo della regressione lineare originale (ovvero, regressione lineare con regolarizzazione l2)

formula

Codice effettivo

Regressione lazo(Regressione lazo)

La regressione lazo è una regressione lineare con regolarizzazione L1

formula

Come scegliere il giusto algoritmo di machine learning

Il motivo dell’underfitting: vengono apprese meno caratteristiche dei dati. Soluzione: aumentare il numero di caratteristiche dei dati.

Cause e soluzioni al sovradattamento

motivo: Ci sono troppe caratteristiche originali e ci sono alcune caratteristiche rumorose. Il modello è troppo complesso perché il modello cerca di tenerne conto singoli punti dati di test

Soluzione: Eseguire la selezione delle funzionalità ed eliminare funzionalità altamente rilevanti (difficile da fare) Convalida incrociata (lascia che tutti i dati vengano addestrati) Regolarizzazione (comprensione)

Algoritmo di classificazione - Regressione logistica

Può risolvere solo problemi di classificazione a 2. Per risolvere problemi di classificazione multipla, richiede una classificazione continua a 2 punti.

funzione di attivazione

funzione sigmoidea

Formula della funzione (z è il risultato della regressione)

Output: valore di probabilità nell'intervallo [0,1], valore predefinito 0,5 come soglia

funzione di perdita di costo

Processo di calcolo 1

Derivata della funzione di perdita di costo rispetto a w

Il processo di derivazione

Discesa del gradiente per trovare il w ottimale

Formula di discesa del gradiente

Il processo di discesa del gradiente ottiene gradualmente la linea di demarcazione ottimale

Combattimento pratico: regressione logistica per la classificazione binaria per la previsione del cancro

Preelaborazione dei dati

Previsione del modello

risultato

modelli discriminativi e generativi

Apprendimento non supervisionato - analisi dei cluster

k-significa

Principi base dell'algoritmo

K indica metriche di valutazione delle prestazioni

Coefficiente di contorno

Spiegazione del coefficiente di silhouette

1. Se 〖𝑠𝑐〗_ responsabile è inferiore a 0, significa che la distanza media di 𝑎_ responsabile è maggiore degli altri cluster più vicini. L'effetto di clustering non è buono 2. Se 〖𝑠𝑐〗_ responsabile è maggiore, significa che la distanza media di 𝑎_ responsabile è inferiore rispetto agli altri cluster più vicini. Buon effetto di clustering 3. Il valore del coefficiente di silhouette è compreso tra [-1,1]. Quanto più si avvicina a 1, tanto migliori sono la coesione e la separazione.

Analisi pratica dei cluster di utenti di combattimento-Taobao

Leggi tabelle, unisci tabelle

Crea una tabella incrociata di ID utente e ID prodotto

Riduzione dimensionale dell'analisi delle componenti principali della PCA

modello di clustering

Risultati del clustering

Calcolo del coefficiente di silhouette

Metodo di rilevamento dei valori anomali

Disegna un diagramma a scatola

principio

Punteggio Z

principio

DBSCAN

Tutti i punti dati sono definiti come punti centrali (Core Points), punti di confine (Border Points) o punti di rumore e quindi raggruppati

Foresta dell'Isolamento|Foresta dell'Isolamento

Sono necessarie meno suddivisioni per isolare i valori anomali rispetto a quelli non anomali, ovvero i valori anomali hanno numeri di isolamento inferiori rispetto ai punti non anomali. Pertanto, un punto dati viene definito come valore anomalo se il suo numero di orfani è inferiore alla soglia.

Apprendimento d'insieme

Definizione: unificare i risultati dei classificatori di base in una decisione finale

Classificazione

Potenziamento (seriale)

La previsione del successivo classificatore di base dipende dall'output del precedente classificatore di base

Il metodo Boosting utilizza un metodo seriale per addestrare i classificatori di base e esistono dipendenze tra ciascun classificatore di base. La sua idea di base è quella di impilare i classificatori di base strato per strato Durante l'addestramento, ogni strato attribuisce un peso maggiore ai campioni che sono stati classificati erroneamente dal classificatore di base del livello precedente. Durante il test, il risultato finale si ottiene in base alla ponderazione dei risultati di ciascun livello di classificatori.

Insacco (parallelo)

Non esiste una forte dipendenza tra i classificatori di base e possono essere addestrati in parallelo. Ad esempio, una foresta casuale basata su un classificatore basato su un albero decisionale. Per rendere i classificatori di base indipendenti l'uno dall'altro, il set di addestramento è diviso in diversi sottoinsiemi (quando il numero di campioni di addestramento è piccolo, potrebbe esserci sovrapposizione tra i sottoinsiemi). È più simile a un processo decisionale collettivo. Ogni individuo impara individualmente. Il contenuto di apprendimento può essere lo stesso, diverso o parzialmente sovrapposto. Tuttavia, a causa delle differenze tra gli individui, i giudizi finali non saranno del tutto coerenti. Nel processo decisionale finale, ogni individuo esprime un giudizio individualmente, quindi la decisione collettiva finale viene presa tramite votazione.

Comprendere le differenze tra i metodi Boosting e Bagging dal punto di vista dell'eliminazione della distorsione e della varianza del classificatore di base

L'errore del classificatore di base è la somma degli errori di distorsione e di varianza. La distorsione è dovuta principalmente ad errori sistematici causati dalla limitata capacità espressiva del classificatore, che si manifesta nella non convergenza dell'errore di addestramento. La varianza è dovuta al fatto che il classificatore è troppo sensibile alla distribuzione del campione, con conseguente overfitting quando il numero di campioni di addestramento è piccolo.

deviazione

Il bias si riferisce alla deviazione tra l'output medio del modello addestrato e l'output del modello reale. L'errore causato dal bias si riflette solitamente nell'errore di addestramento.

varianza

La varianza si riferisce alla varianza dell'output di tutti i modelli addestrati da tutti i set di dati di addestramento campionati di dimensione m. La varianza è solitamente causata dal fatto che la complessità del modello è troppo elevata rispetto al numero di campioni di addestramento m. L'errore causato dalla varianza si riflette solitamente nell'incremento dell'errore del test rispetto all'errore di addestramento. Le previsioni a bassa varianza hanno un buon clustering di valori

Esempio di modello di ripresa

Supponiamo che uno scatto sia il modello che fa una previsione su un campione. Raggiungere la posizione del centro significa che la previsione è accurata e quanto più si discosta dal centro, maggiore è l'errore di previsione.

Nell'angolo in alto a sinistra, i risultati dello scatto sono accurati e concentrati, indicando che la distorsione e la varianza del modello sono molto piccole; Sebbene il centro dei risultati della ripresa nell'immagine in alto a destra sia attorno al bersaglio, la distribuzione è relativamente dispersa, indicando che il modello ha una piccola deviazione ma una grande varianza; La figura in basso a sinistra mostra che la varianza del modello è piccola e la deviazione è ampia; L'immagine in basso a destra mostra che il modello presenta un'ampia varianza e un'ampia deviazione.

La relazione tra errore di generalizzazione, distorsione, varianza e complessità del modello

Il metodo Boosting riduce la distorsione del classificatore integrato concentrandosi gradualmente sui campioni che sono stati classificati erroneamente dal classificatore di base.

Il metodo Bagging adotta una strategia divide et impera per ridurre la varianza del classificatore integrato campionando più volte i campioni di addestramento, addestrando più modelli diversi separatamente e quindi sintetizzandoli.

Diagramma di insaccamento

Il Modello 1, il Modello 2 e il Modello 3 vengono tutti addestrati utilizzando un sottoinsieme del set di addestramento. Visti individualmente, i loro confini decisionali sono molto tortuosi e tendono ad adattarsi eccessivamente. Il confine decisionale del modello integrato (mostrato dalla linea rossa) è più uniforme di quello di ciascun modello indipendente. Ciò è dovuto al metodo di voto ponderato integrato, che riduce la varianza.

Passi fondamentali dell'apprendimento d'insieme

(1) Trovare un classificatore di base i cui errori siano indipendenti l'uno dall'altro. (2) Addestrare il classificatore di base. (3) Unisci i risultati dei classificatori di base. Esistono due metodi per unire i classificatori di base: votazione e impilamento.

Esempio

Adaboost

Selezionare l'albero decisionale ID3 come classificatore di base Il motivo è: il modello ad albero ha una struttura semplice ed è quindi incline alla casualità Più comunemente usato

Per i campioni classificati correttamente il peso viene ridotto, mentre per i campioni classificati in modo errato il peso viene aumentato o mantenuto invariato. Nel processo finale di fusione del modello, anche i classificatori di base vengono ponderati e fusi in base al tasso di errore. I classificatori con bassi tassi di errore hanno un maggiore “diritto di parola”

Albero decisionale per l'incremento del gradiente GBDT

idea principale

Addestrare un nuovo classificatore debole in base al gradiente negativo della funzione di perdita del modello, quindi combinare i classificatori deboli addestrati nel modello esistente in forma cumulativa (ovvero utilizzare i residui per l'addestramento)

Esempio

I siti Web di video devono prevedere l'età di ciascun utente. Le caratteristiche includono la durata della visita della persona, il periodo di tempo, i tipi di video guardati, ecc. Ad esempio, l'età reale dell'utente A è 25 anni, ma l'età prevista del primo albero decisionale è 22 anni, ovvero una differenza di 3 anni, ovvero il residuo è di 3 anni. Quindi nel secondo albero impostiamo l'età di A a 3 anni per apprendere se il secondo albero può dividere A in un nodo foglia di 3 anni, i risultati dei due alberi possono essere sommati per ottenere la vera età di A. ; Se la conclusione del secondo albero ha 5 anni, allora A ha ancora un residuo di −2 anni e l'età di A nel terzo albero diventa −2 anni e continua ad apprendere. Infine, somma i risultati. L'uso dei residui per continuare ad apprendere qui è ciò che significa Gradient Boosted in GBDT.

XGBoost

Il GBDT originale costruisce un nuovo albero decisionale basato sul gradiente negativo della funzione di perdita empirica e lo pota solo dopo la costruzione dell'albero decisionale. XGBoost aggiunge termini regolari nella fase di costruzione dell'albero decisionale. Rispetto a GBDT, XGBoost ha apportato molte ottimizzazioni anche nell'implementazione tecnica.

Classificatori di base comunemente usati

albero decisionale

I motivi sono principalmente tre. (1) Gli alberi decisionali possono integrare più facilmente il peso dei campioni nel processo di addestramento. (2) La capacità di espressione e la capacità di generalizzazione dell'albero decisionale possono essere compromesse regolando il numero di strati dell'albero. (3) La perturbazione dei campioni di dati ha un impatto maggiore sull'albero decisionale, quindi il classificatore di base dell'albero decisionale generato da diversi insiemi di sottocampioni è più casuale. Un tale "studente instabile" è più adatto come classificatore di base. Inoltre, quando il nodo dell'albero decisionale viene suddiviso, un sottoinsieme di funzionalità viene selezionato casualmente per trovare l'attributo di suddivisione ottimale, il che introduce bene la casualità.

modello di rete neurale

Poiché anche il modello della rete neurale è relativamente "instabile", Inoltre, la casualità può essere introdotta anche regolando il numero di neuroni, i metodi di connessione, il numero di strati di rete, i pesi iniziali, ecc.

problema comune

È possibile sostituire il classificatore di base nella foresta casuale dall'albero decisionale al classificatore lineare o al vicino K-più vicino?

Non posso. La foresta casuale appartiene alla classe bagging dell'apprendimento d'insieme. Il vantaggio principale del bagging è che la varianza del classificatore integrato è inferiore alla varianza del classificatore di base. Il classificatore di base utilizzato nell'insaccamento dovrebbe preferibilmente essere sensibile alla distribuzione del campione (il cosiddetto classificatore instabile), in modo che l'insaccamento possa essere utile. I classificatori lineari o i vicini K più vicini sono classificatori relativamente stabili e le loro varianze non sono grandi.

Quali sono i vantaggi e i limiti del GBDT?

vantaggio (1) La velocità di calcolo nella fase di previsione è elevata. (2) Su set di dati densamente distribuiti, la capacità di generalizzazione e la capacità di espressione sono molto buone, il che rende GBDT spesso in cima alla lista in molte competizioni Kaggle. (3) L'utilizzo degli alberi decisionali come classificatori deboli fa sì che il modello GBDT abbia una migliore interpretabilità e robustezza, possa scoprire automaticamente relazioni di ordine elevato tra caratteristiche e non richieda una preelaborazione speciale dei dati come la normalizzazione, ecc.

limitazioni (1) GBDT ha prestazioni peggiori rispetto alle macchine vettoriali di supporto o alle reti neurali su set di dati sparsi ad alta dimensione. (2) GBDT non presenta vantaggi evidenti nell'affrontare i problemi relativi alle caratteristiche di classificazione del testo. (3) Il processo di formazione richiede una formazione seriale e alcuni metodi paralleli locali possono essere utilizzati solo all'interno dell'albero decisionale per migliorare la velocità di formazione.

La differenza tra l'aumento del gradiente e la discesa del gradiente

Nella discesa del gradiente, il modello è rappresentato in forma parametrizzata, in modo che l'aggiornamento del modello equivale all'aggiornamento dei parametri.

Nel gradient boosting, il modello non ha bisogno di essere parametrizzato, ma è definito direttamente nello spazio delle funzioni, il che espande notevolmente i tipi di modelli che possono essere utilizzati, in modo che diversi modelli possano essere combinati insieme, come GBDT

Perché i modelli di apprendimento d’insieme possono migliorare l’accuratezza

Principio di calcolo del voto

Apprendimento integrato nella pratica

Genera dati

make_moons (y ha due etichette 0,1)

suddivisione dei dati

diviso

La regressione logistica, l'SVC e l'albero decisionale classificano e prevedono rispettivamente, quindi votano

Classificatore di voto per l'apprendimento integrato

voto duro e voto morbido

Utilizzare il bagging, il design oob (test utilizzando dati non ottenuti), njobs definisce il core (n_jobs=-1 la formazione multi-core migliora l'efficienza)

bootstrap_features seleziona alcune funzionalità, Rispetto alla foresta casuale

Extra-Trees alberi casuali estremi

Gli alberi decisionali utilizzano funzionalità casuali e soglie casuali per dividere i nodi. Fornisce ulteriore casualità, inibisce l'overfitting, ma aumenta la distorsione ---- riduce la varianza e aumenta la distorsione Avere una velocità di allenamento più elevata

BoostingSerial

AdaBoost GBDT