Galleria mappe mentale Meta-algoritmo AdaBoost per migliorare la mappa mentale delle capacità di prestazione della classificazione
Un riepilogo delle tecniche per migliorare le prestazioni di classificazione utilizzando il meta-algoritmo AdaBoost. Il contenuto copre classificatori basati sul multicampionamento di set di dati, classificatori deboli basati su alberi decisionali a livello singolo e problemi con classificazione non bilanciata.
Modificato alle 2023-02-25 13:03:37Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Meta-algoritmo AdaBoost per migliorare la mappa mentale delle capacità di prestazione della classificazione
Classificatore basato sul campionamento multiplo di set di dati
Metodi ensemble (meta-algoritmi)
Integrazione di diversi algoritmi
Integrazione dello stesso algoritmo in diverse impostazioni
Integrazione dopo aver assegnato diverse parti del set di dati a diversi classificatori
AdaBoost
vantaggio
Basso tasso di errore di generalizzazione
Facile da codificare
Può essere applicato alla maggior parte dei classificatori
Nessuna regolazione dei parametri
discordanza
Sensibile ai valori anomali
Tipi di dati applicabili
Tipo numerico
Tipo nominale
bagging: un metodo di costruzione del classificatore basato sul ricampionamento casuale dei dati
metodo di aggregazione bootstrap
Dal set di dati originale, selezionare S volte per ottenere S nuovi set di dati.
Il nuovo set di dati ha le stesse dimensioni del set di dati originale
Ciascun set di dati viene ottenuto selezionando casualmente un campione dal set di dati originale e sostituendolo con un altro campione casuale.
Spesso considerato campionamento con sostituzione
Consenti al nuovo set di dati di avere valori duplicati, mentre alcuni valori nel set di dati originale non vengono più visualizzati
Dopo che i set di dati S sono stati costruiti, un determinato algoritmo di apprendimento viene applicato a ciascun set di dati per ottenere classificatori S.
Quando classifichi nuovi dati, applica questi classificatori S e seleziona la categoria con il maggior numero
foresta casuale
potenziamento
simile all'insaccamento
Stesso
Più classificatori utilizzati in modo coerente
diverso
treno
Il classificatore di confezionamento viene ottenuto mediante addestramento seriale e ogni nuovo classificatore viene addestrato in base al classificatore già addestrato.
Il potenziamento ottiene nuovi classificatori concentrandosi sui dati che sono stati classificati erroneamente dai classificatori esistenti.
Risultati della classificazione
L'insacchettamento di ciascun classificatore ha lo stesso peso
Il peso di ciascun classificatore nel potenziamento rappresenta il successo nell'iterazione precedente.
Processo AdaBoost
Raccolta dati
qualsiasi metodo
Preparare i dati
Dipende dal tipo di classificatore debole utilizzato
Capitolo: Albero decisionale a livello singolo
I classificatori deboli semplici funzionano meglio
analizzare i dati
qualsiasi metodo
dati di allenamento
Trascorri la maggior parte del tuo tempo allenandoti
Il classificatore addestrerà più volte un classificatore debole sullo stesso set di dati
Algoritmo di prova
Calcolare il tasso di errore di classificazione
Utilizza algoritmi
Simile a SVM
Algoritmi di addestramento: miglioramento delle prestazioni del classificatore in base agli errori
AdaBoost
potenziamento adattivo
processo lavorativo
A ciascun campione nei dati di addestramento viene assegnato un peso per formare un vettore D
Inizialmente i pesi sono uguali
Innanzitutto, addestra un classificatore debole sui dati di addestramento e calcola il tasso di errore
Quindi, addestra nuovamente il classificatore debole sullo stesso set di dati
Ripesare
SÌ
ridurre
Errato
migliorare
A ciascun classificatore viene assegnato un valore di peso alfa
Calcolo del tasso di errore basato su ciascun classificatore debole
Tasso di errore
Numero di campioni classificati in modo errato/Numero di tutti i campioni
Continua a ripetere finché
Tasso di errore 0
Il numero di classificatori deboli raggiunge il valore specificato dall'utente
Costruisci un classificatore debole basato su un albero decisionale a livello singolo
albero decisionale a livello singolo
Conosciuto anche come ceppo dell'albero decisionale
principio di funzionamento
Prendi decisioni basandoti solo su una singola caratteristica
pseudocodice
Imposta il tasso di errore minimo minError su infinito positivo
Per ogni caratteristica nel set di dati
per ogni passaggio
per ogni segno di disuguaglianza
Costruisci un albero decisionale a livello singolo e testalo utilizzando un set di dati ponderato
Se il tasso di errore è inferiore a minError, imposta l'attuale albero decisionale a livello singolo come il miglior albero decisionale a livello singolo
Restituisce il miglior albero decisionale a livello singolo
Implementazione dell'algoritmo completo AdaBoost
pseudocodice
per ogni iterazione
Utilizza la funzione buildStump() per trovare il miglior albero decisionale a livello singolo
Aggiungere il miglior albero decisionale a livello singolo all'array di alberi decisionali a livello singolo
Calcola l'alfa
Calcolare il nuovo vettore dei pesi D
Aggiorna le stime cumulative delle categorie
Se il tasso di errore è uguale a 0,0, uscire dal ciclo
Algoritmo del test: classificazione basata su AdaBoost
Esempio: applicazione di AdaBoost su un set di dati difficile
adattamento eccessivo
adattamento eccessivo, apprendimento eccessivo
Il tasso di errore del test raggiunge un valore minimo e poi ricomincia a salire
Parte della letteratura afferma che il tasso di errore del test di un set di dati con buone prestazioni raggiungerà un valore stabile.
Problema di classificazione sbilanciata
Altre metriche di prestazione della classificazione: precisione, richiamo, curva ROC
matrice di confusione
Può aiutare le persone a comprendere meglio gli errori di classificazione
Vero positivo TP, falso positivo FP, vero negativo TN, falso negativo FN
Precisione
PT/(PT FP)
Richiamare
TP/(TP FN)
Curva ROC
caratteristiche di funzionamento del ricevitore
asse orizzontale
rapporto falsi positivi
FP/(FP TN)
Asse verticale
vero rapporto yang
TP/(TP FN)
usato per
Confronta i classificatori
Analisi costi benefici
Idealmente
Il miglior classificatore si trova il più possibile nell'angolo in alto a sinistra
Area sotto la curva AUC
Il valore medio delle prestazioni del classificatore
Controllo delle decisioni del classificatore basato sulla funzione di costo
apprendimento sensibile ai costi
Matrice dei costi con valori diversi da 0 e 1
Introdurre informazioni sui costi
AdaBoost
Regolare il vettore del peso dell'errore D in base alla funzione di costo
L'ingenuo Bayes
Selezionare la categoria con il costo previsto minimo anziché la probabilità massima come risultato della classificazione
SVM
Scegli diversi parametri C per diverse categorie nella funzione di costo
Metodi di campionamento dei dati per affrontare problemi di squilibrio
sottocampionamento
Elimina campione
Selezionare ed eliminare campioni lontani dal limite decisionale
Mix di sottocampionamento e sovracampionamento
sovracampionamento
Copia campione
Copia il campione esistente
Aggiungi punti simili agli esempi esistenti
punto di interpolazione
Può causare un adattamento eccessivo