Login
Accedi

Galleria mappe mentale Meta-algoritmo AdaBoost per migliorare la mappa mentale delle capacità di prestazione della classificazione

Meta-algoritmo AdaBoost per migliorare la mappa mentale delle capacità di prestazione della classificazione

Un riepilogo delle tecniche per migliorare le prestazioni di classificazione utilizzando il meta-algoritmo AdaBoost. Il contenuto copre classificatori basati sul multicampionamento di set di dati, classificatori deboli basati su alberi decisionali a livello singolo e problemi con classificazione non bilanciata.

Modificato alle 2023-02-25 13:03:37

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Meta-algoritmo AdaBoost per migliorare la mappa mentale delle capacità di prestazione della classificazione

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Consigliato per te
Profilo

Apprendimento d'insieme
- 7
VisioneCreativa

Meta-algoritmo AdaBoost per migliorare la mappa mentale delle capacità di prestazione della classificazione

Classificatore basato sul campionamento multiplo di set di dati

Metodi ensemble (meta-algoritmi)

Integrazione di diversi algoritmi

Integrazione dello stesso algoritmo in diverse impostazioni

Integrazione dopo aver assegnato diverse parti del set di dati a diversi classificatori

AdaBoost

vantaggio

Basso tasso di errore di generalizzazione

Facile da codificare

Può essere applicato alla maggior parte dei classificatori

Nessuna regolazione dei parametri

discordanza

Sensibile ai valori anomali

Tipi di dati applicabili

Tipo numerico

Tipo nominale

bagging: un metodo di costruzione del classificatore basato sul ricampionamento casuale dei dati

metodo di aggregazione bootstrap

Dal set di dati originale, selezionare S volte per ottenere S nuovi set di dati.

Il nuovo set di dati ha le stesse dimensioni del set di dati originale

Ciascun set di dati viene ottenuto selezionando casualmente un campione dal set di dati originale e sostituendolo con un altro campione casuale.

Spesso considerato campionamento con sostituzione

Consenti al nuovo set di dati di avere valori duplicati, mentre alcuni valori nel set di dati originale non vengono più visualizzati

Dopo che i set di dati S sono stati costruiti, un determinato algoritmo di apprendimento viene applicato a ciascun set di dati per ottenere classificatori S.

Quando classifichi nuovi dati, applica questi classificatori S e seleziona la categoria con il maggior numero

foresta casuale

potenziamento

simile all'insaccamento

Stesso

Più classificatori utilizzati in modo coerente

diverso

treno

Il classificatore di confezionamento viene ottenuto mediante addestramento seriale e ogni nuovo classificatore viene addestrato in base al classificatore già addestrato.

Il potenziamento ottiene nuovi classificatori concentrandosi sui dati che sono stati classificati erroneamente dai classificatori esistenti.

Risultati della classificazione

L'insacchettamento di ciascun classificatore ha lo stesso peso

Il peso di ciascun classificatore nel potenziamento rappresenta il successo nell'iterazione precedente.

Processo AdaBoost

Raccolta dati

qualsiasi metodo

Preparare i dati

Dipende dal tipo di classificatore debole utilizzato

Capitolo: Albero decisionale a livello singolo

I classificatori deboli semplici funzionano meglio

analizzare i dati

qualsiasi metodo

dati di allenamento

Trascorri la maggior parte del tuo tempo allenandoti

Il classificatore addestrerà più volte un classificatore debole sullo stesso set di dati

Algoritmo di prova

Calcolare il tasso di errore di classificazione

Utilizza algoritmi

Simile a SVM

Algoritmi di addestramento: miglioramento delle prestazioni del classificatore in base agli errori

AdaBoost

potenziamento adattivo

processo lavorativo

A ciascun campione nei dati di addestramento viene assegnato un peso per formare un vettore D

Inizialmente i pesi sono uguali

Innanzitutto, addestra un classificatore debole sui dati di addestramento e calcola il tasso di errore

Quindi, addestra nuovamente il classificatore debole sullo stesso set di dati

Ripesare

SÌ

ridurre

Errato

migliorare

A ciascun classificatore viene assegnato un valore di peso alfa

Calcolo del tasso di errore basato su ciascun classificatore debole

Tasso di errore

Numero di campioni classificati in modo errato/Numero di tutti i campioni

Continua a ripetere finché

Tasso di errore 0

Il numero di classificatori deboli raggiunge il valore specificato dall'utente

Costruisci un classificatore debole basato su un albero decisionale a livello singolo

albero decisionale a livello singolo

Conosciuto anche come ceppo dell'albero decisionale

principio di funzionamento

Prendi decisioni basandoti solo su una singola caratteristica

pseudocodice

Imposta il tasso di errore minimo minError su infinito positivo

Per ogni caratteristica nel set di dati

per ogni passaggio

per ogni segno di disuguaglianza

Costruisci un albero decisionale a livello singolo e testalo utilizzando un set di dati ponderato

Se il tasso di errore è inferiore a minError, imposta l'attuale albero decisionale a livello singolo come il miglior albero decisionale a livello singolo

Restituisce il miglior albero decisionale a livello singolo

Implementazione dell'algoritmo completo AdaBoost

pseudocodice

per ogni iterazione

Utilizza la funzione buildStump() per trovare il miglior albero decisionale a livello singolo

Aggiungere il miglior albero decisionale a livello singolo all'array di alberi decisionali a livello singolo

Calcola l'alfa

Calcolare il nuovo vettore dei pesi D

Aggiorna le stime cumulative delle categorie

Se il tasso di errore è uguale a 0,0, uscire dal ciclo

Algoritmo del test: classificazione basata su AdaBoost

Esempio: applicazione di AdaBoost su un set di dati difficile

adattamento eccessivo

adattamento eccessivo, apprendimento eccessivo

Il tasso di errore del test raggiunge un valore minimo e poi ricomincia a salire

Parte della letteratura afferma che il tasso di errore del test di un set di dati con buone prestazioni raggiungerà un valore stabile.

Problema di classificazione sbilanciata

Altre metriche di prestazione della classificazione: precisione, richiamo, curva ROC

matrice di confusione

Può aiutare le persone a comprendere meglio gli errori di classificazione

Vero positivo TP, falso positivo FP, vero negativo TN, falso negativo FN

Precisione

PT/(PT FP)

Richiamare

TP/(TP FN)

Curva ROC

caratteristiche di funzionamento del ricevitore

asse orizzontale

rapporto falsi positivi

FP/(FP TN)

Asse verticale

vero rapporto yang

TP/(TP FN)

usato per

Confronta i classificatori

Analisi costi benefici

Idealmente

Il miglior classificatore si trova il più possibile nell'angolo in alto a sinistra

Area sotto la curva AUC

Il valore medio delle prestazioni del classificatore

Controllo delle decisioni del classificatore basato sulla funzione di costo

apprendimento sensibile ai costi

Matrice dei costi con valori diversi da 0 e 1

Introdurre informazioni sui costi

AdaBoost

Regolare il vettore del peso dell'errore D in base alla funzione di costo

L'ingenuo Bayes

Selezionare la categoria con il costo previsto minimo anziché la probabilità massima come risultato della classificazione

SVM

Scegli diversi parametri C per diverse categorie nella funzione di costo

Metodi di campionamento dei dati per affrontare problemi di squilibrio

sottocampionamento

Elimina campione

Selezionare ed eliminare campioni lontani dal limite decisionale

Mix di sottocampionamento e sovracampionamento

sovracampionamento

Copia campione

Copia il campione esistente

Aggiungi punti simili agli esempi esistenti

punto di interpolazione

Può causare un adattamento eccessivo