Galleria mappe mentale Apprendimento d'insieme
Include algoritmi di bagging e potenziamento, con introduzione dettagliata e descrizione completa. Spero che possa essere utile agli amici interessati!
Modificato alle 2023-12-23 14:09:40個人求職簡歷模板的暗黑配色方案,包括個人簡介、職業規劃、行業經驗、自我評價等多個部分,讓你的簡歷更出彩。使用模板可以極大地提高效率,用戶不需要從頭開始設計結構和內容,只需在模板的基礎上填寫或添加自己的信息即可,這樣可以節省大量的時間和精力,歡迎參考使用!持續分享給大家……
Se non sai come scrivere un articolo, sarai nei guai come manager dei sistemi informativi. Una guida passo passo su come scrivere un documento sulla gestione del rischio. Se ne hai bisogno, ritiralo velocemente!
Il programma dietetico formula un programma dietetico scientifico e ragionevole per soddisfare i nutrienti e l'energia richiesti dal corpo, mantenendo così una buona salute e una buona postura.
個人求職簡歷模板的暗黑配色方案,包括個人簡介、職業規劃、行業經驗、自我評價等多個部分,讓你的簡歷更出彩。使用模板可以極大地提高效率,用戶不需要從頭開始設計結構和內容,只需在模板的基礎上填寫或添加自己的信息即可,這樣可以節省大量的時間和精力,歡迎參考使用!持續分享給大家……
Se non sai come scrivere un articolo, sarai nei guai come manager dei sistemi informativi. Una guida passo passo su come scrivere un documento sulla gestione del rischio. Se ne hai bisogno, ritiralo velocemente!
Il programma dietetico formula un programma dietetico scientifico e ragionevole per soddisfare i nutrienti e l'energia richiesti dal corpo, mantenendo così una buona salute e una buona postura.
Apprendimento d'insieme (parte 1)
introduzione
Idea; costruire e combinare più studenti deboli per completare attività di apprendimento
Illustrazione:
Due questioni a cui occorre prestare attenzione nell’apprendimento integrato
Come formare un singolo studente debole?
Metodo 1: modificare il peso del set di dati di addestramento
Metodo 2: modificare la distribuzione di probabilità del set di dati di addestramento
Come trasformare gli studenti deboli in studenti forti?
Metodo 1: Metodo di votazione parallela
Metodo 2: metodo di ponderazione seriale
Due categorie principali di apprendimento d’insieme
Bagging: non esiste una forte dipendenza tra gli studenti di base e un metodo di parallelizzazione che può essere generato simultaneamente
algoritmo rappresentativo
foresta casuale
Idea di algoritmo: utilizzare gli alberi decisionali come studenti deboli e integrare gli studenti deboli nel metodo del bagging
In che modo la foresta casuale è casuale? (modificando la distribuzione di probabilità del set di dati)
Metodo 1: Foresta-RI
Ogni volta che crei un set di addestramento, devi selezionare casualmente k campioni dal set di dati D e selezionare casualmente n caratteristiche dalle M caratteristiche.
Illustrazione:
Metodo 2: Foresta-RC
Ogni volta che viene costruito un set di addestramento, n caratteristiche devono essere selezionate casualmente dalle M caratteristiche del set di dati D e ponderate linearmente per formare un set di dati contenente F nuove caratteristiche. (Numero casuale con coefficiente di peso [-1,1])
Illustrazione:
Passi dell'algoritmo
Passo 1: Scegli uno studente debole (albero decisionale, KNN, regressione logistica, ecc.)
Passaggio 2: costruire un set di allenamento basato sulla casualità
Foresta-RI
Foresta-RC
Passo 3: Formare l'attuale studente debole
Fase 4: Determinare se lo studente bravo è qualificato in base al meccanismo di voto
Meccanismo di voto: la modalità di tutti i risultati degli studenti deboli
Illustrazione:
Vantaggi e svantaggi
vantaggio
Durante l'allenamento, gli alberi sono indipendenti l'uno dall'altro e la velocità di allenamento è elevata.
L'errore di generalizzazione utilizza una stima imparziale e il modello ha una forte capacità di generalizzazione.
Dispone di un proprio set di dati in bundle, quindi non è necessario separare il set di convalida incrociata
A fronte di set di dati sbilanciati e mancanti, la precisione del modello è ancora elevata
discordanza
Le foreste casuali possono adattarsi eccessivamente ad alcuni problemi di classificazione o regressione rumorosi
La foresta casuale ha molti parametri ed è difficile da regolare.
ottimizzazione
Mirando al problema dei troppi parametri e alla difficoltà nella regolazione dei parametri
Acquisire prima familiarità con i parametri, quindi regolarli in base alla ricerca nella griglia.
Illustrazione dell'influenza dei parametri sul modello:
Potenziamento: esiste una forte dipendenza tra gli studenti di base e un metodo di serializzazione che deve essere generato in serie.
algoritmo rappresentativo
AdaBoost
Idea dell'algoritmo: formare uno studente debole in ogni round. Il peso dei campioni di formazione nel round precedente viene modificato e utilizzato come dati di formazione per lo studente debole nel round successivo. Infine, ogni studente debole viene combinato in un modello integrato ponderazione lineare.
Passi dell'algoritmo
Passo 1: Scegli uno studente debole (albero decisionale, KNN, regressione logistica, ecc.)
Passaggio 2: inizializzare o aggiornare i pesi dei campioni
Inizializza i pesi dei campioni, ovvero ogni campione ha lo stesso peso
Aggiornare i pesi dei campioni, ovvero ridurre il peso dei campioni classificati correttamente e aumentare il peso dei campioni classificati in modo errato.
Illustrazione:
Passo 3: Formare l'attuale studente debole
Passo 4: Calcola il peso dell’attuale studente debole
Passaggio 1: calcolare il tasso di errore dell'attuale studente debole (il rapporto tra il numero di campioni classificati in modo errato e il numero di tutti i campioni)
Fase 2: Calcolare il peso dell’attuale studente debole in base al tasso di errore
Illustrazione:
Passaggio 5: aggiungere l'attuale studente debole al modello lineare e determinare se è qualificato
modello lineare
Illustrazione:
Come giudicare?
Precisione degli studenti forti
Il numero di studenti deboli tra gli studenti forti
Vantaggi e svantaggi
vantaggio
AdaBoost ha un'elevata precisione
AdaBoost può utilizzare diversi algoritmi di classificazione come classificatori deboli e non si limita agli alberi decisionali.
discordanza
L'addestramento dei parametri richiede molto tempo
Lo squilibrio dei dati può facilmente portare alla perdita di accuratezza
Il numero di classificatori deboli non è facile da determinare
ottimizzazione
Mirare al consumo di tempo di formazione: utilizzare l'algoritmo di distribuzione diretta per accelerare l'ottimizzazione dei parametri
Se il numero di classificatori è difficile da determinare: utilizzare la convalida incrociata per facilitare la determinazione
GBDT (albero di potenziamento gradiente)
potenziare l'albero
Albero di potenziamento della regressione: semplice aggiunta di più regressori deboli
Albero di potenziamento della classificazione: aggiungi semplicemente più classificatori deboli
Alberi di potenziamento del gradiente: classificazione unificata, alberi di potenziamento della regressione
Idea di algoritmo: utilizzare l'albero di regressione CART come studente debole, costruire un nuovo ciclo di studenti deboli basato sulla perdita degli studenti deboli e infine aggiungere linearmente tutti gli studenti deboli.
Passi dell'algoritmo
Passo 1: Scegli uno studente debole (albero decisionale, KNN, regressione logistica, ecc.)
Fase 2: Costruire un set di addestramento (casualità) calcolando il gradiente negativo della funzione di perdita dell'attuale studente debole (residuo di adattamento) e campionamento casuale di caratteristiche e campioni del set di dati D
Passo 3: Formare l'attuale studente debole
Passaggio 4: aggiungere l'attuale studente debole al modello lineare e determinare se è qualificato
Vantaggi e svantaggi
vantaggio
Adatto per dati a bassa dimensionalità e può gestire dati non lineari
Utilizzando alcune robuste funzioni di perdita, è molto robusto rispetto ai valori anomali
A causa dei vantaggi sia del bagging che del boosting, il livello teorico è superiore a quello della foresta casuale e dell'adaboost.
discordanza
Dati sulla difficoltà di formazione in parallelo a causa delle dipendenze tra studenti deboli
Dimensioni dei dati più elevate aumenteranno la complessità computazionale dell'algoritmo.
Poiché lo studente debole è un regressore, non può essere utilizzato direttamente per la classificazione.
ottimizzazione
Ottieni un parallelismo parziale tramite SGBT autocampionante
XGboost: un'implementazione efficiente di GBDT, con nuovi termini di regolarizzazione e adattamento dell'espansione quadratica di Taylor della funzione di perdita
LightGBM: un'implementazione efficiente di XGBoost, che discretizza le caratteristiche continue in virgola mobile in k valori discreti e costruisce un istogramma con una larghezza di k, accelerando i calcoli e risparmiando risorse di spazio.