Galleria mappe mentale Capitolo 3 Modello lineare
Machine Learning (Xigua Book Edition), introduce la forma base, regressione lineare, Regressione delle quote logaritmiche, analisi discriminante lineare, Apprendimento multi-classificazione, ecc.
Modificato alle 2024-04-12 22:37:17Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Capitolo 3 Modello lineare
(1) Forma base
Un modello lineare tenta di apprendere una funzione che prevede attraverso una combinazione lineare di attributi. Vantaggi: forma semplice, facile da modellare Interpretabilità Le basi dei modelli non lineari (introducendo strutture gerarchiche o mappature ad alta dimensione)
Forma base
forma generale
è un esempio descritto dagli attributi, dove xi è il valore di x sull'i-esimo attributo
forma vettoriale
,In
(2) Regressione lineare
Considera l'elaborazione di tipo discreto:
Esiste una relazione di "ordine". Convertire in valori continui
Rapporto "ordine". Se è presente un valore di attributo, viene convertito in un vettore dimensionale
Scopo: apprendere un modello lineare per prevedere i token di output con valore reale nel modo più accurato possibile
linearità di un singolo attributo
Bersaglio:
Stima di parametri/modelli: minimi quadrati
Ridurre al minimo l'errore quadrato:
Prendendo rispettivamente le derivate di w e b, otteniamo:
regressione lineare multipla
Obiettivo di regressione lineare multipla
metodo dei minimi quadrati
(3) Regressione della probabilità logaritmica
Modello lineare generalizzato:
Due compiti di classificazione
Svantaggi della funzione passo unitario: discontinuità
grande legge naturale
Se y è considerato come una stima della probabilità a posteriori della classe
, metodo della discesa del gradiente, metodo di Newton, ecc. possono essere utilizzati per ottenere la soluzione ottima.
(6) Problema di squilibrio di categoria
Descrizione del problema: Esiste un problema di squilibrio tra campioni positivi e negativi. Per molti algoritmi di classificazione, se si utilizzano direttamente set di campioni non bilanciati per l'addestramento e l'apprendimento, si verificheranno alcuni problemi.
Paradosso dell'accuratezza: ci sono 1000 punti dati nel set di dati, 990 dei quali sono di categoria 0 e i restanti 10 sono di categoria 1. Il modello A nella tabella seguente è migliore del modello B?
Di fronte a dati sbilanciati, alcuni indicatori di valutazione (come l'accuratezza) distorceranno seriamente il modello verso categorie con una proporzione maggiore, causando il fallimento della funzione di previsione del modello. L'AUC (area sotto la curva) può rimanere stabile di fronte a set di dati sbilanciati e non si verificheranno distorsioni come il paradosso dell'accuratezza.
Definizione di precisione (ACC):
Quando il numero di esempi di formazione di diverse categorie è molto diverso (assumendo che la categoria positiva sia una categoria piccola) la "categoria piccola" è spesso più importante
L'idea di base:
Strategia di base: ridimensionare nuovamente.
Metodi comuni di apprendimento dello squilibrio di categoria: (1) sovracampionamento (oversampling) Ad esempio: SMOTE (2) Sottocampionamento Ad esempio: EasyEnsemble (3) Spostamento della soglia
Sovracampionamento: aggiungi alcuni esempi positivi per avvicinare il numero di esempi positivi e negativi
Movimento della soglia: per i problemi di classificazione, non è possibile prevedere direttamente l'etichetta della classe dell'istanza, ma prevedere il valore di probabilità e quindi specificare una soglia per classificare l'istanza in una classe positiva e in una classe negativa. La soglia viene solitamente specificata come 0,5. ma può essere determinato in base alla situazione reale. Spostare la soglia e aumentare il peso di una determinata classe per risolvere lo squilibrio di classe.
Sottocampionamento: rimuovere alcuni esempi negativi per avvicinare il numero di esempi positivi e negativi
C’è una difficoltà: stimare accuratamente m − /m è spesso difficile!
(5) Apprendimento multicategoria
L'idea di base dell'apprendimento multiclassificazione è il "metodo diviso". La chiave è: come suddividere le attività multi-distribuzione e integrare più classificatori.
Strategia divisa: 1. Uno a uno 2. Uno agli altri 3. Molti a molti
Uno a uno
fase divisa
Accoppiamento di N categorie: N(N-1)/2 compiti a due categorie
Classificatori di apprendimento per ogni attività a due categorie: N(N-1)/2 classificatori a due classi
fase di test
Nuovi campioni vengono inviati a tutti i classificatori per la previsione: Risultati della classificazione N(N-1)/2
La votazione produce i risultati finali della classifica: La categoria più prevista è la categoria finale
un paio di rimanenti
Suddivisione dei compiti
Una certa categoria viene utilizzata come esempio positivo e altri controesempi: N compiti di seconda categoria
Ogni classificatore di apprendimento delle attività a due classi: N classificatori a due classi
fase di test
Nuovi campioni vengono inviati a tutti i classificatori per la previsione: N risultati della classificazione
Confronta la confidenza della previsione di ciascun classificatore: la categoria con la confidenza più alta viene utilizzata come categoria finale
Molti-a-molti: diverse classi vengono utilizzate come classi positive e diverse classi vengono utilizzate come anti-classi.
codice di uscita per la correzione degli errori
diagramma di flusso:
Sommario: (1) La codifica ECOC ha una certa tolleranza e capacità di correzione per gli errori del classificatore. Quanto più lungo è il codice, tanto più forte è la capacità di correzione degli errori. (2) Per codici della stessa lunghezza, teoricamente, maggiore è la distanza di codifica tra due categorie qualsiasi, maggiore è la capacità di correzione degli errori.
Confronto tra "uno-a-molti" e "molti-a-resto"
"Uno-a-molti": treno di classificatori N(N-1)/2, che richiede grandi spese di archiviazione e tempi di test. Per la formazione vengono utilizzate solo due categorie di esempi e il tempo di formazione è breve.
"Molti da riposare": addestra N classificatori con costi di archiviazione e tempi di test ridotti Tutti gli esempi di formazione vengono utilizzati per la formazione e il tempo di formazione è lungo.
Le prestazioni della previsione dipendono dalla distribuzione specifica dei dati e nella maggior parte dei casi le due sono simili
(4) Analisi discriminante lineare
È un algoritmo di apprendimento supervisionato e viene spesso utilizzato per ridurre la dimensionalità dei dati. È stato inventato da Ronald Fisher nel 1936 e alcune fonti lo chiamano anche Fisher LDA. LDA è un algoritmo classico e popolare nei campi del machine learning e del data mining.
L'LDA può anche essere considerata una tecnica di riduzione della dimensionalità supervisionata
L'idea di LDA
I punti proiettati di campioni simili sono il più vicini possibile:
I punti di proiezione di campioni eterogenei sono il più lontani possibile:
Derivato dal pensiero LDA
Obiettivo massimizzato:
Matrice delle divergenze intraclasse:
Matrice delle divergenze tra classi:
Quoziente di Rayleigh generalizzato:
Questo è l'obiettivo di LDA massimizzare. Fare
L'equivalente è:
Utilizzare il metodo del moltiplicatore di Lagrange:
Disponibile:
risultato:
Nota: è un algoritmo di apprendimento
Funzione alternativa: funzione di probabilità logaritmica (la funzione di probabilità logaritmica è denominata "funzione di probabilità logaritmica") Vantaggi: differenziabile monotono, differenziabile in qualsiasi ordine
Quote di registro (logit) Le probabilità (probabilità) riflettono la probabilità relativa che un campione sia un esempio positivo
Vantaggi: non è necessario prevedere in anticipo la distribuzione dei dati (ovvero può essere utilizzata per qualsiasi dato) È possibile ottenere una previsione approssimativa della probabilità della "categoria". Gli algoritmi di ottimizzazione numerica esistenti possono essere applicati direttamente per ottenere la soluzione ottimale.