Login
Accedi

Galleria mappe mentale Capitolo 3 Modello lineare

Capitolo 3 Modello lineare

Machine Learning (Xigua Book Edition), introduce la forma base, regressione lineare, Regressione delle quote logaritmiche, analisi discriminante lineare, Apprendimento multi-classificazione, ecc.

Modificato alle 2024-04-12 22:37:17

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Breve storia del tempo
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Il coraggio di essere odiato
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
Appunti di lettura di Il coraggio di non piacere.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.

Capitolo 3 Modello lineare

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Consigliato per te
Profilo

Capitolo 3 Modello lineare

(1) Forma base

Un modello lineare tenta di apprendere una funzione che prevede attraverso una combinazione lineare di attributi. Vantaggi: forma semplice, facile da modellare Interpretabilità Le basi dei modelli non lineari (introducendo strutture gerarchiche o mappature ad alta dimensione)

Forma base

forma generale

è un esempio descritto dagli attributi, dove xi è il valore di x sull'i-esimo attributo

forma vettoriale

,In

(2) Regressione lineare

Considera l'elaborazione di tipo discreto:

Esiste una relazione di "ordine". Convertire in valori continui

Rapporto "ordine". Se è presente un valore di attributo, viene convertito in un vettore dimensionale

Scopo: apprendere un modello lineare per prevedere i token di output con valore reale nel modo più accurato possibile

linearità di un singolo attributo

Bersaglio:

Stima di parametri/modelli: minimi quadrati

Ridurre al minimo l'errore quadrato:

Prendendo rispettivamente le derivate di w e b, otteniamo:

regressione lineare multipla

Obiettivo di regressione lineare multipla

metodo dei minimi quadrati

(3) Regressione della probabilità logaritmica

Modello lineare generalizzato:

Due compiti di classificazione

Svantaggi della funzione passo unitario: discontinuità

grande legge naturale

Se y è considerato come una stima della probabilità a posteriori della classe

, metodo della discesa del gradiente, metodo di Newton, ecc. possono essere utilizzati per ottenere la soluzione ottima.

(6) Problema di squilibrio di categoria

Descrizione del problema: Esiste un problema di squilibrio tra campioni positivi e negativi. Per molti algoritmi di classificazione, se si utilizzano direttamente set di campioni non bilanciati per l'addestramento e l'apprendimento, si verificheranno alcuni problemi.

Paradosso dell'accuratezza: ci sono 1000 punti dati nel set di dati, 990 dei quali sono di categoria 0 e i restanti 10 sono di categoria 1. Il modello A nella tabella seguente è migliore del modello B?

Di fronte a dati sbilanciati, alcuni indicatori di valutazione (come l'accuratezza) distorceranno seriamente il modello verso categorie con una proporzione maggiore, causando il fallimento della funzione di previsione del modello. L'AUC (area sotto la curva) può rimanere stabile di fronte a set di dati sbilanciati e non si verificheranno distorsioni come il paradosso dell'accuratezza.

Definizione di precisione (ACC):

Quando il numero di esempi di formazione di diverse categorie è molto diverso (assumendo che la categoria positiva sia una categoria piccola) la "categoria piccola" è spesso più importante

L'idea di base:

Strategia di base: ridimensionare nuovamente.

Metodi comuni di apprendimento dello squilibrio di categoria: (1) sovracampionamento (oversampling) Ad esempio: SMOTE (2) Sottocampionamento Ad esempio: EasyEnsemble (3) Spostamento della soglia

Sovracampionamento: aggiungi alcuni esempi positivi per avvicinare il numero di esempi positivi e negativi

Movimento della soglia: per i problemi di classificazione, non è possibile prevedere direttamente l'etichetta della classe dell'istanza, ma prevedere il valore di probabilità e quindi specificare una soglia per classificare l'istanza in una classe positiva e in una classe negativa. La soglia viene solitamente specificata come 0,5. ma può essere determinato in base alla situazione reale. Spostare la soglia e aumentare il peso di una determinata classe per risolvere lo squilibrio di classe.

Sottocampionamento: rimuovere alcuni esempi negativi per avvicinare il numero di esempi positivi e negativi

C’è una difficoltà: stimare accuratamente m − /m è spesso difficile!

(5) Apprendimento multicategoria

L'idea di base dell'apprendimento multiclassificazione è il "metodo diviso". La chiave è: come suddividere le attività multi-distribuzione e integrare più classificatori.

Strategia divisa: 1. Uno a uno 2. Uno agli altri 3. Molti a molti

Uno a uno

fase divisa

Accoppiamento di N categorie: N(N-1)/2 compiti a due categorie

Classificatori di apprendimento per ogni attività a due categorie: N(N-1)/2 classificatori a due classi

fase di test

Nuovi campioni vengono inviati a tutti i classificatori per la previsione: Risultati della classificazione N(N-1)/2

La votazione produce i risultati finali della classifica: La categoria più prevista è la categoria finale

un paio di rimanenti

Suddivisione dei compiti

Una certa categoria viene utilizzata come esempio positivo e altri controesempi: N compiti di seconda categoria

Ogni classificatore di apprendimento delle attività a due classi: N classificatori a due classi

fase di test

Nuovi campioni vengono inviati a tutti i classificatori per la previsione: N risultati della classificazione

Confronta la confidenza della previsione di ciascun classificatore: la categoria con la confidenza più alta viene utilizzata come categoria finale

Molti-a-molti: diverse classi vengono utilizzate come classi positive e diverse classi vengono utilizzate come anti-classi.

codice di uscita per la correzione degli errori

diagramma di flusso:

Sommario: (1) La codifica ECOC ha una certa tolleranza e capacità di correzione per gli errori del classificatore. Quanto più lungo è il codice, tanto più forte è la capacità di correzione degli errori. (2) Per codici della stessa lunghezza, teoricamente, maggiore è la distanza di codifica tra due categorie qualsiasi, maggiore è la capacità di correzione degli errori.

Confronto tra "uno-a-molti" e "molti-a-resto"

"Uno-a-molti": treno di classificatori N(N-1)/2, che richiede grandi spese di archiviazione e tempi di test. Per la formazione vengono utilizzate solo due categorie di esempi e il tempo di formazione è breve.

"Molti da riposare": addestra N classificatori con costi di archiviazione e tempi di test ridotti Tutti gli esempi di formazione vengono utilizzati per la formazione e il tempo di formazione è lungo.

Le prestazioni della previsione dipendono dalla distribuzione specifica dei dati e nella maggior parte dei casi le due sono simili

(4) Analisi discriminante lineare

È un algoritmo di apprendimento supervisionato e viene spesso utilizzato per ridurre la dimensionalità dei dati. È stato inventato da Ronald Fisher nel 1936 e alcune fonti lo chiamano anche Fisher LDA. LDA è un algoritmo classico e popolare nei campi del machine learning e del data mining.

L'LDA può anche essere considerata una tecnica di riduzione della dimensionalità supervisionata

L'idea di LDA

I punti proiettati di campioni simili sono il più vicini possibile:

I punti di proiezione di campioni eterogenei sono il più lontani possibile:

Derivato dal pensiero LDA

Obiettivo massimizzato:

Matrice delle divergenze intraclasse:

Matrice delle divergenze tra classi:

Quoziente di Rayleigh generalizzato:

Questo è l'obiettivo di LDA massimizzare. Fare

L'equivalente è:

Utilizzare il metodo del moltiplicatore di Lagrange:

Disponibile:

risultato:

Nota: è un algoritmo di apprendimento

Funzione alternativa: funzione di probabilità logaritmica (la funzione di probabilità logaritmica è denominata "funzione di probabilità logaritmica") Vantaggi: differenziabile monotono, differenziabile in qualsiasi ordine

Quote di registro (logit) Le probabilità (probabilità) riflettono la probabilità relativa che un campione sia un esempio positivo

Vantaggi: non è necessario prevedere in anticipo la distribuzione dei dati (ovvero può essere utilizzata per qualsiasi dato) È possibile ottenere una previsione approssimativa della probabilità della "categoria". Gli algoritmi di ottimizzazione numerica esistenti possono essere applicati direttamente per ottenere la soluzione ottimale.