Galleria mappe mentale riconoscimento di modelli
Chiamato anche machine learning o data mining. Comprende principalmente l'introduzione, la preelaborazione dei dati, l'analisi dei cluster, la classificazione bayesiana, il metodo del vicino più vicino, ecc.
Modificato alle 2024-02-04 00:51:57Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
riconoscimento di modelli
introduzione
Concetti di base del riconoscimento di pattern
riconoscimento di modelli
L'uso dei computer per realizzare la capacità di riconoscimento di modelli delle persone è una tecnologia che utilizza i computer per realizzare l'analisi, la descrizione, il giudizio e l'identificazione delle persone di varie cose o fenomeni e assegna le cose da riconoscere a varie categorie di modelli.
Il riconoscimento dei modelli può essere visto come la mappatura dai modelli alle categorie
modello
Informazioni su una sostanza o un fenomeno
In generale, gli oggetti osservabili che esistono nel tempo e nello spazio possono essere chiamati modelli se possono essere distinti come uguali o simili.
Un modello è una descrizione di un oggetto formata attraverso la raccolta di informazioni. Questa descrizione dovrebbe essere standardizzata, comprensibile e identificabile.
illustrare
Uno schema non è la cosa in sé, ma l'informazione ottenuta dalla cosa. Ad esempio, le foto e le informazioni personali delle persone
Può distinguere se i modelli sono simili (pertinente alla domanda)
I modelli sono generalmente rappresentati da vettori e gli indici possono riflettere caratteristiche temporali, caratteristiche spaziali o altri identificatori.
vettore del modello
Informazioni con distribuzione temporale e spaziale ottenute osservando singoli oggetti specifici (denominati campioni o vettori campione)
Classe del modello
La categoria a cui appartiene un modello o la popolazione di modelli nella stessa categoria (categoria in breve)
sistema di riconoscimento dei modelli
Consiste in due processi: progettazione e implementazione
La categoria a cui appartiene un modello o la popolazione di modelli nella stessa categoria (categoria in breve)
Progettazione (formazione, apprendimento)
Si riferisce all'utilizzo di un certo numero di campioni (chiamati set di addestramento o set di apprendimento) per progettare un classificatore
Realizzazione (processo decisionale, classificazione, giudizio)
Si riferisce all'utilizzo del classificatore progettato per prendere decisioni di classificazione per i campioni da identificare.
Composizione del sistema
Raccolta dati (acquisizione dati)
Modo
Attraverso vari sensori, informazioni come luce o suono vengono convertite in informazioni elettriche oppure informazioni di testo vengono immesse nel computer
Classificazione
Forme d'onda unidimensionali: onde sonore, elettrocardiogramma, elettroencefalogramma, ecc.
Immagini bidimensionali: testo, immagini, ecc.
Immagini 3D: volti, ecc.
Grandezze fisiche: altezza della persona, peso, peso del prodotto, livello di qualità, ecc.
Quantità logica (0/1): presenza o assenza, maschio e femmina, ecc.
preelaborazione
Scopo
Rimuovi il rumore e migliora le informazioni utili
Tecniche comunemente usate
Filtraggio e rimozione del rumore unidimensionale del segnale, livellamento dell'immagine, miglioramento, ripristino, filtraggio, ecc.
Estrazione e selezione delle caratteristiche
Scopo
Dai dati originali, ottenere le caratteristiche che meglio riflettono la natura della classificazione
Formazione delle caratteristiche
Diverse caratteristiche che riflettono problemi di classificazione sono ottenute dai dati originali attraverso vari mezzi (a volte è necessaria la standardizzazione dei dati)
Selezione delle funzionalità
Selezionare diverse caratteristiche che sono più utili per la classificazione dalle caratteristiche
Estrazione di caratteristiche
Ridurre il numero di funzionalità attraverso determinate trasformazioni matematiche
Decisione di classificazione o corrispondenza del modello
Utilizzare le regole decisionali nello spazio delle funzionalità per assegnare l'oggetto riconosciuto a una determinata categoria
illustrare
Questa struttura di sistema è adatta per il riconoscimento di modelli statistici, il riconoscimento di modelli fuzzy e metodi supervisionati nelle reti neurali artificiali.
Per i metodi di riconoscimento dei modelli strutturali, viene utilizzata solo l'estrazione primitiva per sostituire l'estrazione e la selezione delle caratteristiche.
Per l'analisi dei cluster, la progettazione del classificatore e il processo decisionale sono integrati in un unico passaggio.
Caratteristiche dell'immagine
colore
struttura
forma
Relazioni spaziali
quattro spazi
Tre compiti principali
Collezione di modelli
Estrazione e selezione delle caratteristiche
Discriminazione del tipo
Domande correlate
Valutazione delle prestazioni
Tasso di errore del test o tasso di errore
complessità computazionale
dividere
Base di classificazione
Domanda o natura del campione
Riconoscimento di pattern supervisionato
Innanzitutto disporre di un lotto di campioni con etichette di categoria, progettare un classificatore basato sul set di campioni e quindi determinare la nuova categoria di campioni
Riconoscimento di pattern non supervisionato
Esiste un solo lotto di campioni e il set di campioni è direttamente suddiviso in diverse categorie in base alle somiglianze tra i campioni.
metodo principale
riconoscimento statistico di modelli
Classificazione
classificazione non supervisionata
Analisi di gruppo
Classificazione supervisionata
Classificazione delle collezioni
Classificazione probabilistica
Descrivere il metodo
Vettore di funzionalità
Determinazione della modalità
Espresso dalla distribuzione di probabilità condizionale P (X/i), ci sono m distribuzioni in m categorie, quindi determinare a quale distribuzione appartiene il modello sconosciuto.
Base teorica
teoria della probabilità
statistica matematica
vantaggio
Più maturo
In grado di considerare l'impatto del rumore interferente
Forte capacità di riconoscere le primitive dei modelli
discordanza
È difficile estrarre caratteristiche da modelli con strutture complesse
Non può riflettere le caratteristiche strutturali del modello ed è difficile descriverne la natura.
Difficoltà a considerare i problemi di identificazione da una prospettiva olistica
Riconoscimento di modelli strutturali
riconoscimento di schemi fuzzy
metodo della rete neurale
Base teorica
Neurofisiologia
psicologia
Metodo di descrizione del modello
Un insieme di nodi di input rappresentati da diversi livelli di attività
Determinazione della modalità
sistema dinamico non lineare
metodo principale
Modello BP, modello HOPField
vantaggio
Risolvere efficacemente problemi non lineari complessi
Consentire ai campioni di avere difetti e distorsioni più grandi
discordanza
Mancanza di una teoria dell’apprendimento efficace
a lungo
Aree di applicazione
Immagini, volti, testi, numeri, impronte digitali, voci...
questione fondamentale
Metodo di rappresentazione del modello (campione).
vettore colonna n-dimensionale
x= (x1, x2, …, xn)T
Compattezza delle classi di pattern
punto critico (campione)
In un set di campioni multicategoria, quando i valori caratteristici di alcuni campioni cambiano leggermente, diventano un'altra categoria di campioni. Tali campioni sono chiamati campioni critici (punti).
insieme fermo
definizione
La distribuzione dei campioni della stessa classe di pattern è relativamente concentrata, con nessuno o pochissimi campioni critici. Tali classi di pattern sono chiamate insiemi compatti.
natura
Pochissimi punti critici
Una linea che collega due punti qualsiasi di un insieme I punti sulla linea appartengono allo stesso insieme.
Ogni punto dell'insieme ha un intorno sufficientemente grande e l'intorno contiene solo punti dello stesso insieme.
Richiedere
soddisfa la tenuta
somiglianza
Esprimere la somiglianza utilizzando varie distanze
Distanza comune
Distanza Minkowski
Distanza in valore assoluto o distanza urbana o distanza di Manhattan (q=1)
Distanza euclidea (q=2)
Distanza a scacchiera o distanza di Chebyshev (q=∞)
Distanza Mahalanobis
dove si trovano la matrice di covarianza e la media
Standardizzazione dei dati
Scopo
Eliminare l'impatto dell'intervallo numerico tra ciascun componente sull'algoritmo
metodo
Standardizzare a [0,1] o [-1, 1], standardizzazione della varianza
formula
Normalizzazione delle funzionalità
Normalizzazione della varianza
Preelaborazione dei dati
Perché effettuare la preelaborazione dei dati?
non bene
incompleto
Mancanza di valori appropriati durante la raccolta dei dati
Considerazioni diverse durante la raccolta e l'analisi dei dati
Problemi umani/hardware/software
rumoroso
Problemi con gli strumenti di raccolta dati
Errore umano/computer durante l'immissione dei dati
Errori nella trasmissione dei dati
Tipi di dati incoerenti
diverse fonti di dati
dipendenza funzionale violata
Bene
Correttezza: ad esempio se è corretto, accurato o meno, ecc.
Completezza: se qualche dato manca o non può essere ottenuto
Coerenza: se alcuni dati sono stati modificati ma altri no
Affidabilità: descrive il grado di confidenza che i dati siano corretti
Compito
Pulizia dei dati
Inserisci i valori mancanti, uniforma i dati rumorosi, identifica e rimuovi i valori anomali e risolvi le incoerenze
integrazione dei dati
Integra più database, cubi di dati o file
Trasformazione e discretizzazione dei dati
Standardizzare
Generazione gerarchica dei concetti
riduzione dei dati
Riduzione dimensionale
Riduzione della quantità
compressione dati
Estrazione e selezione delle caratteristiche
Pulizia dei dati
❑ Inserisci i valori mancanti
motivo
❑ Anomalia dell'apparecchiatura
❑ Cancellato per incoerenza con altri dati esistenti
❑ Dati non inseriti a causa di un malinteso
❑ Alcuni dati non sono stati inseriti perché non sono stati presi sul serio durante l'inserimento.
❑ Nessuna registrazione delle modifiche ai dati
affrontare
◼ Ignora tuple: di solito viene fatto quando manca l'etichetta della classe (supponendo che l'attività di mining sia progettata per classificare o descrivere), quando cambia la percentuale di valori mancanti per ciascun attributo (l'attività è progettata per classificare o descrivere), quando la percentuale di valori mancanti per ciascun attributo varia notevolmente, il suo effetto è molto scarso.
"Etichetta di classe" (etichetta di classe o etichetta di destinazione) si riferisce solitamente all'"etichetta utilizzata per rappresentare la classe o il gruppo a cui appartiene il campione" nel set di dati.
◼ Compilazione manuale dei valori mancanti: carico di lavoro pesante e scarsa fattibilità
◼ Compila automaticamente i valori mancanti
❑ Utilizzare una variabile globale: come sconosciuta o -∞
❑ Utilizzare le medie degli attributi
❑ Utilizzare la media o la mediana di tutti i campioni appartenenti alla stessa classe della tupla data
❑ Compila i valori mancanti con i valori più probabili: utilizzando metodi basati sull'inferenza come la formula bayesiana o gli alberi decisionali
❑ Dati sul rumore uniformi
motivo
❑ Problemi con gli strumenti di raccolta dati
❑ Errori di inserimento dati
❑ Errore di trasmissione dati
❑ Limitazioni tecniche
❑ Incoerenza nelle regole di denominazione
affrontare
cestinare
Per prima cosa ordina i dati e dividili in contenitori di uguale profondità, quindi puoi smussare in base alla media del contenitore, smussare in base alla mediana del contenitore, smussare in base al confine del contenitore, ecc.
operare
Binning della stessa profondità
Smoothing del valore limite: trasforma tutti i valori in valori massimi o minimi
Binning della stessa larghezza
[110.155), a sinistra chiuso e a destra aperto
raggruppamento
Rileva e rimuovi i valori anomali tramite il clustering
ritorno
Dati uniformi adattandoli a una funzione di regressione
❑ Identificare o eliminare i valori anomali
❑ Risolvere le incoerenze nei dati
integrazione dei dati
◼ Integrazione dei dati:
❑ Consolidare i dati provenienti da più origini dati in un archivio coerente
◼ Integrazione del modello:
❑ Integrare metadati provenienti da diverse fonti di dati
◼ es. A.id_cliente = B.n.cliente
◼ Problema di riconoscimento dell'entità:
❑ Abbina entità del mondo reale provenienti da diverse fonti di dati
◼ ad es. Bill Clinton = William Clinton
◼ Rileva e risolvi i conflitti tra i valori dei dati
❑ Per la stessa entità nel mondo reale, i valori degli attributi provenienti da origini dati diverse potrebbero essere diversi
❑ Possibili ragioni: diversa rappresentazione dei dati, diverse misurazioni, ecc.
riduzione dei dati
Scopo
◆L'analisi complessa dei dati relativi al contenuto di database su larga scala spesso richiede molto tempo, rendendo l'analisi dei dati originali irrealistica e irrealizzabile;
◆Riduzione dei dati: la riduzione o riduzione dei dati consiste nel ridurre la dimensione dei dati estratti senza influire sui risultati finali dell'estrazione.
◆Le tecniche di riduzione dei dati possono essere utilizzate per ottenere una rappresentazione ridotta del set di dati, che è molto più piccola ma comunque vicina al mantenimento dell'integrità dei dati originali.
◆L'estrazione di un set di dati ridotto può aumentare l'efficienza dell'estrazione e produrre gli stessi (o quasi gli stessi) risultati.
standard
◆Il tempo impiegato nella riduzione dei dati non deve superare o "compensare" il tempo risparmiato nell'estrazione del set di dati ridotto.
◆I dati ottenuti mediante riduzione sono molto più piccoli dei dati originali, ma possono produrre gli stessi o quasi gli stessi risultati dell'analisi.
metodo
◆Aggregazione dei cubi di dati;
Aggregare cubi di dati n-dimensionali in cubi di dati n-1-dimensionali.
◆Riduzione della dimensione (riduzione degli attributi);
Trova l'insieme minimo di attributi per garantire che la distribuzione di probabilità del nuovo insieme di dati sia il più vicino possibile alla distribuzione di probabilità dell'insieme di dati originale.
PCA
◆Compressione dei dati;
compressione senza perdite
Compressione con perdita
◆Riduzione numerica;
Riduci il volume dei dati scegliendo rappresentazioni di dati alternative e più piccole.
tipo
Istogramma
raggruppamento
campionamento
◆Discretizzazione e generazione gerarchica dei concetti.
Standardizzare
normalizzazione min-max
Deve essere corretto
Normalizzazione del punteggio z (normalizzazione della media zero)
Potrebbe essere negativo
discretizzazione
Scopo
La discretizzazione dei dati è il processo di divisione dei valori dei dati continui in più intervalli per semplificare la complessità del set di dati originale.
tipo
Valori in un insieme non ordinato; ad es. colore, occupazione
Valori in un insieme ordinato es. grado militare, titolo professionale
Valori continui; ad es. numeri reali
stratificazione dei concetti
Analisi di gruppo
concetto
Pensiero
Classificare ciascun modello classificato in base a una determinata misura di somiglianza.
Raggruppa quelli simili in un'unica categoria
algoritmo
Metodo di clustering semplice basato sulla soglia di somiglianza e sul principio della distanza minima
Un metodo per unire continuamente due categorie secondo il principio della distanza minima
Metodo di clustering dinamico basato sulla funzione criterio
applicazione
L'analisi dei cluster può essere utilizzata come fase di preelaborazione per altri algoritmi
Può essere utilizzato come strumento indipendente per ottenere la distribuzione dei dati
L'analisi dei cluster può completare l'estrazione di punti isolati
Metodi di clustering basati su partizioni
Il metodo di partizionamento consiste nel dividere gli oggetti dati in sottoinsiemi non sovrapposti (cluster) in modo che ciascun oggetto dati si trovi esattamente in un sottoinsieme.
Classificazione
tipo di distanza
Distanza euclidea
distanza da Manhattan
Distanza Minkowski
La distanza di Min non è una distanza, ma una definizione di un insieme di distanze.
Tipo di algoritmo
Algoritmo k-medie (K-medie).
Input: il numero di cluster k e il database D contenente n oggetti
Risultato: k cluster che minimizzano il criterio dell'errore quadrato.
Passi dell'algoritmo
1. Determinare un centro iniziale del cluster per ogni cluster, in modo che ci siano K centri iniziali del cluster. 2. I campioni nel set di campioni vengono assegnati ai cluster vicini più vicini secondo il principio della distanza minima. 3. Utilizzare la media campionaria in ciascun cluster come nuovo centro del cluster. 4. Ripetere i passaggi 2 e 3 finché il centro del cluster non cambia più. 5. Alla fine si ottengono i K cluster.
Caratteristiche
vantaggio
Semplice e veloce
Scalabile ed efficiente
L'effetto è migliore quando il set di risultati è denso
discordanza
Può essere utilizzato solo se è definita la media dei cluster
k deve essere dato in anticipo
È molto sensibile al valore iniziale e influisce direttamente sul numero di iterazioni.
Non adatto per individuare grappoli con forme non convesse o grappoli con dimensioni molto variabili.
È sensibile al "rumore" e ai dati anomali
Migliorare
Algoritmo k-mode: realizza un rapido clustering di dati discreti, mantiene l'efficienza dell'algoritmo k-means ed espande l'ambito di applicazione di k-means ai dati discreti.
Algoritmo del prototipo k: può raggruppare dati che sono una miscela di attributi discreti e numerici. Nel prototipo k, viene definita una metrica di dissomiglianza che calcola sia gli attributi numerici che quelli discreti.
Algoritmo k-Mediodi (K-Mediods): l'algoritmo k-medie è sensibile a punti isolati. Per risolvere questo problema, invece di utilizzare il valore medio nel cluster come punto di riferimento, puoi scegliere l'oggetto più centrale nel cluster, ovvero il punto centrale come punto di riferimento. Questo metodo di divisione si basa ancora sul principio di minimizzare la somma delle differenze tra tutti gli oggetti e i loro punti di riferimento.
Algoritmo k-medoidi (punto centrale K).
Input: il numero di cluster k e un database contenente n oggetti.
Risultato: k cluster
Passi dell'algoritmo
1. Determinare un centro di clustering iniziale per ogni cluster, in modo che ci siano k centri di clustering iniziali. 2. Calcolare le distanze da tutti gli altri punti ai k punti centrali e considerare il gruppo più corto da ciascun punto ai k punti centrali come il gruppo a cui appartiene. 3. Selezionare i punti in ordine in ciascun cluster, calcolare la somma delle distanze da questo punto a tutti i punti nel cluster corrente e il punto con la somma della distanza finale più piccola viene considerato come il nuovo punto centrale. 4. Ripetere i passaggi 2 e 3 finché i punti centrali di ciascun cluster non cambiano più. 5. Alla fine, si ottengono k cluster.
Caratteristiche
vantaggio
L'algoritmo K-medoids calcola il punto con la somma più piccola delle distanze da un certo punto a tutti gli altri punti. L'influenza di alcuni dati isolati sul processo di clustering può essere ridotta calcolando la somma più piccola delle distanze. Questo rende l'effetto finale più vicino alla divisione reale.
discordanza
Rispetto all'algoritmo K-medie, aumenterà la quantità di calcolo di circa O(n). Pertanto, in generale, l'algoritmo K-medoids è più adatto per operazioni su dati su piccola scala.
Algoritmo di clustering basato su gerarchia
definizione
Creare un albero cluster di oggetti dati. A seconda che la scomposizione gerarchica sia formata dal basso verso l'alto o dall'alto verso il basso, può essere ulteriormente suddivisa in clustering gerarchico agglomerativo e clustering gerarchico divisivo.
nucleo
Come misurare la distanza tra due cluster, dove ciascun cluster è generalmente un insieme di oggetti.
Classificazione
Tipo di distanza (metodo di misurazione della distanza tra cluster)
Tipo di algoritmo
AGNES (clustering gerarchico agglomerativo)
definizione
AGNES (agglomerative hierarchical clustering) è una strategia dal basso verso l'alto che prima tratta ciascun oggetto come un cluster e quindi unisce questi cluster atomici in cluster sempre più grandi fino a quando non viene soddisfatta una determinata condizione terminale.
Somiglianza
La somiglianza tra due cluster è determinata dalla somiglianza delle coppie di dati più vicine nei due diversi cluster.
fare un passo
1. Tratta ogni oggetto come un cluster iniziale; 2. RIPETERE; 3. Trova i due cluster più vicini in base ai punti dati più vicini nei due cluster; 4. Unisci due cluster per generare un nuovo set di cluster; 5. FINO AL raggiungimento del numero di cluster definiti;
DIANA (cluster gerarchico diviso)
BIRCH (riduzione iterativa bilanciata e clustering utilizzando metodi gerarchici)
metodo di clustering della densità
nucleo
Finché la densità dei punti in un'area è maggiore di un certo valore di soglia, viene aggiunta a un cluster ad essa simile.
Classificazione
DBSCAN
nucleo
Diversamente dai metodi di partizionamento e clustering gerarchico, definisce i cluster come il più grande insieme di punti connessi dalla densità, può dividere aree con densità sufficientemente elevata in cluster e può trovare cluster di forme arbitrarie in database spaziali "rumorosi".
definizione
ε-quartiere di un oggetto: l'area all'interno di un raggio ε di un dato oggetto.
Oggetto centrale (punto centrale): se il quartiere ε di un oggetto contiene almeno il numero minimo di oggetti MinPts, l'oggetto è chiamato oggetto centrale.
Raggiungibilità diretta della densità: dato un insieme di oggetti D, se p è all'interno del quartiere ε di q e q è un oggetto centrale, diciamo che l'oggetto p è direttamente raggiungibile con densità a partire dall'oggetto q.
Raggiungibilità della densità: se ci sono punti centrali P2, P3,..., Pn, e la densità da P1 a P2 è diretta, e la densità da P2 a P3 è diretta,..., la densità da P(n-1 ) a Pn è diretta e la densità da Pn a Q è diretta, quindi la densità da P1 a Q è raggiungibile. Anche la densità raggiungibile non ha simmetria.
Densità connessa: se esiste un punto centrale S tale che da S a P e Q siano entrambi densità raggiungibili, allora P e Q sono densità connesse. La connessione di densità ha simmetria Se P e Q sono connessi per densità, allora anche Q e P devono essere connessi per densità. Due punti densamente connessi appartengono allo stesso cluster.
Rumore: un cluster basato sulla densità è l'insieme più grande di oggetti connessi alla densità in base alla raggiungibilità della densità. Gli oggetti che non sono inclusi in alcun cluster sono considerati "rumore".
fare un passo
1) Se l'intorno del punto contiene più di punti MinPts, è un punto centrale, altrimenti il punto viene temporaneamente registrato come punto di rumore 2) Trova tutti gli oggetti con densità raggiungibile da questo punto per formare un ammasso
Caratteristiche
vantaggio
Il clustering è veloce e può gestire efficacemente i punti di rumore e scoprire cluster spaziali di forme arbitrarie.
discordanza
(1) Quando la quantità di dati aumenta, è necessaria una memoria più grande per supportare il consumo di I/O, che consuma anche molti dati; (2) Quando la densità del clustering spaziale non è uniforme e la spaziatura dei cluster differisce notevolmente, la qualità del clustering è scarsa. (3) Esistono due parametri iniziali ε (raggio del quartiere) e minPts (numero minimo di punti nel quartiere ε) che richiedono all'utente di impostare manualmente l'input e i risultati del clustering sono molto sensibili ai valori di questi due parametri Valori diversi produrranno risultati di clustering diversi.
OTTICA
DENCLUA
Classificazione bayesiana
L'ingenuo Bayes
Il metodo Bayes è un metodo di classificazione dei modelli quando la probabilità a priori e la probabilità condizionale della classe sono note. Il risultato della classificazione del campione da dividere dipende dal numero totale di campioni in vari campi.
Naive Bayes presuppone che tutti gli attributi delle caratteristiche siano indipendenti l'uno dall'altro, motivo per cui la parola "naive" nel nome dell'algoritmo deriva da
In realtà, ci sono spesso delle dipendenze tra gli attributi, ma ciò che è interessante è che anche quando l'ipotesi di indipendenza dell'algoritmo di Naive Bayes ovviamente non è vera, si possono comunque ottenere ottimi risultati di classificazione.
Formula bayesiana
tasso di errore minimo
Le caratteristiche sono informazioni fornite
La categoria è il requisito finale
Quando sono presenti più attributi di funzionalità
Senso
Probabilità a posteriori P(cj |x)
Cioè la probabilità che cj sia vera quando viene fornito un campione di dati x, ed è questo che ci interessa (da calcolare)
Ogni P(xk|Ci) può essere ottenuto tramite conoscenza preliminare Oppure esegui statistiche tramite set di campioni
Probabilità a priori P(cj)
La probabilità a priori P(Ci) può essere ottenuta attraverso la conoscenza a priori Oppure esegui statistiche tramite set di campioni
P(x) può essere eliminato o formulato
Semplificazione
rischio minimo
tavolo decisionale
Metodo di calcolo
Per ciascuna decisione α, calcolare separatamente
Prendi la decisione con il minor rischio condizionale
metodo del vicino più vicino
Metodo del vicino più vicino/K metodo del vicino più vicino
Scopo
Determinare la classificazione di un punto
Idee
Trova le k istanze di addestramento più vicine alla nuova istanza nel set di dati di addestramento, quindi conta la classe con il maggior numero di classi tra le k istanze di addestramento recenti, che è la classe della nuova istanza.
processi
Calcolare la distanza tra ciascun punto campione nel campione di addestramento e il campione di prova (le misure di distanza comuni includono la distanza euclidea, la distanza di Mahalanobis, ecc.)
Ordina tutti i valori di distanza sopra
Seleziona i primi k campioni con la distanza più piccola
Vota in base alle etichette di questi k campioni per ottenere la categoria di classificazione finale
Scelta del valore k
Più piccolo è il valore k, più complesso è il modello e più facile è sovradimensionarlo. Tuttavia, maggiore è il valore k, più semplice è il modello. Se k=N, significa che, indipendentemente dal punto, è la classe con il maggior numero di categorie nel set di formazione. Pertanto, k assumerà generalmente un valore più piccolo e quindi utilizzerà la convalida incrociata per determinarlo La cosiddetta convalida incrociata in questo caso consiste nel dividere una parte del campione in campioni di previsione, ad esempio 95% di addestramento e 5% di previsione, quindi k richiede rispettivamente 1, 2, 3, 4, 5 e simili per prevedere e calcolare l'errore di classificazione finale. Scegli k con l'errore più piccolo
la differenza
K-Mezzi
Lo scopo è dividere una serie di insiemi di punti in k categorie
K-Means è un algoritmo di clustering
Apprendimento non supervisionato, raggruppamento di dati simili per ottenere una classificazione, nessuna classificazione esterna
Il set di dati di addestramento non ha etichetta ed è disordinato. Dopo il clustering, diventa in qualche modo ordinato.
Metodo del vicino più vicino/K metodo del vicino più vicino
Lo scopo è determinare la classificazione di un punto
KNN è un algoritmo di classificazione
Apprendimento supervisionato, l'obiettivo di classificazione è noto in anticipo
Il set di dati di addestramento ha etichette e contiene già dati completamente corretti.
Regole dell'associazione
definizione
concetto di base
Articolo: ad esempio, cola, patatine, pane, birra e pannolini sono tutti chiamati articoli.
Sia I={i1, i2,…,im} l'insieme di tutti gli elementi (Item).
La transazione T è un record di acquisto e ogni transazione T ha un identificatore univoco, registrato come Tid.
D è l'insieme di tutte le transazioni.
Itemset è l'insieme che vogliamo studiare
Il numero di elementi in un insieme di elementi è chiamato lunghezza dell'insieme di elementi, mentre un insieme di elementi contenente k elementi è chiamato insieme di elementi K.
Regole dell'associazione
Un'implicazione logica della forma A->B, dove né A né B sono vuoti, e A⸦I, B⸦I e (A incrocia B=vuoto).
SupportoSupporto
Descrivere la probabilità che gli insiemi di elementi A e B appaiano simultaneamente in tutte le transazioni D
S(A->B)=P(AB)=|AB|/|D|
Il sostegno è una misura dell’importanza delle regole associative
FiduciaFiducia
Nell'oggetto T in cui appare l'insieme di elementi A, la probabilità che appaia contemporaneamente anche l'insieme di elementi B.
C(A->B)=P(B|A)=|AB|/|A|
La fiducia è una misura dell’accuratezza delle regole associative
Regole associative forti
Le regole di associazione secondo le quali D soddisfa il supporto minimo e la credibilità minima su I sono chiamate regole di associazione forte.
Sollevare
Il grado di incremento indica quanta influenza ha l'aspetto dell'insieme di elementi A sull'aspetto dell'insieme di elementi B.
L(A->B)=P(AB)/(P(A)*P(B))
Maggiore di 1
Correlazione positiva
pari a 1
Indipendente
meno di 1
correlazione negativa
set di articoli frequenti
Gli insiemi di elementi che soddisfano il supporto minimo sono chiamati insiemi di elementi frequenti. L'insieme degli insiemi di elementi k frequenti è solitamente indicato con Lk
Scopo
Trova regole di associazione forti basate sul supporto minimo e sulla confidenza minima specificati dall'utente
fare un passo
Trova tutti gli insiemi di elementi frequenti o gli insiemi di elementi frequenti più grandi in base al supporto minimo da parte dell'utente
Trova le regole di associazione negli insiemi di elementi frequenti fornendo una credibilità minima da parte dell'utente
algoritmo
Algoritmo Apriori
Il primo passo è recuperare attraverso l'iterazione tutti gli itemset frequenti nel database delle transazioni, ovvero gli itemset il cui supporto non è inferiore alla soglia impostata dall'utente;
Elementi frequenti: contare, contare S
Il secondo passaggio utilizza set di elementi frequenti per costruire regole che soddisfino il livello minimo di attendibilità dell'utente.
Regole dell'associazione: Conte C
FP-Crescita