Galleria mappe mentale Mappa mentale della tecnologia di data mining e analisi
Un processo informatico che utilizza metodi come l'intelligenza artificiale, l'apprendimento automatico e la statistica per estrarre modelli o conoscenze utili e precedentemente sconosciuti da enormi quantità di dati.
Modificato alle 2021-12-27 22:46:49Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Tecnologia di data mining e analisi
Capitolo 1 Panoramica sul data mining
Capire prima della lezione
riepilogo
apprendimento automatico
Procedure operative
importazione dei dati
Preelaborazione dei dati
ingegneria delle funzionalità
Diviso
Modello formativo
Modello di valutazione
Prevedere nuovi dati
AI
Caratteristiche dei big data
Molto
Diverso
ad alta velocità
valore
1.1 Introduzione al data mining
definizione
Un processo informatico che utilizza metodi come l'intelligenza artificiale, l'apprendimento automatico e la statistica per estrarre modelli o conoscenze utili e precedentemente sconosciuti da enormi quantità di dati.
sfondo
La quantità di dati è aumentata notevolmente, dando origine a nuove direzioni di ricerca: scoperta di conoscenza basata su database e ricerca sulle corrispondenti teorie e tecnologie di data mining.
Il prossimo hotspot tecnologico dopo Internet
Sebbene una grande quantità di informazioni apporti comodità alle persone, comporta anche molti problemi.
Troppe informazioni e difficili da digerire
È difficile distinguere l'autenticità delle informazioni
La sicurezza delle informazioni è difficile da garantire
Le informazioni arrivano in forme diverse ed è difficile elaborarle in modo uniforme
Dati esplosivi ma scarsa conoscenza
L'evoluzione dai dati aziendali alle informazioni aziendali
Raccolta dati → accesso ai dati → data warehouse, supporto decisionale → data mining (fornendo informazioni predittive)
palcoscenico
Preelaborazione dei dati
Pulisci, integra, seleziona, trasforma
estrazione dei dati
valutazione del modello
processi
dati, informazioni, conoscenze
dati
"8000m", "10000m"
Prodotto dall'osservazione e dalla misurazione di cose oggettive, chiamiamo le cose oggettive sotto entità di studio
informazione
"8000 m è l'altitudine massima per il volo aereo", "10000 m in alta montagna"
Conoscenza
"Gli aerei non possono salire su questa montagna"
saggezza
contenuto principale
Estrazione delle regole di associazione
birra e pannolini
apprendimento automatico supervisionato
Previsione discreta delle etichette: classificazione delle etichette
Previsione etichetta continua: previsione numerica
Apprendimento automatico non supervisionato: clustering (algoritmo di similarità)
ritorno
Stabilire relazioni quantitative tra più variabili
Classificazione degli algoritmi
apprendimento supervisionato
Imparare una funzione (modello) dai dati di addestramento forniti. Quando arrivano nuovi dati, il risultato può essere previsto in base a questa funzione (modello).
I dati di allenamento hanno un'identificazione o risultati chiari
Algoritmo di regressione, rete neurale, macchina vettoriale di supporto SVM
Algoritmo di regressione
regressione lineare
Affronta problemi numerici e il risultato finale della previsione sarà un numero, ad esempio: il prezzo della casa
regressione logistica
Appartiene a un algoritmo di classificazione, ad esempio: determinare se un'e-mail è spam
Reti neurali
Applicato al riconoscimento visivo e al riconoscimento vocale
SVM supporta l'algoritmo della macchina vettoriale
Miglioramento dell'algoritmo di regressione logistica
apprendimento non supervisionato
I dati di allenamento non sono etichettati in modo specifico
Algoritmo di clustering, algoritmo di riduzione della dimensionalità
Algoritmo di clustering
Calcolare la distanza nella popolazione e dividere i dati in più popolazioni in base alla distanza
Algoritmo di riduzione della dimensionalità
Ridurre i dati da dimensionalità elevata a dimensionalità bassa. La dimensione rappresenta la dimensione della quantità di caratteristiche dei dati. Ad esempio: il prezzo della casa contiene le quattro caratteristiche di lunghezza, larghezza, area e numero di stanze della casa , la dimensione è costituita da dati quadridimensionali e i dati di lunghezza e larghezza Le informazioni di cui sopra si sovrappongono alle informazioni rappresentate da Area = lunghezza × larghezza Le informazioni ridondanti vengono rimosse attraverso la riduzione della dimensionalità.
Comprimi i dati e migliora l'efficienza del machine learning
Applicazioni dati aziendali
apprendimento semi-supervisionato
Come utilizzare un numero limitato di campioni etichettati e un numero elevato di campioni non etichettati per problemi di addestramento e classificazione
Identificazione dell'immagine
insegnamento rafforzativo
I soggetti in apprendimento esprimono giudizi sulla base del feedback proveniente dall'ambiente circostante osservato
Controllo robotico
1.2 Processi e metodi di base del data mining
metodo di base
Estrazione predittiva
Estrapolare i dati attuali per fare previsioni
mining descrittivo
Caratterizzare le caratteristiche generali dei dati nel database (correlazione, tendenza, clustering, anomalia...)
Diagramma di flusso del data mining
Principali metodi di data mining nella Scuola Sesta Media (P6)
Riepilogo riassuntivo del set di dati
Regole di associazione dei dati
Un modo per descrivere potenziali connessioni tra dati, solitamente rappresentato dall'implicazione A-B
Classificazione e previsione
raggruppamento
Rilevazione eterogenea
modello di serie temporali
1.3 Applicazione del data mining
Attività commerciale
Sanità e Medicina
bancario e assicurativo
mezzi di comunicazione sociale
attrezzo
Weka, matlab, Java
Informazioni rilevanti
sottoargomento
Capitolo 2 Descrizione e visualizzazione dei dati
2.1 Panoramica
Analizzare gli attributi e i valori dei dati→descrizione e visualizzazione dei dati
2.2 Oggetti dati e tipi di attributi
insieme di dati
Composto da oggetti dati
Database delle vendite: clienti, articoli del negozio, vendite Database medico: informazioni sul paziente e sul trattamento Database di Ateneo: informazioni su studenti, professori, corsi
oggetto dati
Un oggetto dati rappresenta un'entità
Conosciuto come: campione, esempio, istanza, punto dati, oggetto, tupla
Attributi
una caratteristica di un oggetto dati
il termine
Banca dati: dimensione
Apprendimento automatico: caratteristiche
Statistiche: variabili
Data mining, database: proprietà
Classificazione
Proprietà nominali
I valori degli attributi nominali sono alcuni simboli o nomi di cose che rappresentano categorie e nomi
Attributo nominale: colore dei capelli, valori possibili: nero, bianco, castano Attributo nominale: Stato civile, valori possibili: sposato, celibe, divorziato, vedovo
Attributi binari (attributi nominali speciali)
Ci sono solo due categorie e status
binario simmetrico
La differenza nella dimensione dei dati è piccola Esempio: Genere: maschio, femmina
binario asimmetrico
La dimensione dei dati varia notevolmente Esempio: test medico – negativo, positivo
proprietà ordinali
C'è un ordine, ma la differenza tra loro non è nota. Di solito viene utilizzato per la valutazione.
Titolo dell'insegnante, grado militare, soddisfazione del cliente
Proprietà numeriche
proprietà di ridimensionamento degli intervalli
Misurato in sequenza in unità di lunghezza
Proprietà della scala dei rapporti
Ha un punto zero fisso, è ordinato e può calcolare i multipli
Attributi discreti e continui
2.3 Descrizione statistica di base dei dati
misura della tendenza centrale
media, mediana, moda
Diffusione dei dati metrici
Intervallo, quartile, intervallo quartile
Riepilogo di cinque numeri, box plot e valori anomali
Varianza, deviazione standard
Rappresentazione grafica delle statistiche di base dei dati
Grafico quantile
Quantile: grafico dei quantili
Istogramma
Altezza: quantità, frequenza
Grafico a dispersione
Scopri le correlazioni tra gli attributi
2.4 Visualizzazione dei dati
definizione
Esprimi i dati in modo efficace attraverso la grafica
Tre metodi di visualizzazione
Boxplot (boxplot)
Analizzare le differenze di dispersione di più dati di attributi
Può visualizzare la distribuzione dei dati e visualizzare i valori anomali (è necessario eliminarli)
Istogramma
Analizzare la distribuzione delle modifiche di un singolo attributo in vari intervalli
Grafico a dispersione
Visualizza la distribuzione della correlazione tra due insiemi di dati
2.4.1 Visualizzazione basata su pixel
Un modo semplice per visualizzare valori unidimensionali è utilizzare i pixel, il cui colore riflette il valore di quella dimensione
Adatto per valori unidimensionali, non adatto per la distribuzione di dati spaziali multidimensionali
2.4.2 Visualizzazione della proiezione geometrica
Aiuta gli utenti a scoprire proiezioni di dati multidimensionali La sfida principale della tecnologia di proiezione geometrica è capire come visualizzare lo spazio ad alta dimensione in due dimensioni.
Per i punti dati bidimensionali, viene solitamente utilizzato un grafico a dispersione del sistema di coordinate cartesiane. È possibile utilizzare colori o forme diversi nel grafico a dispersione come terza dimensione dei dati.
(Utilizzato per set di dati tridimensionali) Grafici a dispersione, matrici di grafici a dispersione e visualizzazione di coordinate parallele (quando il numero di dimensioni è elevato)
2.4.3 Visualizzazione basata su icone
Rappresenta valori di dati multidimensionali con un numero limitato di icone
Due metodi di icone comunemente usati
La faccia di Chernov (permette la visualizzazione fino a 36 dimensioni)
Rivelare le tendenze nei dati
Elementi come gli occhi, la bocca e il naso del viso utilizzano forme, dimensioni, posizioni e orientamenti diversi per rappresentare i valori delle dimensioni.
Ogni volto rappresenta un punto dati n-dimensionale (n≤18) e il significato delle varie caratteristiche facciali viene compreso identificando piccole differenze nei volti.
disegno della linea del personaggio
2.4.4 Visualizzazione gerarchica
Dividi tutte le dimensioni in sottoinsiemi (cioè sottospazi) e visualizza questi sottospazi gerarchicamente
Due metodi di visualizzazione gerarchica comunemente usati
Gerarchia del sottoinsieme dell'asse X e dell'asse Y
grafico dei numeri
2.4.5 Visualizzare oggetti e relazioni complessi
Etichetta Nuvola
2.5 Misurazione della somiglianza e della dissomiglianza dei dati
concetto
Somiglianza
Misura quanto sono simili due oggetti dati. Maggiore è il valore, più simili sono. L'intervallo di valori usuale è [0,1].
Dissomiglianza
Misura il grado di differenza tra due oggetti dati. Quanto più piccolo è il valore, tanto più simili sono i dati. La dissomiglianza minima è solitamente 0.
Prossimità
Si riferisce alla somiglianza o alla dissomiglianza
Fornisce due strutture dati
Matrice dati (oggetto - matrice attributi)
Memorizza n oggetti dati, ogni n oggetto dati ha n righe e p caratteristiche degli attributi hanno p colonne)
Matrice di dissomiglianza (Oggetto - Matrice Oggetto)
Valore di dissomiglianza utilizzato per archiviare oggetti dati
Solitamente una matrice triangolare
Misura di prossimità per attributi nominali
Misura di prossimità per attributi binari
Dissomiglianza nelle proprietà numeriche
Diversi metodi comuni per il calcolo delle misure di distanza per la dissomiglianza degli oggetti con attributi numerici
Distanza euclidea
distanza da Manhattan
Ou e Man soddisfano contemporaneamente le seguenti proprietà
Distanza Minkowski
Promozione di Ouyuman
distanza suprema
dà il valore massimo della differenza tra gli oggetti
Misure di prossimità per attributi ordinali
Dissomiglianza di attributi misti
Ogni tipo di attributi è diviso in un gruppo e su ciascun tipo viene eseguita l'analisi di data mining (come l'analisi dei cluster). Se queste analisi ottengono gli stessi risultati, il metodo funziona, ma nelle applicazioni pratiche è difficile ottenere gli stessi risultati per ciascuna classificazione del tipo di attributo.
Un approccio migliore: basta fare una singola analisi, combinare i diversi attributi in un'unica matrice di dissomiglianza e trasformare gli attributi in un intervallo comune [0.0,0.1]
esempio
sottoargomento
Somiglianza coseno (basta capirlo)
Recupero di testi, estrazione di informazioni biologiche
Vettore del documento, vettore della frequenza delle parole
I vettori di frequenza sono generalmente lunghi e sparsi (hanno molti valori 0)
Capitolo 7 Macchina vettoriale di supporto
Classificazione delle macchine a vettori di supporto
Problema di classificazione binaria lineare
Trova l'iperpiano ottimale
Capitolo 6 Classificazione e previsione
6.1 Classificazione dei dati
variabile continua
altezza peso
Variabili categoriali
Variabile categoriale non ordinata
Classificazione ordinata
Metodi generali per la classificazione dei dati
Classificazione, ordinamento, distanza, rapporto
6.2 Modello di albero decisionale
Genera albero decisionale
Eliminare l'albero decisionale
6.2.1 Come funzionano gli alberi decisionali
6.3 Modello di classificazione bayesiana
massima ipotesi a posteriori
Lo studente seleziona l'ipotesi più probabile h dall'insieme di ipotesi candidate H quando gli vengono forniti i dati D. h è chiamata ipotesi massima posteriore.
È necessario chiedere la probabilità congiunta
Di solito si presuppone che ciascun attributo sia distribuito in modo indipendente e identico
Prima di ciò, è necessario eseguire i calcoli di correlazione e l'unione per ridurre al minimo la correlazione tra gli attributi.
Caratteristiche
Gli attributi possono essere discreti o continui
Solide basi matematiche ed efficienza di classificazione stabile
Non sensibile a dati mancanti, rumorosi e valori anomali
Se gli attributi non sono rilevanti, l'effetto della classificazione è molto buono
6.4 Modello discriminante lineare
6.5 Modello di regressione logistica
6.6 Valutazione e selezione del modello
Capitolo 5 Estrazione delle regole di associazione
5.1 Panoramica
concetto
L'estrazione delle regole di associazione viene utilizzata per estrarre la correlazione tra i set di elementi nel database delle transazioni ed estrarre tutte le regole di associazione che soddisfano i requisiti di soglia minima di supporto e confidenza.
Le regole di associazione vengono utilizzate per trovare dipendenze potenzialmente utili tra elementi di dati in grandi quantità di dati.
set di articoli frequenti
Insieme di elementi che soddisfano il supporto minimo e la credibilità minima
Supporto
Credibilità
Regole forti
Regole che soddisfano o superano il supporto e la fiducia minimi
Principali fasi del data mining
Nell'insieme di elementi dei big data, trova il numero di occorrenze ≥ insieme di elementi frequenti
Dai frequenti elementi ottenuti sopra, stabilire regole di associazione che soddisfino le condizioni minime di supporto e credibilità.
5.2 Classificazione
5.3 Fasi della ricerca
5.4 Analisi dell'algoritmo Apriori
5.6 Generalizzazione delle regole associative (GRI)
prima ricerca approfondita
5.7 Approfondimento delle regole associative
Capitolo 4 Riduzione dei dati (Riduzione dei dati)
4.1 Panoramica della manutenzione
Semplifica al massimo i dati mantenendo l'aspetto originale dei dati
4.2 Selezione degli attributi e riduzione numerica
Criteri di valutazione degli attributi (P58)
misurazione della consistenza
Il grado di coerenza tra due attributi
Il grado di coerenza tra livello di istruzione e livello VIP
misurazione della correlazione
La correlazione tra diversi attributi si riferisce alla relazione tra loro
Correlazione tra livello di istruzione e livello VIP
Maggiore è la correlazione tra due attributi, maggiore è la precisione nel dedurre il valore di un attributo dal valore dell'altro attributo.
Misurazione della capacità discriminativa
La capacità di un determinato attributo di distinguere i record nel database
misurazione delle informazioni
Maggiore è la quantità di informazioni contenuta in un attributo, più importante è
La quantità di informazione viene solitamente misurata mediante "entropia dell'informazione"
Seleziona avanti passo dopo passo
Imposta la proprietà di destinazione su vuota
Ogni iterazione seleziona l'attributo migliore dagli attributi rimanenti nel set di dati originale e lo aggiunge al set di attributi di destinazione.
Rimuovere l'attributo dal set di dati originale
Ripetere questo processo finché il set di obiettivi non soddisfa i requisiti
4.3 Regressione lineare
definizione
È lo studio della relazione tra una singola variabile dipendente e una o più variabili indipendenti
utilità
La previsione si riferisce all'utilizzo delle variabili osservate per prevedere le variabili dipendenti
L’analisi causale tratta la variabile indipendente come causa della variabile dipendente.
regressione lineare
Regressione multipla
regressione non lineare
Dati del modello che non hanno dipendenze lineari
Utilizzare il metodo di modellazione della regressione polinomiale, quindi eseguire la trasformazione delle variabili per convertire il modello non lineare in un modello lineare, quindi risolverlo utilizzando il metodo dei minimi quadrati
4.4 Analisi delle componenti principali (Analisi delle componenti principali PCA)
Metodi comunemente utilizzati per la riduzione della dimensionalità di dati ad alta dimensionalità
Crea una combinazione lineare di variabili originali e riflette tutte o la maggior parte delle informazioni della quantità originale attraverso poche variabili combinate.
La variabile combinata è la componente principale
Capitolo 3 Raccolta e preelaborazione dei dati (pulizia, integrazione, riduzione, trasformazione)
3.1 Panoramica
Caratteristiche della raccolta dei big data
Il primo passo nel ciclo di vita dei big data
Rispetto ai dati tradizionali, i big data sono enormi, diversificati ed eterogenei.
Dalla raccolta all'elaborazione, i big data devono valutare coerenza, disponibilità e tolleranza agli errori di partizione.
Metodi di raccolta dei big data (capire)
Raccolta di log di sistemi distribuiti
Raccolta dati in rete
Web crawler, API pubblica del sito Web (interfaccia di programmazione dell'applicazione)
Ispezione approfondita dei pacchetti DPI
Ispezione della profondità/flusso dinamico del DFI
Raccolta dati interfaccia specifica del sistema
3.2 Finalità e compiti del pretrattamento dei dati
Scopo
Migliorare la qualità dei dati
missione principale
Pulizia dei dati
Chiarire il rumore nei dati e correggere le incoerenze
integrazione dei dati
Consolida i dati provenienti da più origini dati in un archivio dati coerente, ad esempio un data warehouse
Trasformazione dei dati (come la normalizzazione)
Comprimere i dati in intervalli più piccoli
3.3 Pulizia dei dati
L'essenza è un processo di modifica del modello di dati
Percorso di pulizia dei dati (capire)
1. Pulizia dei valori mancanti
Rimuovi i valori mancanti
imputazione media
metodo di riempimento della hot card
metodo di compilazione delle decisioni a distanza più vicino
imputazione di regressione
metodo di imputazione multipla
k: metodo del vicino più vicino
Approccio bayesiano
2. Pulizia dei valori anomali (valori anomali, valori selvaggi)
Definizione e identificazione degli outlier
Gestione dei valori anomali
3. Formattare la pulizia del contenuto
4. Pulizia degli errori logici
Rimuovi i duplicati
Rimuovere i valori irragionevoli
5. Pulizia dei dati non richiesta
6.Verifica della pertinenza
3.4 Integrazione dei dati
concetto
Integrazione dei dati nel senso tradizionale
Combina dati provenienti da più archivi dati e archiviali in un unico archivio dati, ad esempio un data warehouse
Integrazione dei dati in senso generale
ETL: estrazione, trasformazione, caricamento (a destinazione) È una parte importante della costruzione di un data warehouse
L'utente estrae i dati richiesti dall'origine dati, pulisce i dati e infine carica i dati nel data warehouse in base al modello di data warehouse predefinito.
Importanza dei modelli
Standardizzare la definizione dei dati per ottenere codifica, classificazione e organizzazione unificate
La ridondanza dei dati si verifica spesso quando si integrano più database
Rileva attributi ridondanti
analisi di correlazione
variabile discreta
Test del chi quadrato
Maggiore è il valore, più rilevante è
variabile continua
coefficiente di correlazione
Uguale a 1, -1, completamente correlato linearmente
Maggiore di 0, correlazione positiva
Uguale a 0 non esiste correlazione lineare
Meno di 0, correlazione negativa
analisi della covarianza
Maggiore di 0, correlazione positiva
uguale a 0, indipendenza
Alcuni dati hanno covarianza 0, ma non sono indipendenti
Meno di 0, correlazione negativa
Strategia di riduzione dei dati
Riduzione della dimensionalità
Scenari che richiedono la riduzione della dimensionalità
I dati sono scarsi e hanno dimensioni elevate
I dati ad alta dimensione adottano un metodo di classificazione basato su regole
Utilizza modelli complessi (come il deep learning), ma il numero di set di training è ridotto
Necessità di visualizzare
Metodo tipico di riduzione della dimensionalità: analisi delle componenti principali PCA
introdurre
Esistono alcune correlazioni tra molti attributi nei dati.
Riesci a trovare un modo per combinare più attributi correlati per formare un solo attributo?
concetto
Ricombinare più attributi originali con determinate correlazioni (come gli attributi p) in un insieme di attributi completi non correlati per sostituire gli attributi originali. Di solito il trattamento matematico consiste nel combinare linearmente gli attributi originali di p come attributi comprensivi del richiedente.
Ad esempio: i punteggi degli studenti, la lingua, la matematica, gli affari esteri, la storia, la geografia, ecc. sono divisi in due attributi: arti liberali e scienze.
Riduzione dei dati - campionamento
compressione dati
Ridurre la dimensione dei dati riducendone la qualità, ad esempio i pixel
3.5 Trasformazione dei dati
Strategia di trasformazione dei dati
Uniformità, costruzione degli attributi, aggregazione, normalizzazione, discretizzazione, stratificazione dei concetti
Metodi di trasformazione dei dati comunemente utilizzati
Trasformare i dati attraverso la normalizzazione
discretizzazione mediante binning
Discretizzazione mediante binning dell'istogramma
Discretizzazione tramite clustering, alberi decisionali e analisi di correlazione
Stratificazione concettuale dei dati nominali
discretizzazione
metodo della larghezza uguale
Metodo della frequenza uguale
metodo di clustering