Galleria mappe mentale Teoria e pratica della scienza dei dati Capitolo 4
La scienza dei dati e la struttura dei big data, la scienza dei dati e la catena industriale dei big data forniscono supporto tecnico per l'analisi dei big data, inclusa la piattaforma di analisi dei dati, la piattaforma di data science, l'analisi sociale, le risorse di dati di machine learning, ecc. rappresentano le istituzioni che generano dati, tra cui Incubatori, scuole ed enti di ricerca.
Modificato alle 2023-10-21 15:49:41Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Tecnologia e strumenti
Sistema tecnologico di scienza dei dati
infrastruttura
Fornire calcolo dei dati, gestione e monitoraggio dei dati, ecc.
strumento di analisi
La scienza dei dati e la catena industriale dei big data forniscono supporto tecnico per l'analisi dei big data, inclusa la piattaforma di analisi dei dati, la piattaforma di data science, l'analisi sociale, l'apprendimento automatico, ecc.
Applicazioni aziendali
Le organizzazioni forniscono tecnologie o strumenti applicativi a livello aziendale, tra cui vendite e marketing, servizio clienti, capitale umano e altri servizi specifici
Applicazione industriale
Risolvi i problemi comuni del settore e fornisci una piattaforma tecnologica per le applicazioni aziendali
Infrastruttura multipiattaforma e strumenti di analisi
Fornire infrastrutture multipiattaforma e strumenti di analisi multipiattaforma, come Microsoft, ecc.
Strumenti open source
Quadro di progettazione tecnica interrogazione del flusso di dati, coordinamento dell'accesso ai dati elaborazione del flusso strumenti statistici, intelligenza artificiale apprendimento automatico apprendimento profondo ricerca analisi dei registri visualizzazione collaborazione e sicurezza
Origine dati e APP
Salute Internet delle cose Finanza ed economia, ecc.
Risorse di dati
Le risorse dati rappresentano le istituzioni che generano i dati, inclusi incubatori, scuole e istituti di ricerca.
Riduci mappa
Un modello di calcolo distribuito
funzione mappa
La funzione di mappa definita dall'utente riceve le coppie di valori-chiave nei dati di input e, dopo il calcolo effettuato dalla funzione di mappa, si ottiene una serie di coppie di valori-chiave intermedie.
ridurre la funzione
La funzione di riduzione definita dall'utente riceve un valore di chiave intermedio e un insieme correlato di valori di valore.
I tre principali documenti di Google
Processo di implementazione
Caratteristiche principali
Funziona come una struttura master-slave
Elaborazione dei dati tra la funzione map e la funzione reduce
Elaborazione casuale
elaborazione del combinatore
funzione di partizione
Input e output del tipo di valore chiave
La complessità dei meccanismi di tolleranza agli errori
Fallimento del lavoratore
Fallimento del maestro
Diversità delle posizioni di archiviazione dei dati
File sorgente: GFS
Risultati dell'elaborazione della mappa: archiviazione locale
Riutilizzo dei risultati dell'elaborazione: GFS
Registro:GFS
L'importanza della granularità delle attività
La necessità di un meccanismo di backup delle attività
Tecnologie chiave
funzione di partizione
funzione combinatore
Salta i record danneggiati
esecuzione locale
informazioni sullo stato
contatore
Implementazione e miglioramento di MapReduce
MRv1
modello di programmazione
motore di elaborazione dati
ambiente di esecuzione
Scarsa espansione
Scarsa affidabilità
Basso utilizzo delle risorse
Impossibile supportare più framework informatici
Hadoop
Apache fornisce un set completo di librerie di sistema open source per un'elaborazione affidabile, scalabile e distribuita
Hadoop MapReduce
Operazione
Presentazione degli incarichi
Inizializzazione del lavoro
Aggiornamenti di processo e di stato
completamento dei compiti
Compito
assegnazione di compiti
esecuzione dei compiti
jobTracker e TaskTracker
fetta di ingresso
Ottimizzazione della localizzazione dei dati
Il client invia l'attività MapReduce
JobTracker coordina l'esecuzione dei lavori
TaskTracker esegue le attività divise
HDFS viene utilizzato per condividere file di lavoro tra altre entità
HDFS
Supporta file molto grandi
Basato su hardware commerciale
Accesso ai dati in streaming
Elevata produttività
Alveare
Può mappare file di dati strutturati in una tabella di database, fornire semplici funzioni di query HiveQL e convertire istruzioni HiveQL in attività MapReduce per l'esecuzione.
Maiale
Lingua latina del maiale, un linguaggio descrittivo per l'analisi dei dati
Facile da programmare
Facile da ottimizzare
flessibilità
Ambiente di esecuzione del maiale
Mahout
Fornire algoritmi scalabili di machine learning e la loro implementazione
HBase
Database con schema dinamico scalabile, altamente affidabile, ad alte prestazioni, distribuito e orientato alle colonne per dati strutturati
Modello logico HBase
Modello fisico HBase
ZooKeeper
semplicità
autoreplicazione
accesso sequenziale
lettura ad alta velocità
Flume
Alta affidabilità
Scalabilità
Supporta una gestione conveniente
Supporta la personalizzazione dell'utente
Sqoop
Scintilla
Una breve storia con Hadoop
caratteristica principale
ad alta velocità
Versatilità
Facilità d'uso
Struttura tecnica
gestione delle risorse
Strato centrale della scintilla
livello di servizio
Processo di base
Gestione dei cluster
Tecnologie chiave
RDD
un insieme di partizioni
Una funzione che calcola ogni partizione
fare affidamento
Posizione preferita
Partizionatore
Trasformazione
Azione
Pianificatore
DAGScheduler è responsabile della creazione dei piani di esecuzione
TaskScheduler è responsabile dell'assegnazione delle attività e della pianificazione dell'esecuzione dei lavoratori
Mescola
Spark R
Mappatura del tipo di dati
Ridefinizione del processo di sessione
Fornire più API
Supporta funzioni di esecuzione distribuite personalizzate
Supporta una varietà di ambienti di editing e esecuzione del codice R
Architettura Lambda
NoSQL e NewSQL
Vantaggi e svantaggi dei database relazionali
Elevata coerenza dei dati
Bassa ridondanza dei dati
Forti capacità di query complesse ed elevata maturità del prodotto
Tecnologia NoSQL
Facile decentralizzazione dell'archiviazione e dell'elaborazione dei dati
Il costo delle operazioni frequenti sui dati è basso e la semplice elaborazione dei dati è altamente efficiente.
Adatto per scenari applicativi in cui i modelli di dati cambiano costantemente
nuvola di relazioni
modello di dati
Distribuzione dei dati
Frammentazione
Tavolo grande
replica master-slave
Replica peer-to-peer
coerenza dei dati
consistenza debole
eventuale consistenza
coerenza dell'aggiornamento
Leggi e scrivi coerenza
coerenza della sessione
Teoria della CAP e principi BASE
applicazione
Un sistema distribuito non può soddisfare i requisiti di coerenza, disponibilità e tolleranza di partizione allo stesso tempo. Può soddisfare solo al massimo due di queste caratteristiche contemporaneamente.
Principio BASE
Nelle applicazioni pratiche di NoSQL, è necessario valutare la coerenza e la disponibilità
Viste e viste materializzate
vista materializzata
evento innescato
tempo attivato
Vista materializzata nella fase Mappa
Vista materializzata della fase di riduzione
Timbro di transazione e versione
aggiornamento delle condizioni
timbro della versione
Prodotti tipici
R e Pitone
Il linguaggio R supporta i calcoli vettorizzati
Chiama servizi di livello professionale per attività di data science tramite il pacchetto R Language R
Gli sviluppatori dei pacchetti R tradizionali sono tutti esperti di statistica, apprendimento automatico e altri campi di dati.
Integrazione di data Lake e Lake Warehouse
Data Lake è un approccio che enfatizza l'archiviazione dei dati in un formato naturale e supporta la configurazione dei dati in vari schemi e strutture.
Banca dati
lago di dati
Data Lake Warehouse
tendenza di sviluppo
Tendenze di sviluppo del livello di elaborazione dei dati
Vendita di software, prodotti hardware o risorse informative agli utenti
Responsabile della gestione e della manutenzione delle apparecchiature software e hardware o delle risorse informative per conto degli utenti
Tendenze di sviluppo nella gestione dei dati
Da perfezionista della gestione dei dati a realista
Da Schema First a Schema First, Schema Later e Schemaless coesistono.
Dall'attenzione all'elaborazione complessa all'enfasi sull'elaborazione semplice
Dalla ricerca di una forte coerenza alla comprensione diversificata della coerenza dei dati
Dall'enfatizzazione degli effetti negativi della ridondanza dei dati all'enfatizzazione degli effetti positivi della ridondanza dei dati
Dalla ricerca del tasso di richiamo e del tasso di precisione all'enfasi sulla velocità di risposta alle query
La transizione dai sistemi di gestione di database come prodotto ai sistemi di gestione di database come servizio
Dalla standardizzazione della tecnologia di gestione dei dati alla diversificazione della tecnologia di gestione dei dati
Dal fare affidamento esclusivamente su una singola tecnologia all’integrazione di più tecnologie
Piattaforma di scienza dei dati
Cos'è il cloud computing
Economia
Calcolo forte
servizi su richiesta
Virtualizzazione