Connexion
Connexion

Galerie de cartes mentales Arbre de connaissances Big Data

Arbre de connaissances Big Data

Cadre, concepts et contenu Big Data, utilisé pour trier la structure des connaissances, y compris la plate-forme Hadoop, la structure de l'entrepôt de données, la ruche, etc.

Modifié à 2024-04-18 16:59:36

Carte mentale

Œuvres récentes Afficher plus d'œuvres>>

Grande entreprise institutionnelle
Il s'agit d'une carte mentale sur les activités des grandes institutions. Le contenu principal comprend : les pairs financiers, les clients institutionnels gouvernementaux, les sociétés cotées et les investisseurs institutionnels. (Private equity et autres gestionnaires).
système respiratoire
Culture tissulaire, le système respiratoire comprend le nez, le pharynx, le larynx, la trachée, les bronches et les poumons. L'introduction est détaillée et les connaissances sont complètes. J'espère qu'elle pourra être utile à tout le monde !
Tube digestif
Selon la culture tissulaire, le tube digestif est un tube continu allant de la bouche à l'anus, divisé en cavité buccale, pharynx, œsophage et estomac, intestin grêle et gros intestin. L'introduction est détaillée et les connaissances sont complètes. J'espère qu'elle pourra être utile à tout le monde !

Arbre de connaissances Big Data

Carte mentale

Œuvres récentes Afficher plus d'œuvres>>

Recommandé pour vous
Contour

LBDL
- 20
bscoub
Liste complète des fonctions Excel couramment utilisées
- 18
Carte mentale
Score statistique des données variables numériques
- 8
WSrx009v
PowerBI.DAX
- 18
WSrx009v
PowerBI.Bases
- 19
WSrx009v
Carte mentale du Big Data
- 13
ArteVeloce
Carte mentale de visualisation de Big Data
- 17
WSrx009v
Chapitre 5, Développement de produits de données
- 10
WSrx009v
Théorie et pratique de la science des données Chapitre 4
- 7
WSrx009v
Processus et méthodes
- 10
WSrx009v

Arbre de connaissances Big Data

Les sources de données

Aperçu

interne

enterrer le point

Aperçu

Par rapport

processus

Dimensions

document

Cas

externe

concurrents

reptile

Bureau national des statistiques

Fourni par des commerçants sympathiques

Entrepôt de données DW

Introduction

Entrepôt de données (Data Warehouse), appelé DW. Comme son nom l'indique, un entrepôt de données est une vaste collection de stockage de données créée à des fins de reporting analytique d'entreprise et d'aide à la décision afin de filtrer et d'intégrer diverses données commerciales. Il fournit aux entreprises certaines capacités BI (Business Intelligence) et guide l'amélioration des processus métier.

effet

stockage

extrait

Candidatures interservices

fonctionnalité

Orienté vers un sujet

intégré

Stable et pas facile à perdre

refléter les changements historiques

Illustration

Comparez les bases de données

base de données

OLTP

Traitement des transactions en ligne

traitement des transactions en ligne

base de données

OLAP

Traitement des transactions en ligne

Processus analytique en ligne

Tableau de comparaison

Architecture

Objectifs de conception

architecture en couches

Gestion des métadonnées

gouvernance des données

données sales

principes de gouvernance

Plateforme Hadoop

Introduction

Plateforme de stockage et de calcul distribuée pour le Big Data

avantage

Grande fiabilité

La capacité de Hadoop à stocker et traiter des données au niveau bit est digne de confiance

Haute évolutivité

Hadoop distribue les données et effectue des tâches informatiques entre les clusters d'ordinateurs disponibles. Ces clusters peuvent être facilement étendus à des milliers de nœuds.

Haute efficacité

Hadoop peut déplacer dynamiquement les données entre les nœuds et maintenir un équilibre dynamique de chaque nœud, la vitesse de traitement est donc très rapide

Haute tolérance aux pannes

Hadoop peut enregistrer automatiquement plusieurs copies de données et redistribuer automatiquement les tâches ayant échoué.

faible coût

Hadoop est open source, le coût logiciel du projet peut donc être considérablement réduit.

Écosphère

Aperçu

Classification

HDFS

nom et prénom

Système de fichiers distribué Hadoop

principe

Divisez le fichier en blocs de données de taille fixe. La taille fixe par défaut est de 128 Mo.

Stockage distribué

Interface d'accès unifiée

NomNoeud

avantage

Stockage distribué

Prise en charge de l'informatique distribuée et parallèle

Évolutivité horizontale

composants de base

Client HDFS

Fournit des commandes pour gérer HDFS

NomNoeud

Gérer les métadonnées de l'ensemble du système de fichiers, responsabilités du poste : gérer les métadonnées, maintenir la structure des répertoires, répondre aux demandes des clients

Nœud de données

Copier et gérer les blocs de données des fichiers de l'utilisateur, responsabilités professionnelles : gérer les données soumises par l'utilisateur, le mécanisme de battement de cœur, le rapport de blocage

NœudNomSecondaire

L'assistant de NameNode aide à charger les métadonnées et peut aider à restaurer les données dans des situations d'urgence (telles que les temps d'arrêt de NameNode)

Quatre mécanismes majeurs

mécanisme de battement de coeur

Structure maître/esclave

Maître

NomNoeud

Esclave

Nœud de données

L'intervalle de temps par défaut pendant lequel DataNode envoie des requêtes à NameNode est de 3 s.

Si le NameNoder ne reçoit pas le battement de cœur du DataNode pendant une longue période, il enverra également des requêtes au DataNode toutes les 5 minutes, deux fois au total.

mode sans échec

Lorsque le cluster HDFS démarre normalement à froid, le NameNode restera en mode sans échec pendant une longue période. Attendez simplement qu'il quitte automatiquement le mode sans échec.

Stratégie de stockage des copies

Les données de chaque fichier sont stockées dans des blocs. Chaque bloc de données est enregistré avec plusieurs copies. Ces copies de blocs de données sont distribuées sur différents nœuds de la machine.

l'équilibrage de charge

La différence entre la valeur ayant la capacité la plus élevée de la machine et la valeur ayant la capacité la plus faible ne peut excéder 10 %.

Illustration

CarteRéduire

effet

Informatique distribuée

Stratégie

diviser et conquérir

idée

Le calcul se rapproche des données plutôt que les données ne se rapprochent du calcul

principe

Carte

Diviser une tâche en plusieurs tâches

Réduire

Résumer les résultats du multitâche décomposé pour obtenir les résultats de l'analyse finale

Illustration

Stratification de l'entrepôt de données

avantage

structure claire

Chaque couche de données a sa portée et ses responsabilités, ce qui facilite la localisation et la compréhension lors de l'utilisation de tableaux.

Réduire le développement

Standardisez la stratification des données et développez des données communes de niveau intermédiaire, ce qui peut réduire d'énormes calculs répétés.

Une voix

Grâce à la superposition de données, une exportation de données unifiée est fournie et le calibre des données est unifié pour la sortie externe.

Simplifier le problème

Divisez une tâche complexe en plusieurs étapes à réaliser, chaque couche résolvant un problème spécifique

structure

Cas

Entrepôt de données de sites Web de commerce électronique

ruche

origine

Hive est un outil d'entrepôt de données basé sur Hadoop développé par Facebook pour résoudre l'analyse statistique de données de journaux massives (plus tard open source pour Apache Software Foundation)

Fonction

Peut mapper des fichiers de données structurées dans une table de base de données et fournir des fonctions de requête de type SQL

Caractéristiques

Hive lui-même ne prend pas en charge le stockage et le traitement des données, il s'agit simplement d'une interface de programmation orientée utilisateur.

Hive s'appuie sur le système de fichiers distribué HDFS pour stocker les données

Hive s'appuie sur le modèle de calcul parallèle distribué MapReduce pour traiter les données

Conception d'un nouveau langage de requête HiveQL basé sur le langage SQL

Principe de requête