Galerie de cartes mentales Arbre de connaissances Big Data
Cadre, concepts et contenu Big Data, utilisé pour trier la structure des connaissances, y compris la plate-forme Hadoop, la structure de l'entrepôt de données, la ruche, etc.
Modifié à 2024-04-18 16:59:36Il s'agit d'une carte mentale sur les activités des grandes institutions. Le contenu principal comprend : les pairs financiers, les clients institutionnels gouvernementaux, les sociétés cotées et les investisseurs institutionnels. (Private equity et autres gestionnaires).
Culture tissulaire, le système respiratoire comprend le nez, le pharynx, le larynx, la trachée, les bronches et les poumons. L'introduction est détaillée et les connaissances sont complètes. J'espère qu'elle pourra être utile à tout le monde !
Selon la culture tissulaire, le tube digestif est un tube continu allant de la bouche à l'anus, divisé en cavité buccale, pharynx, œsophage et estomac, intestin grêle et gros intestin. L'introduction est détaillée et les connaissances sont complètes. J'espère qu'elle pourra être utile à tout le monde !
Il s'agit d'une carte mentale sur les activités des grandes institutions. Le contenu principal comprend : les pairs financiers, les clients institutionnels gouvernementaux, les sociétés cotées et les investisseurs institutionnels. (Private equity et autres gestionnaires).
Culture tissulaire, le système respiratoire comprend le nez, le pharynx, le larynx, la trachée, les bronches et les poumons. L'introduction est détaillée et les connaissances sont complètes. J'espère qu'elle pourra être utile à tout le monde !
Selon la culture tissulaire, le tube digestif est un tube continu allant de la bouche à l'anus, divisé en cavité buccale, pharynx, œsophage et estomac, intestin grêle et gros intestin. L'introduction est détaillée et les connaissances sont complètes. J'espère qu'elle pourra être utile à tout le monde !
Arbre de connaissances Big Data
Les sources de données
Aperçu
interne
enterrer le point
Aperçu
Par rapport
processus
Dimensions
document
Cas
externe
concurrents
reptile
Bureau national des statistiques
Fourni par des commerçants sympathiques
Entrepôt de données DW
Introduction
Entrepôt de données (Data Warehouse), appelé DW. Comme son nom l'indique, un entrepôt de données est une vaste collection de stockage de données créée à des fins de reporting analytique d'entreprise et d'aide à la décision afin de filtrer et d'intégrer diverses données commerciales. Il fournit aux entreprises certaines capacités BI (Business Intelligence) et guide l'amélioration des processus métier.
effet
stockage
extrait
Candidatures interservices
fonctionnalité
Orienté vers un sujet
intégré
Stable et pas facile à perdre
refléter les changements historiques
Illustration
Comparez les bases de données
base de données
OLTP
Traitement des transactions en ligne
traitement des transactions en ligne
base de données
OLAP
Traitement des transactions en ligne
Processus analytique en ligne
Tableau de comparaison
Architecture
Objectifs de conception
architecture en couches
Gestion des métadonnées
gouvernance des données
données sales
principes de gouvernance
Plateforme Hadoop
Introduction
Plateforme de stockage et de calcul distribuée pour le Big Data
avantage
Grande fiabilité
La capacité de Hadoop à stocker et traiter des données au niveau bit est digne de confiance
Haute évolutivité
Hadoop distribue les données et effectue des tâches informatiques entre les clusters d'ordinateurs disponibles. Ces clusters peuvent être facilement étendus à des milliers de nœuds.
Haute efficacité
Hadoop peut déplacer dynamiquement les données entre les nœuds et maintenir un équilibre dynamique de chaque nœud, la vitesse de traitement est donc très rapide
Haute tolérance aux pannes
Hadoop peut enregistrer automatiquement plusieurs copies de données et redistribuer automatiquement les tâches ayant échoué.
faible coût
Hadoop est open source, le coût logiciel du projet peut donc être considérablement réduit.
Écosphère
Aperçu
Classification
HDFS
nom et prénom
Système de fichiers distribué Hadoop
principe
Divisez le fichier en blocs de données de taille fixe. La taille fixe par défaut est de 128 Mo.
Stockage distribué
Interface d'accès unifiée
NomNoeud
avantage
Stockage distribué
Prise en charge de l'informatique distribuée et parallèle
Évolutivité horizontale
composants de base
Client HDFS
Fournit des commandes pour gérer HDFS
NomNoeud
Gérer les métadonnées de l'ensemble du système de fichiers, responsabilités du poste : gérer les métadonnées, maintenir la structure des répertoires, répondre aux demandes des clients
Nœud de données
Copier et gérer les blocs de données des fichiers de l'utilisateur, responsabilités professionnelles : gérer les données soumises par l'utilisateur, le mécanisme de battement de cœur, le rapport de blocage
NœudNomSecondaire
L'assistant de NameNode aide à charger les métadonnées et peut aider à restaurer les données dans des situations d'urgence (telles que les temps d'arrêt de NameNode)
Quatre mécanismes majeurs
mécanisme de battement de coeur
Structure maître/esclave
Maître
NomNoeud
Esclave
Nœud de données
L'intervalle de temps par défaut pendant lequel DataNode envoie des requêtes à NameNode est de 3 s.
Si le NameNoder ne reçoit pas le battement de cœur du DataNode pendant une longue période, il enverra également des requêtes au DataNode toutes les 5 minutes, deux fois au total.
mode sans échec
Lorsque le cluster HDFS démarre normalement à froid, le NameNode restera en mode sans échec pendant une longue période. Attendez simplement qu'il quitte automatiquement le mode sans échec.
Stratégie de stockage des copies
Les données de chaque fichier sont stockées dans des blocs. Chaque bloc de données est enregistré avec plusieurs copies. Ces copies de blocs de données sont distribuées sur différents nœuds de la machine.
l'équilibrage de charge
La différence entre la valeur ayant la capacité la plus élevée de la machine et la valeur ayant la capacité la plus faible ne peut excéder 10 %.
Illustration
CarteRéduire
effet
Informatique distribuée
Stratégie
diviser et conquérir
idée
Le calcul se rapproche des données plutôt que les données ne se rapprochent du calcul
principe
Carte
Diviser une tâche en plusieurs tâches
Réduire
Résumer les résultats du multitâche décomposé pour obtenir les résultats de l'analyse finale
Illustration
Stratification de l'entrepôt de données
avantage
structure claire
Chaque couche de données a sa portée et ses responsabilités, ce qui facilite la localisation et la compréhension lors de l'utilisation de tableaux.
Réduire le développement
Standardisez la stratification des données et développez des données communes de niveau intermédiaire, ce qui peut réduire d'énormes calculs répétés.
Une voix
Grâce à la superposition de données, une exportation de données unifiée est fournie et le calibre des données est unifié pour la sortie externe.
Simplifier le problème
Divisez une tâche complexe en plusieurs étapes à réaliser, chaque couche résolvant un problème spécifique
structure
Cas
Entrepôt de données de sites Web de commerce électronique
ruche
origine
Hive est un outil d'entrepôt de données basé sur Hadoop développé par Facebook pour résoudre l'analyse statistique de données de journaux massives (plus tard open source pour Apache Software Foundation)
Fonction
Peut mapper des fichiers de données structurées dans une table de base de données et fournir des fonctions de requête de type SQL
Caractéristiques
Hive lui-même ne prend pas en charge le stockage et le traitement des données, il s'agit simplement d'une interface de programmation orientée utilisateur.
Hive s'appuie sur le système de fichiers distribué HDFS pour stocker les données
Hive s'appuie sur le modèle de calcul parallèle distribué MapReduce pour traiter les données
Conception d'un nouveau langage de requête HiveQL basé sur le langage SQL
Principe de requête