Galerie de cartes mentales Théorie et pratique de la science des données Chapitre 4
La science des données et la structure du Big Data, la chaîne industrielle de la science des données et du Big Data fournissent un soutien technique à l'analyse du Big Data, y compris la plate-forme d'analyse des données, la plate-forme de science des données, l'analyse sociale, l'apprentissage automatique, etc., les ressources de données représentent les institutions qui génèrent des données, notamment ; Incubateurs, écoles et instituts de recherche.
Modifié à 2023-10-21 15:49:41Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Technologie et outils
Système technologique de science des données
Infrastructure
Assurer le calcul des données, la gestion et la surveillance des données, etc.
outil d'analyse
La chaîne industrielle de la science des données et du Big Data fournit un support technique pour l'analyse du Big Data, y compris la plateforme d'analyse des données, la plateforme de science des données, l'analyse sociale, l'apprentissage automatique, etc.
Applications de l'entreprise
Les organisations fournissent des technologies ou des outils d'application au niveau de l'entreprise, notamment les ventes et le marketing, le service client, le capital humain et d'autres services spécifiques.
Application industrielle
Résoudre les problèmes courants du secteur et fournir une plate-forme technologique pour les applications d'entreprise
Infrastructure multiplateforme et outils d'analyse
Fournir une infrastructure multiplateforme et des outils d'analyse multiplateformes, tels que Microsoft, etc.
Outils open source
Cadre de conception technique, flux de données de requête, outils statistiques de traitement des flux de coordination d'accès aux données, intelligence artificielle, apprentissage automatique, apprentissage profond, analyse des journaux de recherche, visualisation, collaboration et sécurité
Source de données et application
Santé Internet des objets Finance et économie, etc.
Ressources de données
Les ressources de données représentent les institutions qui génèrent les données, notamment les incubateurs, les écoles et les instituts de recherche.
CarteRéduire
Un modèle informatique distribué
fonction de carte
La fonction de carte définie par l'utilisateur reçoit les paires clé-valeur dans les données d'entrée, et après calcul par la fonction de carte, un ensemble de paires clé-valeur intermédiaires est obtenu.
réduire la fonction
La fonction de réduction définie par l'utilisateur reçoit une valeur clé intermédiaire et un ensemble de valeurs associé.
Les trois principaux journaux de Google
Processus de mise en œuvre
Caractéristiques principales
Exécuté sous la forme d'une structure maître-esclave
Traitement des données entre la fonction map et la fonction de réduction
Traitement aléatoire
traitement du combinateur
fonction de partition
Entrée et sortie du type de valeur clé
La complexité des mécanismes de tolérance aux pannes
Échec des travailleurs
Échec du maître
Diversité des emplacements de stockage de données
Fichier source : GFS
Résultats du traitement de la carte : stockage local
Réutiliser les résultats du traitement : GFS
Journal : GFS
L’importance de la granularité des tâches
La nécessité d'un mécanisme de sauvegarde des tâches
Technologie clé
fonction de partition
fonction de combinateur
Ignorer les enregistrements corrompus
exécution locale
informations sur l'état
comptoir
Implémentation et amélioration de MapReduce
MRv1
modèle de programmation
moteur de traitement de données
environnement d'exécution
Mauvaise expansion
Mauvaise fiabilité
Faible utilisation des ressources
Impossible de prendre en charge plusieurs frameworks informatiques
Hadoop
Apache fournit un ensemble complet de bibliothèques système open source pour une informatique fiable, évolutive et distribuée.
Hadoop MapReduce
Opération
Remise des devoirs
Initialisation du travail
Mises à jour des processus et des statuts
réalisation des devoirs
Tâche
attribution des tâches
exécution des tâches
jobTracker et TaskTracker
tranche d'entrée
Optimisation de la localisation des données
Le client soumet la tâche MapReduce
JobTracker coordonne le déroulement des tâches
TaskTracker exécute les tâches divisées
HDFS est utilisé pour partager des fichiers de travail entre d'autres entités
HDFS
Prise en charge de très gros fichiers
Basé sur du matériel commercial
Accès aux données en continu
Débit élevé
Ruche
Il peut mapper des fichiers de données structurées dans une table de base de données, fournir des fonctions de requête HiveQL simples et convertir les instructions HiveQL en tâches MapReduce à exécuter.
Cochon
Langue latine porcine, un langage de description pour l'analyse des données
Facile à programmer
Facile à optimiser
la flexibilité
Environnement d'exécution du cochon
Cornac
Fournir des algorithmes d’apprentissage automatique évolutifs et leur mise en œuvre
HBase
Base de données de schéma dynamique évolutive, hautement fiable, hautes performances, distribuée et orientée colonnes pour les données structurées
Modèle logique HBase
Modèle physique HBase
Gardien de zoo
simplicité
auto-réplication
accès séquentiel
lecture à grande vitesse
Fluème
Grande fiabilité
Évolutivité
Prise en charge d'une gestion pratique
Prise en charge de la personnalisation des utilisateurs
Squoop
Étincelle
Un bref historique avec Hadoop
caractéristique principale
grande vitesse
Polyvalence
Facilité d'utilisation
Structure technique
la gestion des ressources
Couche centrale d'étincelle
couche de service
Processus de base
Gestion des clusters
Technologie clé
RDD
un ensemble de partitions
Une fonction qui calcule chaque partition
compter sur
Lieu préféré
Partitionneur
Transformation
Action
Planificateur
DAGScheduler est responsable de la création des plans d'exécution
TaskScheduler est responsable de l'attribution des tâches et de la planification de l'exécution des travailleurs.
Mélanger
SparkR
Mappage des types de données
Redéfinition du processus de séance
Fournit plusieurs API
Prise en charge des fonctions d'exécution distribuées personnalisées
Prend en charge une variété d'environnements d'édition et d'exécution de code R
Architecture lambda
NoSQL et NewSQL
Avantages et inconvénients des bases de données relationnelles
Haute cohérence des données
Faible redondance des données
Fortes capacités de requêtes complexes et maturité élevée des produits
Technologie NoSQL
Stockage et traitement des données faciles à décentraliser
Le coût des opérations fréquentes sur les données est faible et le simple traitement des données est très efficace.
Convient aux scénarios d'application où les modèles de données changent constamment
nuage de relations
modèle de données
Distribution des données
Fragmentation
Grande table
réplication maître-esclave
Réplication peer to peer
la cohérence des données
consistance faible
cohérence éventuelle
cohérence des mises à jour
Cohérence en lecture et en écriture
cohérence des sessions
Théorie CAP et principes BASE
application
Un système distribué ne peut pas répondre simultanément aux exigences de cohérence, de disponibilité et de tolérance aux pannes de partition. Il ne peut répondre qu'à deux de ces caractéristiques à la fois.
Principe BASE
Dans les applications pratiques de NoSQL, la cohérence et la disponibilité doivent être pondérées
Vues et vues matérialisées
vue matérialisée
événement déclenché
temps déclenché
Vue matérialisée à l'étape Map
Vue matérialisée de la phase Réduire
Timbre de transaction et de version
mise à jour de l'état
cachet de version
Produits typiques
R et Python
Le langage R prend en charge les calculs vectorisés
Appelez des services de niveau professionnel pour les tâches de science des données via le package R Language R
Les développeurs des packages R grand public sont tous des experts en statistiques, en apprentissage automatique et dans d’autres domaines de données.
Intégration du lac de données et du lac entrepôt
Le lac de données est une approche qui met l'accent sur le stockage des données dans un format naturel et prend en charge la configuration des données dans divers schémas et structures.
base de données
lac de données
Entrepôt de lac de données
tendance de développement
Tendances de développement de la couche informatique des données
Vendre des logiciels, des produits matériels ou des ressources d'information aux utilisateurs
Responsable de la gestion et de la maintenance de leurs équipements logiciels et matériels ou de leurs ressources d'information pour le compte des utilisateurs
Tendances de développement dans la gestion des données
Du perfectionniste de la gestion des données au réaliste
De Schema First à Schema First, Schema Later et Schemaless coexistent.
D’une focalisation sur le traitement complexe à une focalisation sur un traitement simple
De la recherche d’une forte cohérence à la compréhension diversifiée de la cohérence des données
De l'accent mis sur les effets négatifs de la redondance des données à l'accent mis sur les effets positifs de la redondance des données
De la recherche du taux de rappel et du taux de précision à l'accent mis sur la vitesse de réponse aux requêtes
La transition des systèmes de gestion de bases de données en tant que produit aux systèmes de gestion de bases de données en tant que service
De la standardisation de la technologie de gestion des données à la diversification de la technologie de gestion des données
Du recours uniquement à une seule technologie à l’intégration de plusieurs technologies
Plateforme de science des données
Qu'est-ce que le cloud computing
Économie
Calcul puissant
services à la demande
Virtualisation