Galerie de cartes mentales Ingénieur en gouvernance des données DAMA-CDGA-14.
Big Data et science des données : le désir de saisir les opportunités commerciales à partir d'ensembles de données générés par plusieurs processus est le principal moteur commercial pour améliorer les capacités d'une organisation en matière de Big Data et de science des données.
Modifié à 2024-03-05 20:32:22Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
14. Big data et science des données
introduction
Le Big Data ne fait pas seulement référence à la grande quantité de données, mais également à la variété des données et à la vitesse rapide de génération des données.
La BI de business intelligence traditionnelle fournit des rapports « rétroviseur », montrant les tendances passées en analysant des données structurées.
Dans certains cas, les modèles BI sont utilisés pour prédire le comportement futur, mais leur fiabilité n'est pas élevée.
Si vous souhaitez tirer parti du Big Data, vous devez changer la façon dont vous gérez les données
La plupart des entrepôts de données sont basés sur des modèles relationnels, alors que le Big Data n'utilise généralement pas de modèles relationnels pour organiser les données.
La plupart des entrepôts de données s'appuient sur le concept ETL (Extract, Transform, Load)
Les solutions Big Data, telles que les lacs de données, s'appuient sur le concept d'ELT : charger d'abord, puis transformer.
moteurs d'activité
Le désir de saisir les opportunités commerciales générées à partir d'ensembles de données générés par plusieurs processus est le principal moteur commercial pour améliorer les capacités de Big Data et de science des données d'une organisation.
en principe
Les principes liés à la gestion du Big Data doivent encore être formulés, mais une chose est très claire : les organisations doivent gérer soigneusement les métadonnées associées aux sources de Big Data pour permettre une gestion précise de l'inventaire des fichiers de données, de leur origine et de leur valeur.
concept de base
science des données
Les data scientists formulent une hypothèse sur le comportement, c'est-à-dire qu'un comportement spécifique peut être observé dans les données avant l'action spécifique.
Les data scientists analysent ensuite de grandes quantités de données historiques pour déterminer la fréquence à laquelle l'hypothèse s'est réellement produite dans le passé et vérifier statistiquement l'exactitude probable du modèle.
Si une hypothèse est valide à une fréquence suffisamment élevée et que le comportement qu’elle prédit est utile, alors le modèle peut devenir la base d’un processus de renseignement opérationnel visant à prédire le comportement futur, peut-être même en temps réel.
dépend de
Sources de données riches
Organisation et analyse de l’information
livraison d'informations
Présenter les résultats et les informations sur les données
processus de science des données
Définir la stratégie Big Data et les besoins métiers
Sélectionnez la source de données
Collecter et extraire des données
Définir les hypothèses et les méthodes relatives aux données
Intégrer et aligner les données pour l'analyse
Explorer les données à l'aide de modèles
Déployer et surveiller
Big Data
Grande quantité de données
Le Big Data contient souvent des milliers d'entités ou d'éléments dans des milliards d'enregistrements.
Les données sont mises à jour rapidement
Fait référence à la vitesse à laquelle les données sont capturées, générées ou partagées
Différents types de données
Fait référence à la forme de saisie ou de transmission de données
La viscosité des données est élevée
Fait référence à la difficulté d’utiliser ou d’intégrer des données
Les données fluctuent considérablement
Fait référence à la fréquence des modifications des données et à la courte durée de validité des données qui en résulte
Faible précision des données
Fait référence à la faible fiabilité des données
Composants de l'architecture Big Data
La plus grande différence entre DW/BI et le traitement du Big Data est
Dans un entrepôt de données traditionnel, les données sont intégrées (extraites, transformées, chargées) dès leur entrée dans l'entrepôt
Dans un environnement big data, les données sont reçues et chargées (extraites, chargées, transformées) avant d'être intégrées
Sources de mégadonnées
Données structurées Données non structurées
lac de données
Un lac de données est un environnement capable d'extraire, de stocker, d'évaluer et d'analyser des données massives de différents types et structures, et peut fournir une variété d'applications de scénarios.
Par exemple, vous pouvez fournir
Un environnement où les data scientists peuvent extraire et analyser des données
Zone de stockage centralisée pour les données brutes avec une transformation minimale (si nécessaire)
Peu de conversions sont dues à l'ELT
Zone de stockage alternative pour les données historiques détaillées de l'entrepôt de données
Archivage en ligne des enregistrements d'informations
L'environnement dans lequel les données sont extraites peut être identifié grâce à des modèles automatisés
Un lac de données peut être implémenté sous la forme d'une configuration composite d'outils de traitement de données tels que Hadoop ou d'autres systèmes de stockage de données, de services de cluster, de transformation de données ou d'intégration de données.
risque
Le risque avec un lac de données est qu'il peut rapidement se transformer en un marécage de données - désordonné, sale et incohérent.
Afin de créer un inventaire du contenu dans un lac de données, il est essentiel de gérer les métadonnées au fur et à mesure que les données sont ingérées.
architecture basée sur les services
L'architecture basée sur les services devient un moyen de fournir des données immédiatement et d'utiliser la même source de données pour mettre à jour un ensemble de données historiques complet et précis.
L'architecture SBA est quelque peu similaire à l'entrepôt de données
Il envoie les données au magasin de données opérationnel ODS pour un accès immédiat
Dans le même temps, les données seront également envoyées à l'entrepôt de données pour une accumulation historique.
niveau
couche de lots
Les lacs de données servent au traitement par lots, y compris les données récentes et historiques
couche d'accélération
Inclut uniquement les données en temps réel
couche de service
Fournit une interface pour connecter le traitement par lots et les données de la couche d'accélération
Les données sont chargées dans des couches de lots et d'accélération
Tous les calculs analytiques sont effectués sur les données de la couche batch et de la couche d'accélération. Cette conception devra peut-être être mise en œuvre dans deux systèmes indépendants.
La couche batch est souvent appelée le composant structurel qui change au fil du temps (ici chaque transaction est un insert), tandis que dans la couche d'accélération (souvent appelée magasin de données opérationnelles dans ODS), toutes les transactions sont des mises à jour.
Cette architecture évite les problèmes de synchronisation en créant simultanément des couches d'état actuel et d'historique.
apprentissage automatique
enseignement supervisé
est basé sur des théories mathématiques complexes, notamment les statistiques, la combinatoire et la recherche opérationnelle
La transmission est basée sur des règles (telles que la séparation des e-mails SPAM des e-mails non-SPAM)
apprentissage non supervisé
exploration de données
Basé sur la découverte de ces modèles cachés
Améliorer l'apprentissage
Optimisation des objectifs réalisée sans l'adhésion des enseignants
Analyse sémantique
La surveillance des médias et l'analyse de texte sont des méthodes automatisées permettant de récupérer et d'obtenir des informations à partir de grandes quantités de données non structurées ou semi-structurées afin de déterminer ce que les gens ressentent et pensent à propos d'une marque, d'un produit, d'un service ou d'un autre type de sujet.
Utilisez le traitement du langage naturel (NLP) pour analyser des phrases courtes ou des phrases afin de détecter des émotions et de révéler des changements dans les émotions afin de prédire des scénarios possibles.
Exploration de données et de textes
L'exploration de données est une méthode d'analyse spéciale qui utilise divers algorithmes pour révéler des modèles dans les données.
C'était à l'origine une branche de l'apprentissage automatique et un sous-domaine de l'intelligence artificielle.
Les outils de requête et de reporting standardisés peuvent identifier des problèmes spécifiques, tandis que les outils d'exploration de données aident à découvrir des relations inconnues en révélant des modèles.
L'exploration de texte utilise la technologie d'analyse de texte et d'exploration de données pour analyser les documents, classer automatiquement le contenu et devenir une ontologie de connaissances orientée workflow et expert du domaine.
Les supports texte électroniques peuvent donc être analysés sans reconstruction ni formatage
technologie
Analyser
Tentative de description du comportement classique d'un individu, d'un groupe ou d'une foule, utilisée pour établir des normes comportementales pour les applications de détection d'anomalies
Les résultats du profilage sont intégrés à de nombreux composants d'apprentissage non supervisés
Réduction de donnée
consiste à remplacer un grand ensemble de données par un ensemble de données plus petit
Les petits ensembles de données contiennent la plupart des informations contenues dans les grands ensembles de données
Les ensembles de données plus petits sont plus faciles à analyser ou à manipuler
association
La corrélation est un processus d'apprentissage non supervisé qui étudie les éléments impliqués dans une transaction et trouve la corrélation entre eux.
Par exemple, les recommandations Internet
regroupement
Regrouper les éléments de données dans différents clusters en fonction de leurs caractéristiques communes
Par exemple, la segmentation des clients
carte auto-organisée
Analyses prédictives
L'analyse prédictive est développée sur la base de modèles probabilistes d'événements et de variables possibles qui déclenchent des réponses organisationnelles lorsqu'elle reçoit des informations supplémentaires.
La forme la plus simple d'un modèle prédictif est une estimation
analyse normative
Allant plus loin que l'analyse prédictive, elle définit les actions qui affecteront les résultats plutôt que de simplement prédire les résultats sur la base d'actions déjà survenues.
L'analyse prescriptive prédit ce qui se passera, quand cela se produira, et suggère pourquoi cela se produira
L’analyse prescriptive pouvant montrer les implications de diverses décisions, elle peut suggérer comment exploiter les opportunités ou éviter les risques.
Analyse de données non structurées
L'analyse des données non structurées devient de plus en plus importante à mesure que davantage de données non structurées sont générées
Certaines analyses ne peuvent être effectuées sans incorporer des données non structurées dans le modèle analytique
Mais l’analyse de données non structurées peut également s’avérer très difficile sans un moyen d’isoler les éléments intéressants des éléments non pertinents.
L'analyse et le balisage sont une méthode permettant d'ajouter des « hooks » aux données non structurées, permettant un filtrage connecté des données de schéma associées.
analyse opérationnelle
Également connu sous le nom de BI opérationnelle ou d'analyse en continu, le concept naît de l'intégration de processus opérationnels avec des analyses en temps réel.
L'analyse opérationnelle comprend le suivi et l'intégration des flux d'informations en temps réel, le tirage de conclusions basées sur des modèles de prédiction comportementale et le déclenchement de réponses et d'alertes automatisées.
Les solutions d'analyse opérationnelle incluent la préparation des données historiques nécessaires pour alimenter les modèles comportementaux
visualisation de données
La visualisation est le processus d'explication de concepts, d'idées et de faits à l'aide d'images ou de représentations graphiques.
Compresser et encapsuler les données des fonctionnalités pour faciliter la visualisation
Les visualisations peuvent être dans un format statique (comme un rapport publié) ou nécessiter des moyens créatifs pour adapter la visualisation
Application composite de données
Rassemblez les données et les services pour afficher visuellement des informations ou des résultats d'analyse.
Activité
Définir la stratégie Big Data et les besoins métiers
Critères d'évaluation stratégique
Quel problème l’organisation essaie-t-elle de résoudre et que doit-il analyser ?
Quelle est la source de données à utiliser ou à obtenir
Fournir l’actualité et la portée des données
Effets et dépendances sur d'autres structures de données
Impact sur les données de modélisation existantes
Sélectionnez la source de données
Obtenir et recevoir des sources de données
Développer des hypothèses et des méthodes de données
Intégrer et aligner les données pour l'analyse
Explorer les données à l'aide de modèles
Remplir le modèle prédictif
Modèle de formation
Modèle d'évaluation
Créer des visualisations de données
Déployer et surveiller
Révéler des idées et des découvertes
Itérer en utilisant des sources de données supplémentaires
outil
MPP n'a rien partagé en matière de technologie et d'architecture
Base de données distribuée basée sur des fichiers
Algorithme dans la base de données
Solution cloud de mégadonnées
Langages de calcul statistique et graphiques
Ensemble d'outils de visualisation de données
méthode
Modélisation analytique
Modélisation des mégadonnées
Guide de mise en œuvre
cohérence stratégique
Évaluation de l’état de préparation/évaluation des risques
Changements organisationnels et culturels
Gouvernance du Big Data et de la science des données
Gestion des canaux visuels
Normes de science des données et de visualisation
Sécurité des données
Métadonnées
Qualité des données
Métrique
Métriques d'utilisation technique
Indicateurs de chargement et de numérisation
Scénarios d’apprentissage et d’histoire