Galerie de cartes mentales Ingénieur en gouvernance des données DAMA-CDGA-12.
La gestion des métadonnées peut aider les organisations à comprendre leurs propres données, systèmes et processus, tout en aidant les utilisateurs à évaluer la qualité des données. Elle est indispensable à la gestion des bases de données et autres applications. Elle facilite le traitement, la maintenance, l'intégration, la protection et la gouvernance d'autres données. .
Modifié à 2024-03-05 20:29:49Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
12. Gestion des métadonnées
introduction
Aperçu
1. Perspective technique : métadonnées
2. Perspective commerciale : répertoire de ressources de données
3. Répertoire des ressources de données ≠ répertoire des actifs de données
4. Principes de gestion des métadonnées : renvoyer tout ce qui est dû et collecter tout ce qui est dû, c'est-à-dire que le répertoire des ressources doit être complet
définition
est "données de données"
décrire
les données elles-mêmes
Base de données, éléments de données, modèle de données
Concepts de représentation des données
Processus métier, systèmes d'application, code logiciel, infrastructure technique
Connexions entre données et concepts
relation
importance
Les métadonnées peuvent aider les organisations à comprendre leurs propres données, systèmes et processus, tout en aidant les utilisateurs à évaluer la qualité des données. Elles sont indispensables à la gestion des bases de données et d'autres applications.
Il aide à traiter, maintenir, intégrer, protéger et gouverner d’autres données
Sans métadonnées fiables, une organisation ne sait pas de quelles données elle dispose, ce qu'elles représentent, d'où elles proviennent, comment elles circulent dans le système, qui y a accès et ce que signifie maintenir une qualité élevée.
Sans métadonnées, les organisations ne peuvent pas gérer leurs données comme des actifs
En fait, sans métadonnées, les organisations pourraient ne pas être en mesure de gérer leurs données.
moteurs d'activité
La gestion des données nécessite des métadonnées, et les métadonnées elles-mêmes doivent également être gérées
Une bonne gestion des métadonnées aide
Améliorer la fiabilité des données en fournissant du contexte et en effectuant des contrôles de qualité des données
Augmenter la valeur des informations stratégiques, telles que les données de référence, en élargissant leur utilisation
Améliorer l’efficacité opérationnelle en identifiant les données et les processus redondants
Empêcher l’utilisation de données obsolètes ou incorrectes
Réduisez le temps de recherche des données
Améliorer la communication entre les utilisateurs de données et les professionnels de l’informatique
Créer une analyse d'impact précise pour réduire le risque d'échec du projet
Réduisez les délais de mise sur le marché en raccourcissant la durée du cycle de vie du développement du système.
Réduisez les coûts de formation et l’impact du roulement du personnel en documentant de manière exhaustive le contexte, l’historique et la provenance des données.
Respecter la conformité réglementaire
Une mauvaise gestion des métadonnées peut facilement conduire aux problèmes suivants
Données redondantes et processus de gestion des données
Dictionnaires, référentiels et autres magasins de métadonnées en double et redondants
Définitions d’éléments de données incohérentes et risque d’utilisation abusive des données
Les différentes versions des métadonnées sont contradictoires et conflictuelles, ce qui réduit la confiance des utilisateurs de données
Douter de la fiabilité des métadonnées et des données
Une bonne gestion des métadonnées peut garantir une compréhension cohérente des ressources de données ainsi qu’un développement et une utilisation plus efficaces dans les organisations.
objectifs et principes
Objectif ultime : requête et analyse
Cible
Documenter et gérer l'ensemble des connaissances sur les termes commerciaux liés aux données pour garantir que les personnes comprennent et utilisent le contenu des données de manière cohérente.
Collecter et intégrer des métadonnées provenant de différentes sources pour garantir que les gens comprennent les similitudes et les différences entre les données provenant de différentes parties de l'organisation.
Garantir la qualité, la cohérence, l’actualité et la sécurité des métadonnées
Fournir un moyen standard aux consommateurs de métadonnées d'accéder aux métadonnées
Promouvoir ou imposer l'utilisation de normes techniques de métadonnées pour permettre l'échange de données
en principe
L'engagement organisationnel
stratégie
La stratégie de métadonnées doit être alignée sur les priorités de l'entreprise
Point de vue de l'entreprise
Garantir l’évolutivité future du point de vue de l’entreprise, obtenue grâce à une livraison itérative et incrémentielle
Subtilement
Impressionner sa valeur encouragera les entreprises à utiliser les métadonnées tout en fournissant une assistance en matière de connaissances aux entreprises.
accéder
Assurez-vous que les employés comprennent comment accéder et utiliser les métadonnées
qualité
Les métadonnées sont généralement générées via des processus existants (modélisation des données, SDLC, définition des processus métier), le propriétaire du processus est donc responsable de la qualité des métadonnées.
Audit
Développer, mettre en œuvre et réviser les normes de métadonnées pour simplifier l'intégration et l'utilisation des métadonnées
Améliorer
Créer un mécanisme de retour d'information afin que les utilisateurs de données puissent signaler des métadonnées incorrectes ou obsolètes à l'équipe de gestion des métadonnées
concept de base
Métadonnées et données
Les métadonnées sont également une sorte de données et doivent être gérées à l'aide de méthodes de gestion des données.
Type de métadonnées
métadonnées commerciales
Se concentre principalement sur le contenu et les conditions des données, mais inclut également des détails liés à la gouvernance des données
métadonnées techniques
Fournit des informations sur les détails techniques des données, les systèmes dans lesquels les données sont stockées et les processus par lesquels les données circulent au sein et entre les systèmes.
Manipuler les métadonnées
Décrit les détails du traitement et de l'accès aux données
Norme d'enregistrement des métadonnées ISO/IEC11179
Fournit un cadre pour définir l'enregistrement des métadonnées
Métadonnées pour les données non structurées
Essentiellement, toutes les données ont une certaine structure, mais toutes les données ne sont pas enregistrées sous forme de lignes et de colonnes dans la base de données relationnelle familière.
Toutes les données qui ne figurent pas dans une base de données ou un fichier de données sont considérées comme des données non structurées.
inclure
Métadonnées de description
Métadonnées structurelles
Gérer les métadonnées
métadonnées bibliographiques
Enregistrer les métadonnées
Enregistrer les métadonnées
Les organisations qui cherchent à exploiter les lacs de données et à utiliser des plateformes Big Data telles que Hadoop se rendent compte qu'elles doivent cataloguer les données qu'elles collectent afin de pouvoir y accéder ultérieurement.
Dans la plupart des cas, la collecte de métadonnées dans le cadre du processus de collecte de données nécessite la collecte d'un ensemble minimal d'attributs de métadonnées (tels que le nom, le format, la source, la version, la date de réception, etc.) Générer un répertoire pour le contenu du lac de données
Source des métadonnées
Référentiel de métadonnées intégré à l'application
Le référentiel de métadonnées fait référence aux tables physiques qui stockent les métadonnées, souvent intégrées aux outils de modélisation, aux outils BI et à d'autres applications.
glossaire métier
Le but d'un glossaire métier est d'enregistrer et de stocker les concepts commerciaux, les termes, les définitions et les relations entre ces termes.
Comme pour tous les systèmes orientés données, la conception d'un glossaire métier doit prendre en compte le matériel, les logiciels, les bases de données, les processus et les ressources humaines avec différents rôles et responsabilités.
L'application de glossaire métier doit être conçue pour répondre aux exigences fonctionnelles de trois utilisateurs principaux
utilisateur professionnel
Analystes de données, analystes de recherche, gestionnaires et autres personnes qui utilisent des glossaires métier pour comprendre la terminologie et les données
utilisateur technique
Les utilisateurs techniques utilisent le glossaire métier pour concevoir l'architecture, concevoir des systèmes et des décisions de développement et effectuer une analyse d'impact.
Spécialiste de la gestion des données
Les spécialistes de la gestion des données utilisent des glossaires métier pour gérer et définir le cycle de vie des termes et améliorer les connaissances de l'entreprise en reliant les actifs de données au glossaire.
outils de veille économique
Les outils de Business Intelligence génèrent diverses métadonnées liées à la conception de la Business Intelligence
Outils de gestion des configurations
Un outil de gestion de configuration ou une base de données CMDB fournit la fonctionnalité permettant de gérer et de maintenir les métadonnées liées aux actifs informatiques, leurs relations et les détails du contrat des actifs.
Dictionnaire de données
Un dictionnaire de données définit la structure et le contenu d'un ensemble de données, généralement pour une seule base de données, une application ou un entrepôt de données.
Il existe un dictionnaire de données pour chaque base de données et le dictionnaire de données de chaque base de données n'est pas universel.
Outils d'intégration de données
De nombreux outils d'intégration de données utilisent des exécutables pour déplacer des données d'un système à un autre ou entre différents modules au sein du même système.
Gestion de base de données et catalogue système
Les catalogues de bases de données sont une source importante de métadonnées. Ils décrivent le contenu de la base de données, la taille des informations, la version du logiciel et d'autres attributs de métadonnées opérationnelles.
La forme de base de données la plus courante est la base de données relationnelle, qui gère les données sous forme d'un ensemble de tables et de colonnes.
Les solutions de métadonnées doivent pouvoir se connecter à diverses bases de données et ensembles de données et lire toutes les métadonnées exposées par la base de données.
Outil de gestion du mappage de données
Les outils de gestion de cartographie sont utilisés pendant les phases d'analyse et de conception des projets, convertissant les exigences en spécifications de cartographie, qui sont ensuite utilisées directement par les outils d'intégration de données ou utilisées par les développeurs pour générer du code d'intégration de données.
Outils de qualité des données
Les outils de qualité des données évaluent la qualité des données en validant les plans
dictionnaires et répertoires
Les dictionnaires de données et les glossaires contiennent des informations détaillées sur les termes, les tables et les champs, mais les dictionnaires ou les catalogues contiennent des informations sur les systèmes, les sources et les emplacements des données organisationnelles pertinentes.
outil de messagerie événementielle
Les outils de messagerie d'événements déplacent les données entre différents systèmes, nécessitent des métadonnées étendues et génèrent des métadonnées qui décrivent le mouvement.
Outils et référentiels de modélisation
Les outils de modélisation de données sont utilisés pour créer différents types de modèles de données : modèles conceptuels, logiques et physiques.
Base de données de référence
Les données de référence enregistrent la valeur commerciale et la description de divers types de données énumérées à utiliser dans le contexte du système.
Service d'inscription
Autres magasins de métadonnées
Type de schéma de métadonnées
Architecture de métadonnées centralisée
Une architecture de métadonnées centralisée consiste en un référentiel de métadonnées unique qui comprend des copies de métadonnées provenant de sources distinctes.
Les organisations disposant de ressources informatiques limitées, ou celles qui cherchent à automatiser autant que possible, peuvent choisir d'éviter cette option architecturale.
Les organisations qui recherchent un degré élevé de cohérence dans un référentiel de métadonnées public peuvent bénéficier d'une architecture de métadonnées centralisée.
avantage
Hautement disponible car indépendant du système source
Récupération rapide des métadonnées car les fonctions de référentiel et de requête sont réunies
Résout les problèmes de structure de base de données afin qu'ils ne soient pas affectés par des propriétés propres à des tiers ou à des systèmes commerciaux
Lors de l'extraction de métadonnées, vous pouvez les convertir, les personnaliser ou les compléter avec des métadonnées provenant d'autres systèmes sources pour améliorer la qualité des métadonnées.
défaut
Des processus complexes doivent être utilisés pour garantir que les modifications apportées à la source de métadonnées sont rapidement synchronisées avec le référentiel.
Maintenir un référentiel centralisé peut être coûteux
L'extraction des métadonnées peut nécessiter des modules personnalisés ou un middleware
processus
Le référentiel centralisé expose un portail permettant aux utilisateurs finaux de soumettre des requêtes
Le portail de métadonnées transmet la demande au référentiel de métadonnées centralisé, qui répondra à la demande avec les métadonnées collectées
Étant donné que diverses métadonnées sont collectées dans un référentiel centralisé, les métadonnées collectées par divers outils peuvent faire l'objet d'une recherche globale.
Architecture de métadonnées distribuées
Une architecture entièrement distribuée maintient un point d'accès unique
Les moteurs de recherche de métadonnées répondent aux demandes des utilisateurs en récupérant les données des systèmes sources en temps réel
Architecture de métadonnées distribuées sans base de données persistante
avantage
Les métadonnées sont toujours aussi à jour et valides que possible car elles sont récupérées directement à partir de leur source de données
Les requêtes sont distribuées, ce qui améliore potentiellement l'efficacité des réponses et du traitement.
Les demandes de métadonnées provenant de systèmes propriétaires sont limitées au traitement des requêtes sans nécessiter une connaissance détaillée des structures de données propriétaires, minimisant ainsi les efforts requis pour la mise en œuvre et la maintenance.
Le traitement automatisé des requêtes de métadonnées peut être plus simple à développer, ne nécessitant qu'une intervention humaine minimale
Traitement par lots réduit, pas de processus de copie et de synchronisation des métadonnées
défaut
Les éléments de métadonnées définis par l'utilisateur ou insérés manuellement ne peuvent pas être pris en charge car il n'existe aucun référentiel pour placer ces ajouts.
Les métadonnées de différents systèmes doivent être présentées dans une méthode d'affichage unifiée et standardisée
La fonctionnalité de requête est affectée par la disponibilité du système source
La gouvernance des métadonnées dépend entièrement du système source
processus
Il n'y a pas de référentiel de métadonnées centralisé, le portail transmet les requêtes des utilisateurs à l'outil approprié pour exécution
Étant donné que les métadonnées ne sont pas collectées à partir de divers outils pour un stockage centralisé et que chaque demande doit être déléguée au système source, il n'existe aucune possibilité de recherche globale parmi diverses sources de métadonnées.
Architecture de métadonnées hybrides
L'architecture hybride combine les caractéristiques des architectures centralisées et distribuées, les métadonnées se déplacent toujours directement du système source vers le référentiel centralisé, mais la conception du référentiel ne prend en compte que les métadonnées ajoutées par l'utilisateur, les métadonnées standardisées importantes et les métadonnées ajoutées via des sources manuelles.
L'architecture bénéficie d'une récupération et d'une augmentation en temps quasi réel des métadonnées à partir de la source pour répondre au mieux aux besoins des utilisateurs en cas de besoin.
En fonction des priorités et des exigences des utilisateurs, les métadonnées sont utilisées de manière aussi à jour et efficace que possible.
L'architecture hybride n'améliore pas la disponibilité du système
Bénéfique pour les organisations dont les métadonnées opérationnelles évoluent rapidement et qui nécessitent une organisation de métadonnées cohérente et unifiée, et où les métadonnées et les sources de métadonnées connaissent une croissance substantielle.
Pour les organisations disposant de métadonnées essentiellement statiques ou de petits incréments de métadonnées, leur potentiel risque de ne pas être exploité.
Architecture de métadonnées bidirectionnelle
Il permet de modifier les métadonnées dans n'importe quelle partie du schéma (source, intégration de données, interface utilisateur), puis synchronise les modifications du référentiel (agent) vers sa source d'origine pour permettre un retour d'information.
Activité
Définir une stratégie de métadonnées
Comprendre les exigences en matière de métadonnées
Définir le schéma de métadonnées
Créer un métamodèle
La création d'un modèle de données pour un référentiel de métadonnées, également appelé métadonnées, constitue la première étape de conception après la définition d'une stratégie de métadonnées et la compréhension des exigences métier.
Appliquer les normes de métadonnées
Gérer le stockage des métadonnées
Créer et maintenir des métadonnées
Intégrer les métadonnées
Analyse du référentiel de métadonnées Il existe deux manières différentes
interface dédiée
Approche en une seule étape
Le scanner collecte les métadonnées du système source et appelle directement le chargeur spécifique au format pour charger les métadonnées dans le magasin de métadonnées.
Dans ce processus, il n'est pas nécessaire de générer des fichiers de métadonnées intermédiaires, et la collecte et le chargement des métadonnées sont également effectués en une seule étape.
interface semi-privée
Utiliser une approche en deux étapes
Le scanner collecte les métadonnées du système source et les génère dans un fichier de données dans un format spécifique.
Le scanner produit uniquement des fichiers de données que le référentiel cible peut lire et charger correctement
Les fichiers de données peuvent être lus de plusieurs manières, l'architecture de cette interface est donc plus ouverte
Une zone de préparation de métadonnées non persistante peut être utilisée pour stocker des fichiers temporaires et de sauvegarde. La zone de préparation doit prendre en charge le traitement de restauration et de restauration et fournir des informations de piste d'audit temporaires pour aider les administrateurs du référentiel à suivre la source des métadonnées ou des problèmes de qualité.
La zone de stockage temporaire peut se présenter sous la forme d'un répertoire de fichiers ou d'une base de données
Distribuer et livrer des métadonnées
Interroger, rapporter et analyser les métadonnées
outil
Le principal outil de gestion des métadonnées est le référentiel de métadonnées
Les outils de gestion des métadonnées offrent la possibilité de gérer les métadonnées dans un emplacement de référentiel centralisé
Les métadonnées peuvent être saisies manuellement ou extraites de diverses autres sources via des connecteurs spécialisés
Le référentiel de métadonnées fournit également des fonctionnalités permettant d'échanger des métadonnées avec d'autres systèmes.
méthode
Traçabilité des données et analyse d’impact
Un aspect important de la découverte et de l’enregistrement des métadonnées pour les actifs de données est qu’elles fournissent des informations sur la manière dont les données se déplacent entre les systèmes.
La limitation de la création de lignage de données réside dans la couverture du système de gestion des métadonnées
Les référentiels de métadonnées spécifiques à une fonction ou les outils de visualisation de données fournissent des informations sur le lignage des données dans leur périmètre de gestion et ne seront pas en mesure de fournir des informations pertinentes au-delà de leur périmètre de gestion.
Le système de gestion des métadonnées importe le « lignage de mise en œuvre » via des outils qui peuvent fournir des détails sur le lignage des données, et le complète en obtenant des détails de mise en œuvre à partir de fichiers de « lignage de conception » qui ne peuvent pas être automatiquement extraits.
Le processus de jonction des différentes parties du lignage de données est appelé « assemblage », et le résultat de l'assemblage est une vue panoramique qui représente le mouvement des données depuis leur emplacement d'origine jusqu'à leur emplacement final.
Pour réussir à découvrir les relations de parenté entre les données, vous devez prendre en compte à la fois l’orientation commerciale et l’orientation technique.
orientation commerciale
Trouver le lien de sang entre les éléments de données en fonction des priorités de l'entreprise
Remontez depuis l'emplacement cible jusqu'au système source d'où proviennent les données spécifiques.
orientation technologique
Commencez par le système source pour identifier les utilisateurs de données directement liés, puis identifiez les utilisateurs de données indirects jusqu'à ce que tous les systèmes soient identifiés.
Lignage des données
de bas en haut
Analyse d'impact
du haut jusqu'en bas
Métadonnées appliquées à la collecte de Big Data
Qu'elles soient internes ou externes, il n'est pas nécessaire de déplacer les données vers le même emplacement physique
Grâce aux nouvelles technologies, les programmes s'articuleront autour des données plutôt que de les déplacer vers des programmes, ce qui peut réduire de grandes quantités de mouvements de données et augmenter la vitesse d'exécution des programmes.
Guide de mise en œuvre
Évaluation de l’état de préparation/évaluation des risques
Changement organisationnel et culturel
sous-thème
Gouvernance des métadonnées
contrôle de processus
Documentation pour les solutions de métadonnées
Normes et lignes directrices sur les métadonnées
Métrique
Intégrité du référentiel de métadonnées
Maturité de la gestion des métadonnées
Personnel dédié
Utilisation des métadonnées
activités de terminologie commerciale
Conformité des données des services de données de base
Qualité des documents de métadonnées
Disponibilité du référentiel de métadonnées