MindMap Gallery Ingénieur en gouvernance des données DAMA-CDGA-13.
La gestion de la qualité des données signifie que tous les principes de gestion des données doivent contribuer à améliorer la qualité des données, et soutenir l'utilisation par l'organisation de données de haute qualité devrait être l'objectif de tous les principes de gestion des données.
Edited at 2024-03-05 20:31:0413. Qualité des données
introduction
en principe
1. Commencez par les données importantes
2. PDCA
3. Évaluer les dimensions de la gouvernance des données
4. Analyse des causes profondes
5. Rapport sur la qualité des données
Aperçu
La condition préalable pour réaliser la valeur des données est que les données elles-mêmes soient fiables et dignes de confiance. En d’autres termes, les données doivent être de haute qualité.
Tous les principes de gestion des données devraient contribuer à améliorer la qualité des données, et soutenir l'utilisation par l'organisation de données de haute qualité devrait être l'objectif de tous les principes de gestion des données.
Tout comme la gouvernance des données et la gestion globale des données, la gestion de la qualité des données n'est pas un projet mais un effort continu.
moteurs d'activité
inclure
Possibilités d'augmenter la valeur des données organisationnelles et leur utilisation
Réduisez les risques et les coûts causés par des données de mauvaise qualité
Améliorer l’efficacité et la productivité de l’organisation
Protéger et améliorer la réputation de l’organisation
Les organisations qui cherchent à tirer de la valeur de leurs données reconnaissent que les données de haute qualité ont plus de valeur que les données de mauvaise qualité.
Utiliser des données de mauvaise qualité comporte de nombreux risques
Des données de haute qualité ne sont pas une fin en soi ; c'est un moyen de réussite organisationnelle.
Cible
En fonction des besoins des consommateurs de données, développer une approche gérée pour adapter les données aux exigences
Définir des normes et des spécifications pour le contrôle de la qualité des données dans le cadre de l'ensemble du cycle de vie des données
Définir et mettre en œuvre des processus pour mesurer, surveiller et rapporter les niveaux de qualité des données
en principe
importance
La gestion de la qualité des données se concentre sur les données les plus importantes pour l'entreprise et ses clients, et les améliorations doivent être priorisées en fonction de l'importance des données et du niveau de risque si les données sont incorrectes.
Gestion du cycle de vie complet
La gestion de la gouvernance des données doit couvrir l’ensemble du cycle de vie des données, depuis leur création ou leur acquisition jusqu’à leur élimination.
Chaque maillon de la chaîne de données doit garantir que les données produisent un résultat de haute qualité
la prévention
Un programme de qualité des données doit se concentrer sur la prévention des erreurs et des situations qui réduisent la disponibilité des données, et non sur la simple correction des enregistrements.
correction des causes profondes
Améliorer la qualité des données ne se limite pas à corriger les erreurs, car les problèmes de qualité des données sont souvent liés à la conception des processus ou des systèmes. L'amélioration de la qualité des données nécessite souvent de modifier les processus et les systèmes qui les prennent en charge, et pas seulement de les comprendre et de les résoudre.
gouvernance
Les activités de gouvernance des données doivent soutenir le développement de données de haute qualité, et les activités de planification de la qualité des données doivent soutenir et maintenir un environnement de données gouverné.
Pilote standard
Les exigences quantifiables en matière de qualité des données doivent être définies sous la forme de normes et d'attentes mesurables.
Mesure objective et transparence
Les niveaux de qualité des données doivent être mesurés de manière objective et cohérente
Intégrer les processus métier
Les propriétaires de processus métier sont responsables de la qualité des données générées par leurs processus et doivent mettre en œuvre des normes de qualité des données dans leurs processus.
Application du système
Les propriétaires du système doivent appliquer les normes de qualité des données sur le système
associés aux niveaux de service
Les rapports sur la gouvernance des données et la gestion des problèmes doivent être intégrés dans les accords de niveau de service.
concept de base
Qualité des données
fait référence aux caractéristiques pertinentes des données de haute qualité
Fait également référence au processus utilisé pour mesurer et améliorer la qualité des données.
haute qualité
Les données répondent aux besoins des applications des consommateurs de données
basse qualité
Les données ne répondent pas aux besoins des applications des consommateurs de données
La qualité des données dépend du scénario de données et des besoins des consommateurs de données
données clé
La plupart des organisations disposent de grandes quantités de données, mais toutes les données n’ont pas la même importance.
Un principe de la gestion de la qualité des données consiste à concentrer les améliorations sur les données les plus importantes pour l'organisation et les clients.
Cela clarifie la portée du projet et lui permet d'avoir un impact direct et mesurable sur les besoins de l'entreprise.
Évaluer les données clés
Rapports réglementaires
rapport financier
principe des Affaires
Continuer à fonctionner
stratégie d'entreprise
Dimensions de la qualité des données
chiffre
Wang Fort
Thomas Redman
Larry Anglais
Une dimension de qualité des données est une caractéristique mesurable des données
Les dimensions de qualité des données fournissent un ensemble de vocabulaire qui définit les exigences en matière de qualité des données.
Ces définitions de dimensions permettent d'évaluer la qualité initiale des données et l'efficacité des améliorations continues.
Les dimensions sont la base des règles de mesure
Dimensions principales du DAMA
exhaustivité
Volume de données stockées en pourcentage du volume de données potentiel
unicité
Les instances d'entité ne doivent pas être enregistrées plusieurs fois sur la base d'une reconnaissance d'objet satisfaisante.
opportunité
La mesure dans laquelle les données représentent la réalité à partir du moment demandé
efficacité
La donnée est valide si elle est conforme à sa syntaxe définie (format, type, plage)
précision
La mesure dans laquelle les données décrivent avec précision l'objet ou l'événement du « monde réel » décrit
cohérence
Comparez les différences entre plusieurs expressions et définitions de choses
Gouvernance des données et métadonnées
Les métadonnées sont essentielles à la gestion de la qualité des données
La qualité des données dépend de leur capacité à répondre aux besoins des consommateurs de données
La qualité des données consiste à répondre aux attentes, et les métadonnées sont le principal moyen de clarifier les attentes.
Des métadonnées bien gérées peuvent également soutenir les efforts d’amélioration de la qualité des données
Normes ISO de gouvernance des données
Cycle de vie de l’amélioration de la qualité des données
L'amélioration de la qualité des données nécessite d'améliorer la capacité à évaluer la relation entre les entrées et les sorties pour garantir que les entrées répondent aux exigences du processus et que les sorties sont comme prévu.
Phase de planification P
L'équipe de qualité des données évalue la portée, l'impact et la priorité des problèmes connus et évalue les options pour les résoudre.
Cette phase doit reposer sur une base solide consistant à analyser les causes profondes des problèmes, à comprendre les coûts/avantages en termes de causes et d'impacts, à établir des priorités et à élaborer un plan de base pour y remédier.
Phase d'exécution D
L'équipe de qualité des données est chargée de travailler à résoudre la cause profonde du problème et d'élaborer des plans pour une surveillance continue des données.
Vérifier l'étape C
Cette phase comprend une surveillance active de la qualité des données mesurée selon les besoins
Tant que le seuil de qualité défini est atteint, aucune action supplémentaire n'est requise
Si les données tombent en dessous du seuil de qualité acceptable, des mesures supplémentaires doivent être prises pour les amener à un niveau acceptable.
Étape de traitement A
Cette phase fait référence aux activités qui abordent et résolvent les problèmes émergents de qualité des données.
Le cycle recommence à mesure que la cause du problème est évaluée et qu'une solution est proposée.
Amélioration continue en commençant un nouveau cycle
Le nouveau cycle commence
La valeur de mesure existante est inférieure au seuil
De nouveaux ensembles de données sont à l’étude
Nouvelles exigences en matière de qualité des données pour les ensembles de données existants
Changements dans l’activité, les normes ou les attentes
Le coût pour obtenir les bonnes données du premier coup est bien inférieur au coût pour obtenir des données erronées et les corriger.
Le coût de l’introduction dès le départ de la qualité dans un processus de gestion des données est inférieur au coût de sa transformation.
Types de règles métier de qualité des données
Les règles métier de qualité des données décrivent les données utiles et la forme sous laquelle les données sont disponibles au sein de l'organisation.
Ces règles doivent être conformes aux exigences de la dimension qualité et sont utilisées pour décrire les exigences en matière de qualité des données.
Causes courantes des problèmes de qualité des données
Problèmes causés par le manque de leadership
De nombreux problèmes de gouvernance des données sont causés par un manque d’engagement organisationnel en faveur de données de haute qualité, ce qui constitue en soi un manque de leadership en matière de gouvernance et de gestion.
Les obstacles à une gestion efficace de la qualité des données comprennent
Manque de sensibilisation des dirigeants et des employés
manque de gouvernance
Manque de compétences en leadership et en gestion
Difficulté à justifier les améliorations
Les outils de mesure de la valeur sont inappropriés ou ne fonctionnent pas
Problèmes causés par le processus de saisie des données
Problèmes causés par les fonctions de traitement des données
Problèmes causés par la conception du système
Résoudre les problèmes causés par des problèmes
L'analyse des données
Le profilage des données est une forme d'analyse des données utilisée pour examiner les données et évaluer leur qualité.
Le profilage des données utilise des techniques statistiques pour découvrir la véritable structure, le contenu et la qualité des collections de données.
Le moteur de profilage génère des statistiques que les analystes peuvent utiliser pour identifier des modèles dans le contenu et la structure des données.
Par exemple
Nombre de valeurs nulles
Maximum minimum
Longueur Max/Min
Distribution de fréquence des valeurs de colonnes individuelles
Types et formats de données
Bien que le profilage soit un moyen efficace de comprendre les données, il ne constitue que la première étape vers l'amélioration de la qualité des données en permettant aux organisations d'identifier les problèmes potentiels.
La résolution des problèmes nécessite également d'autres formes d'analyse, notamment l'analyse des processus métier, l'analyse du lignage des données et une analyse plus approfondie des données qui peuvent aider à isoler la cause profonde du problème.
Gouvernance des données et traitement des données
Même si les efforts d’amélioration de la gouvernance des données se concentrent sur la prévention des erreurs, la qualité des données peut également être améliorée grâce à une certaine forme de traitement des données.
Nettoyage des données
Le nettoyage des données, ou nettoyage des données, peut transformer les données en conformité avec les normes de données et les règles de domaine.
Le nettoyage implique la détection et la correction des erreurs de données pour amener la qualité des données à un niveau acceptable
La révision continue des données via le nettoyage est un processus coûteux et risqué
Dans un monde idéal, au fil du temps, la cause profonde du problème de données aura été résolue et le besoin de nettoyage des données devrait diminuer.
Dans certains cas, des modifications continues via les systèmes intermédiaires sont également nécessaires car le retraitement des données dans les systèmes intermédiaires est moins coûteux que toute autre alternative.
Chemin
Mettre en œuvre des contrôles pour éviter les erreurs de saisie de données
Corriger les données dans le système source
Améliorer les processus métiers pour la saisie des données
augmentation des données
L'augmentation ou l'enrichissement des données est le processus d'ajout de propriétés à un ensemble de données pour améliorer sa qualité et sa convivialité.
Exemple
Horodatage
L'enregistrement de la date et de l'heure à laquelle un élément de données est créé, modifié ou désactivé permet de suivre les événements de données historiques et permet aux analystes de localiser la plage horaire du problème.
Données d'audit
L'audit peut enregistrer la traçabilité des données, ce qui est important pour le suivi et la vérification de l'historique.
Glossaire de référence
Améliorer la compréhension et le contrôle des données
information contextuelle
Ajoutez des informations contextuelles et des données de balise pour examen et analyse
informations géographiques
Les informations géographiques peuvent être améliorées grâce à la normalisation des adresses et au géocodage, telles que les indicatifs régionaux, les municipalités, les quartiers, la latitude et la longitude.
Informations démographiques
Les données clients peuvent être enrichies d'informations démographiques telles que l'âge, le mariage, le sexe, les revenus, etc.
informations psychologiques
Utilisé pour segmenter les données sur des groupes cibles en fonction de comportements, habitudes et préférences spécifiques
Informations sur l'évaluation
Utilisez cette amélioration pour les évaluations d'actifs, les stocks, les données de ventes, etc.
Analyse et formatage des données
L'analyse des données est le processus analytique d'interprétation du contenu ou des valeurs d'un objet à l'aide de règles prédéterminées.
Tout d'abord, les analystes de données définissent un ensemble de modèles. Ensuite, ces modèles sont enregistrés dans un moteur de règles utilisé pour distinguer les valeurs de données valides et non valides. Le moteur de règles fait correspondre des modèles spécifiques pour déclencher des actions.
Conversion et normalisation des données
Lors d'un traitement normal, les règles de données peuvent être utilisées pour convertir les données dans un format lisible par l'architecture cible.
Activité
Définir des données de haute qualité
Définir la stratégie de qualité des données
Identifier les données clés et les règles métier
Effectuer une première évaluation de la qualité des données
Identifier et prioriser les axes d'amélioration
Définir les objectifs d'amélioration de la qualité des données
Développer et déployer des opérations de qualité des données
Gérer les règles de gouvernance des données
Mesurer et surveiller la qualité des données
Développer des procédures opérationnelles pour gérer les problèmes de données
Élaborer un accord de niveau de service sur la qualité des données
Rédiger des rapports sur la qualité des données
outil
Outils de profilage des données
Les outils de profilage des données génèrent des statistiques de haut niveau qui permettent aux analystes d'identifier des modèles dans les données et de procéder à des évaluations initiales des caractéristiques de qualité.
Les outils de profilage sont particulièrement importants pour les efforts de découverte de données, permettant l'évaluation de grands ensembles de données
Les outils de profilage, améliorés par des capacités de visualisation des données, faciliteront le processus de découverte
Outil de requête de données
Le profilage des données n'est que la première étape de l'analyse des données et permet d'identifier les problèmes potentiels
Les membres de l’équipe chargée de la qualité des données doivent également interroger les données plus en profondeur pour répondre aux questions soulevées par les résultats de l’analyse et trouver des modèles susceptibles de fournir un aperçu des causes profondes des problèmes de données.
Outils de modélisation et ETL
Les outils utilisés pour modéliser les données et créer des processus ETL ont un impact direct sur la qualité des données
L’utilisation de ces outils peut conduire à des données de meilleure qualité si le processus d’utilisation intègre une réflexion sur les données.
S’ils sont utilisés aveuglément sans comprendre les données, ils peuvent avoir des effets néfastes
Les membres de l'équipe chargée de la qualité des données doivent collaborer avec les équipes de développement pour gérer les risques liés à la qualité des données et tirer parti d'outils efficaces de modélisation et de traitement des données pour garantir que l'organisation a accès à des données de meilleure qualité.
Modèle de règle de qualité des données
Les modèles de règles donnent aux analystes la possibilité de saisir les attentes des clients en matière de données et contribuent à combler le fossé de communication entre les équipes commerciales et techniques.
Le développement continu de règles cohérentes simplifie le processus de traduction des exigences métier en code.
référentiel de métadonnées
Définir la qualité des données nécessite des métadonnées, et la définition de données de haute qualité est un moyen de présenter la valeur des métadonnées.
méthode
Précaution
La meilleure façon de créer des données de haute qualité est d’empêcher les données de mauvaise qualité d’entrer dans l’organisation.
Les précautions empêchent les erreurs connues de se produire ; l’examen des données après coup n’améliore pas la qualité.
méthodes de prévention
Établir des contrôles de saisie des données
Formation des producteurs de données
Définir et appliquer des règles
Exiger des fournisseurs de données qu’ils fournissent des données de haute qualité
Mettre en œuvre des systèmes de gouvernance et de gestion des données
Développer un contrôle formel des changements
Action corrective
Lorsqu’un problème survient et est détecté, des actions correctives sont mises en œuvre
Les problèmes de qualité des données doivent être résolus systématiquement et fondamentalement afin de minimiser le coût et le risque des mesures correctives.
Méthodes pour effectuer des corrections de données
correction automatique
La technologie de correction automatique inclut la normalisation, la canonisation et la correction basées sur des règles.
La valeur modifiée est obtenue ou générée automatiquement et soumise sans intervention manuelle.
La correction automatique nécessite un environnement doté de bonnes normes, de règles généralement acceptées et de modèles d'erreur connus
Inspection et correction manuelles
Redressez et corrigez les données à l'aide d'outils automatisés et effectuez un examen humain avant que les corrections ne soient enregistrées dans un stockage persistant.
Les corrections avec des scores supérieurs à un certain niveau de confiance peuvent être soumises sans examen, mais les corrections avec des scores inférieurs au niveau de confiance seront soumises au responsable de la gestion des données pour examen et approbation.
correction manuelle
La correction manuelle est la seule option en cas de manque d’outils, d’automatisation insuffisante ou lorsqu’il est déterminé que les changements peuvent être mieux gérés grâce à la surveillance humaine.
La méthode documentée consistant à modifier et à valider les mises à jour directement dans un environnement de build est très dangereuse et doit être évitée.
Module d'assurance qualité et de révision du code
Créez des modules de code partageables, connectables et réutilisables que les développeurs peuvent extraire du référentiel pour répéter les contrôles de qualité des données et les processus d'audit.
Des modules de code bien conçus peuvent éviter de nombreux problèmes de qualité des données tout en garantissant une exécution cohérente du processus.
Si la loi ou la politique exige la communication de résultats de qualité spécifiques, il est souvent nécessaire de décrire la lignée des résultats, et le module d'inspection de la qualité peut fournir cette fonctionnalité.
Mesures efficaces de gouvernance des données
Mesurabilité
Les mesures de qualité des données doivent être mesurables – elles doivent être quelque chose qui peut être quantifié
pertinence commerciale
Bien que de nombreux éléments soient mesurables, tous ne peuvent pas être convertis en mesures utiles.
Si une mesure ne peut pas être liée à un aspect quelconque des opérations ou des performances de l'entreprise, sa valeur est limitée.
Chaque mesure de qualité des données doit être liée à l'impact des données sur les principales attentes de l'entreprise.
acceptabilité
Déterminer si les données répondent aux attentes de l'entreprise en fonction de seuils d'acceptabilité spécifiés
Si le score est égal ou supérieur au seuil, la qualité des données répond aux attentes de l'entreprise
Si le score est inférieur au seuil, il n'est pas satisfait
Système de responsabilisation/gestion
Avertit les principales parties prenantes lorsque les résultats de mesure d'une mesure indiquent que la qualité ne répond pas aux attentes
Le propriétaire des données commerciales en est responsable et les mesures correctives appropriées sont prises par le responsable de la gestion des données.
Contrôlabilité
Les mesures doivent refléter les aspects contrôlables de l'entreprise
En d’autres termes, si cela sort du champ d’application, cela devrait déclencher des actions pour améliorer les données.
analyse de tendance
Les métriques permettent aux organisations de mesurer les améliorations de la qualité des données au fil du temps
Le suivi aide les membres de l'équipe chargée de la qualité des données à surveiller les activités dans le cadre des SLA de qualité des données et des accords de partage de données et à démontrer l'efficacité des activités d'amélioration.
Une fois le flux d'informations stabilisé, des techniques de contrôle statistique des processus peuvent être utilisées pour détecter les changements et obtenir des changements prévisibles dans les résultats mesurés et les processus techniques étudiés.
Contrôle des processus statistiques
Le contrôle statistique des processus (SPC) est une méthode de gestion des processus en analysant les changements dans les valeurs mesurées des entrées, des sorties ou des étapes du processus.
Basé sur l’hypothèse que lorsqu’un processus avec des entrées cohérentes est exécuté de manière cohérente, il produira des sorties cohérentes. Il utilise des mesures de tendance centrale (la tendance des valeurs d'une variable à se rapprocher de sa valeur centrale, telle que la moyenne, la médiane ou le mode) et de variabilité autour de la valeur centrale (telle que la plage, la variance, l'écart type) pour déterminer la tolérance d'écart. dans un processus
Le principal outil utilisé dans SPC est la carte de contrôle, qui est un graphique de série chronologique comprenant une ligne centrale pour la moyenne (une mesure de la tendance centrale) et des limites de contrôle supérieure et inférieure qui décrivent la mesure (la variabilité autour de la valeur centrale).
Analyse de la cause originelle
Une fois la cause première d’un problème disparue, le problème lui-même disparaîtra également.
Analyste des causes profondes Processus permettant de comprendre les causes d'un problème et son fonctionnement.
Le but est d'identifier les conditions sous-jacentes qui, une fois supprimées, feront disparaître le problème.
Les techniques courantes d'analyse des causes profondes incluent l'analyse de Pareto (règle des 80/20), l'analyse des diagrammes en arête de poisson, le suivi et la traçabilité, l'analyse des processus et 5WHY.
Guide de mise en œuvre
Évaluation de l’état de préparation/évaluation des risques
Changement organisationnel et culturel
Qualité des données et gouvernance des données
système de qualité des données
Métrique
retour sur investissement
niveau de qualité
Tendances en matière de qualité des données
Métriques de gestion des problèmes de données
Cohérence du niveau de service
Diagramme du plan de qualité des données