Galerie de cartes mentales Ingénieur en gouvernance des données DAMA-CDGA-8.
L'intégration et l'interopérabilité des données décrivent les processus impliqués dans le déplacement et l'intégration des données au sein et entre différents magasins de données, applications et organisations.
Modifié à 2024-03-05 20:24:30Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
8. Intégration et interopérabilité des données
introduction
définition
Intégration et interopérabilité des données
L'intégration et l'interopérabilité des données décrivent le processus de déplacement et d'intégration des données au sein et entre différents magasins de données, applications et organisations.
intégration de données
Il s’agit de l’intégration de données dans un format cohérent physique ou virtuel.
Interopérabilité des données
Est-ce la capacité de communiquer entre plusieurs systèmes
Critique pour l'entrepôt de données, la BI, les données de référence et les données de référence
Parce qu'ils se concentrent sur la transformation et l'intégration des données depuis les systèmes sources vers le centre de données, du centre de données vers le système cible, et finalement jusqu'au consommateur.
C’est le cœur du domaine de la gestion du Big Data.
Le Big Data vise à intégrer différents types de données
Comprend des données structurées stockées dans une base de données
Données texte non structurées stockées dans des documents ou des fichiers
et d'autres types de données non structurées, telles que l'audio, la vidéo, les données en streaming, etc.
Intégrez-vous au mien, développez des modèles prédictifs et utilisez-les dans des activités de renseignement opérationnel
moteurs d'activité
L'objectif principal de l'intégration et de l'interopérabilité des données est de gérer efficacement le mouvement des données.
Pour les entreprises, la gestion de la complexité et des coûts associés à l'intégration des données est une raison pour construire une architecture d'intégration de données.
Gérer la complexité de l’intégration des données
La conception d'intégration de données de niveau entreprise est bien plus efficace que les solutions disparates ou point à point
Les solutions point à point entre applications peuvent créer des milliers d'interfaces et les organisations peuvent rapidement se retrouver dépassées.
Frais de maintenance et de gestion
Lorsque plusieurs technologies sont utilisées pour déplacer des données, chaque technologie nécessite des coûts de développement et de maintenance spécifiques, ce qui entraîne une augmentation des coûts de support.
L'application d'outils standard peut réduire les coûts de maintenance et de main d'œuvre et améliorer l'efficacité du travail de dépannage.
objectifs et principes
Cible
Fournir des données en temps opportun et dans le format dont les consommateurs ont besoin
Consolidez les données physiquement ou virtuellement dans le centre de données
Réduisez le coût et la complexité des solutions de gestion en développant des modèles et des interfaces partagés
Identifiez les événements significatifs, déclenchez automatiquement des alarmes et agissez
Soutenir la business intelligence, l’analyse des données, la gestion des données de référence et l’amélioration de l’efficacité opérationnelle
en principe
Adopter une perspective d'entreprise pour garantir une conception d'évolutivité future, rendue possible par une livraison itérative et incrémentielle
Équilibrez les besoins en données locales avec les besoins en données de l'entreprise, y compris le support et la maintenance.
Assurer la fiabilité des conceptions et des activités d’intégration et d’interopérabilité des données
concept de base
Extraire, convertir, charger
Aperçu
1. Objectif ETL : entrez dans l'entrepôt de données avec des objectifs clairs
2. Données structurées : entrez dans l'entrepôt de données
3. Entrepôt de données : le but ultime est la BI
Au cœur de l'intégration et de l'interopérabilité des données se trouve le processus de base d'extraction, de transformation et de chargement (ETL)
Qu'elles soient physiques ou virtuelles, par lots ou en temps réel, la réalisation d'ETL est une étape nécessaire dans le flux de données entre les applications et les organisations.
effet
Peut être exécuté comme un événement régulièrement planifié (traitement par lots)
Les données requises pour l'analyse ou le reporting se trouvent généralement dans un travail par lots
Peut être exécuté lorsque de nouvelles données ou des données sont mises à jour (en temps réel ou basées sur des événements)
Le traitement des données opérationnelles s'effectue souvent en temps réel ou quasi-réel
extrait
Comprend la sélection des données requises et leur extraction de leurs données sources
Les données extraites sont ensuite stockées dans un référentiel de données physique sur disque ou en mémoire.
Convertir
Est de rendre les données sélectionnées compatibles avec la structure de la base de données cible
Modifications de format
Conversion de format technique
Tels que la conversion de format d'EBCDIC en ASCII
changements structurels
Modifications de la structure des données
Des enregistrements dénormalisés aux enregistrements normalisés
Changements sémantiques
Maintenir une expression cohérente de la sémantique lors de la conversion des valeurs de données
0, 1, 2, 3 → INCONNU, FEMELLE, MÂLE, NON FOURNI
Éliminer les doublons
Si une règle nécessite une clé ou un enregistrement unique, assurez-vous d'inclure un moyen d'analyser la cible, de détecter et de supprimer les lignes en double.
réarranger
Modifier l'ordre des éléments de données ou des enregistrements pour les adapter à un schéma défini
Peut être exécuté par lots ou en temps réel
Ou stockez les résultats de la conversion dans la zone de cache à l'état physique
Ou stockez les données converties en mémoire dans un état virtuel
jusqu'à passer à l'étape de chargement
charger
Stocker ou présenter physiquement les résultats de la conversion sur le système cible
Extraire, charger, convertir
Aperçu
1. Objectif ELT : en entrant dans le lac de données, le scénario commercial n'est pas clair
2. Données structurées et données non structurées : les deux peuvent entrer dans le lac de données
3. Data Lake : le but ultime est l'IA
Si le système cible a des capacités de conversion plus fortes que le système source ou le système d'application intermédiaire, la séquence de traitement des données peut être commutée sur ELT --- extraction, chargement, conversion.
ELT permet aux données d'être chargées dans le système cible avant d'être converties
ELT permet aux données sources d'être instanciées sur le système cible sous forme de données brutes, ce qui est bénéfique pour d'autres processus.
Chargement dans le lac de données à l'aide d'ELT, ce qui est courant dans les environnements Big Data
cartographie
est synonyme de transformation, à la fois le processus de construction d'une matrice de recherche d'une structure source à une structure cible et le résultat de ce processus
Définit les données source à extraire et les règles d'identification des données extraites, les règles d'identification de la cible à charger et des lignes cibles à mettre à jour, ainsi que les règles de transformation ou de calcul à appliquer.
Retard
définition
Fait référence au décalage horaire entre le moment où les données sont générées par le système source et le moment où les données sont disponibles sur le système cible.
Différentes méthodes de traitement des données entraîneront différents degrés de retard des données
très haut
Le traitement par lots
plus haut
événementiel
très lent
Synchronisation en temps réel
Le traitement par lots
Les données sont déplacées entre les applications et les organisations par lots de fichiers, soit sur la base de demandes manuelles des consommateurs de données, soit automatiquement déclenchées de manière périodique. Ce type d'interaction est appelé traitement par lots ou ETL
Les données déplacées en mode batch représenteront toutes les données à un moment donné
Cet ensemble de données est appelé un incrément, et les données à un certain moment sont appelées un instantané.
Pour les solutions d'intégration de données par lots, il existe souvent un délai important entre les modifications des données dans la source et les mises à jour des données dans la cible, ce qui entraîne une latence élevée de
Micro-batching
L'intégration de données par lots peut être utilisée pour la transformation, la migration et l'archivage des données, ainsi que pour l'extraction et le chargement de données à partir d'entrepôts de données et de data marts.
Demande au lot de s'exécuter plus fréquemment que les mises à jour quotidiennes
opportunité
Le timing du traitement par lots peut être risqué
Pour minimiser les problèmes de mise à jour des applications, le déplacement des données peut être programmé pour se produire à la fin du traitement logique, pendant la journée ou la nuit.
Modifier la capture de données
Il s'agit d'une méthode permettant de réduire les besoins en bande passante de transmission en ajoutant un filtrage pour inclure uniquement les données qui ont changé au cours d'une plage de temps spécifique.
La capture des données modifiées surveille les modifications (insertions, modifications, suppressions) apportées à un ensemble de données, puis communique ces modifications (deltas) à d'autres ensembles de données, applications et organisations qui consomment les données.
Dans le cadre du processus de capture des données modifiées, les données peuvent également être étiquetées avec des identifiants tels que des balises ou des horodatages.
La capture des données modifiées peut être basée sur des données ou sur des journaux
Basé sur des données
Le système source remplit des éléments de données spécifiques
Par exemple, une gamme d'horodatages, de codes et d'indicateurs, qui peuvent tous servir d'indicateurs de changement.
Les processus du système source sont ajoutés à une simple liste d'objets et d'identifiants lors de la modification des données, qui est ensuite utilisée pour contrôler la sélection des données extraites.
Le système source copie les données modifiées
Basé sur les journaux
Le système de gestion de base de données crée un journal de l'activité des données qui est copié et traité, puis recherche les modifications spécifiques qui sont traduites et appliquées à la base de données cible.
En temps quasi réel et piloté par les événements
La plupart des solutions d'intégration de données qui n'adoptent pas une approche par lots utilisent une approche en temps quasi réel ou basée sur les événements.
Les données sont traitées dans des ensembles plus petits selon un calendrier spécifique ou lorsque des événements se produisent, tels que des mises à jour de données.
Le traitement en temps quasi réel a une latence inférieure à celle du traitement par lots
Et comme le travail est réparti dans le temps, la charge du système est moindre
Cependant, elle est généralement plus lente que l'intégration de données synchrone.
Les solutions d'intégration de données en temps quasi réel sont souvent mises en œuvre à l'aide d'un bus de services d'entreprise.
asynchrone
Dans un flux de données asynchrone, le système fournissant les données n'attend pas que le système récepteur confirme la mise à jour avant de poursuivre le traitement.
Asynchrone signifie que le système d'envoi ou de réception peut être hors ligne pendant un certain temps pendant que l'autre système fonctionne normalement.
L'intégration de données asynchrones n'empêche pas l'application du système source de continuer à s'exécuter et n'entraîne pas non plus l'indisponibilité de l'application source si une application cible est indisponible.
Étant donné que les mises à jour des données de l'application dans une configuration asynchrone ne sont pas ponctuelles, on parle d'intégration en temps quasi réel.
temps réel, synchrone
Il existe des situations dans lesquelles les retards ou autres différences entre les données source et cible ne sont pas autorisés.
Lorsque les données d’un jeu de données doivent être parfaitement synchronisées avec les données d’un autre jeu de données, une solution de synchronisation en temps réel doit être utilisée
Dans une solution d'intégration synchrone, l'exécution attend la confirmation d'autres applications ou processus avant d'exécuter l'activité ou la transaction suivante.
Parce qu'il faut passer du temps à attendre la confirmation de la synchronisation des données, cela signifie que la solution ne peut gérer que moins de transactions.
Si une application devant mettre à jour les données est dans un état indisponible, les transactions au sein de l'application ne peuvent pas être effectuées.
Faible latence ou traitement de flux
Solution d'intégration de données à faible latence conçue pour réduire les temps de réponse aux incidents
Utiliser un disque SSD
Réduisez la latence de lecture et d’écriture
Solution asynchrone
Généralement utilisé dans les solutions à faible latence, de sorte qu'il n'est pas nécessaire d'attendre l'accusé de réception des processus suivants avant de traiter les données suivantes.
Multiprocesseur massif ou traitement parallèle
C'est également une configuration courante pour une faible latence
copie
Pour offrir de meilleurs temps de réponse aux utilisateurs du monde entier, certaines applications conservent des copies exactes de leurs ensembles de données sur plusieurs emplacements physiques.
La technologie de réplication minimise l'impact des analyses et des requêtes sur les performances de l'environnement d'exploitation des transactions principales.
Par conséquent, la synchronisation des données doit être effectuée sur chaque copie physiquement distribuée de l'ensemble de données.
Solution de copie
Surveillez généralement le journal des modifications d'un ensemble de données plutôt que l'ensemble de données lui-même
Parce qu'ils ne concurrencent pas les applications pour l'accès aux ensembles de données, ils minimisent l'impact sur toute application opérationnelle.
Seules les données du journal des modifications sont transférées entre les répliques
Les solutions de réplication standard fonctionnent quasiment en temps réel
Les outils de réplication fonctionnent mieux lorsque les ensembles de données source et cible sont des copies exactes l'un de l'autre.
Si des modifications de données se produisent sur plusieurs sites de réplication, une solution de réplication n'est pas le meilleur choix.
Archive
Les données rarement utilisées peuvent être déplacées vers une autre structure de données ou une solution de stockage moins coûteuse pour l'organisation.
La fonctionnalité ETL est utilisée pour archiver les données et potentiellement les transformer en structures de données dans l'environnement d'archivage
Il est important de surveiller la technologie d'archivage pour garantir que les données restent accessibles à mesure que la technologie évolue.
Format de message d'entreprise/format canonique
KAFUKA
Un modèle de données normalisé est un modèle commun utilisé par une organisation ou une équipe d'échange de données pour normaliser les formats de partage de données.
Convertir les données du système d'envoi vers le système de réception selon des formats de message courants ou spécifiés par l'entreprise.
L'utilisation de formats normalisés réduit la quantité de traduction de données entre les systèmes ou les organisations
Chaque système doit uniquement convertir les données dans un format canonique central, plutôt que dans de nombreux formats système.
modèle d'interaction
Le modèle d'interaction décrit la manière dont les connexions sont établies entre les systèmes pour transférer des données.
point à point
La grande majorité des interactions entre les systèmes de données partagés sont « point à point », où ils se transmettent des données directement.
Ce modèle fonctionne dans le contexte d'un petit ensemble de systèmes
Mais lorsque de nombreux systèmes nécessitent les mêmes données provenant de la même source, cela devient inefficace et augmente le risque organisationnel.
Traitement des impacts
Si le système source est opérationnel, la charge de travail liée à la fourniture des données peut avoir un impact sur le traitement des transactions.
Interface de gestion
Le nombre d'interfaces requises pour un modèle d'interaction point à point est proche du carré des données du système
Une fois ces interfaces établies, elles doivent être maintenues et prises en charge
La charge de travail liée à la gestion et au support des interfaces entre les systèmes peut rapidement devenir supérieure au support des systèmes eux-mêmes.
incohérences potentielles
Des problèmes de conception surviennent lorsque plusieurs systèmes nécessitent des versions ou des formats de données différents
L'utilisation de plusieurs interfaces pour obtenir des données peut entraîner l'envoi de données incohérentes aux systèmes en aval.
en étoile
Il consolide les données partagées (physiques ou virtuelles) dans un centre de données central que les applications peuvent utiliser
Tous les systèmes qui souhaitent échanger des données le font via un contrôle de données commun central, plutôt que directement avec d'autres systèmes (point à point).
Les entrepôts de données, les datamarts, les magasins de données opérationnels et les centres de gestion des données de référence sont tous des exemples de centres de données.
Le centre de données offre une vue cohérente des données avec un impact limité sur les performances du système source
L'ajout de systèmes au mix nécessite uniquement la création d'interfaces avec le centre de données
Enterprise Service Bus (ESB) est une solution d'intégration de données permettant de partager des données en temps quasi réel entre plusieurs systèmes. Son centre de données est un concept virtuel qui représente un format standard et standardisé pour le partage de données dans une organisation.
Certains modèles en étoile présentent des problèmes de latence ou de performances inacceptables.
Le centre de données lui-même assume la charge de création dans une architecture en étoile
Abonnez-vous et publiez
Le modèle de publication et d'abonnement implique des systèmes qui promeuvent (publient) des données et d'autres systèmes qui acceptent (souscrivent) des données.
Les systèmes qui transmettent des données sont répertoriés dans le catalogue des services de données, et les systèmes qui souhaitent utiliser les données s'abonnent à ces services.
Lors de la publication de données, les données seront automatiquement envoyées aux utilisateurs abonnés
Concepts d’architecture d’intégration et d’interopérabilité des données
couplage d'applications
Le couplage décrit le degré d'imbrication de deux systèmes
Couplage étroit
Deux systèmes étroitement couplés ont souvent une interface de synchronisation où un système attend une réponse de l'autre système.
Représente le risque opérationnel
Si une partie n'est pas disponible, aucune des deux parties n'est réellement disponible et les plans de continuité d'activité des deux systèmes doivent être cohérents.
couplage lâche
est une conception d'interface optimale
Transférez des données entre les systèmes sans attendre de réponse, et l'indisponibilité d'un système ne rend pas l'autre système indisponible
Un couplage lâche peut être réalisé à l'aide de diverses technologies telles que des services, des API ou des files d'attente de messages.
L'architecture orientée services basée sur EBS est un exemple de modèle de conception d'interaction de données faiblement couplée.
Orchestration et contrôle des processus
Organiser
Utilisé pour décrire comment organiser et exécuter plusieurs processus liés dans un système
Tous les systèmes qui traitent des messages ou des datagrammes doivent être capables de gérer l'ordre dans lequel ces processus sont exécutés pour maintenir la cohérence et la continuité.
contrôle de processus
Est le composant qui garantit une livraison, une planification, une extraction et un chargement précis et complets des données.
Intégration d'applications d'entreprise
Dans le modèle d'intégration d'applications d'entreprise EAI, les modules logiciels interagissent uniquement via des appels d'interface bien définis (API d'interface de programmation d'application).
Le stockage des données ne peut être mis à jour que via son propre module logiciel. Les autres logiciels ne peuvent pas accéder directement aux données de l'application, uniquement via l'API définie.
EAI est basé sur des concepts orientés objet, qui mettent l'accent sur la capacité de réutiliser et de remplacer n'importe quel module sans affecter aucun autre module.
bus de service d'entreprise
Il agit comme intermédiaire entre les systèmes, délivrant des messages entre eux
Les applications peuvent encapsuler les messages ou fichiers envoyés et reçus grâce aux capacités existantes de l'ESB.
À titre d'exemple de couplage lâche, l'ESB agit comme un service entre deux applications
architecture orientée services
Les données push ou les données de mise à jour peuvent être fournies via des appels de service bien définis entre les applications
Les applications n'ont pas besoin d'interagir directement avec d'autres applications ni de comprendre le fonctionnement interne d'autres applications.
Prend en charge l'indépendance des applications et la capacité de l'organisation à remplacer les systèmes sans apporter de modifications significatives aux systèmes avec lesquels ils interagissent.
Le but de SOA est de définir des interactions bien définies entre des modules logiciels indépendants
Chaque module peut être utilisé par d'autres modules logiciels ou par des consommateurs individuels pour exécuter des fonctions (fournir des fonctionnalités)
Le concept clé de SOA est qu'un service indépendant est fourni : le service n'a aucune connaissance préalable de l'application appelante et la mise en œuvre du service est une boîte noire pour l'application appelante.
La SOA peut être mise en œuvre via diverses technologies telles que les services Web, la messagerie et les API.
Gestion d'événements complexes
Le traitement des événements est une méthode de suivi et d'analyse (traitement) du flux d'informations sur un événement qui se produit et d'en tirer des conclusions.
Le traitement d'événements complexes fait référence à la fusion de données provenant de plusieurs sources, à l'identification d'événements significatifs, à la définition de règles pour ces événements afin de guider le traitement et le routage des événements, puis à la prévision des comportements ou des activités, et au déclenchement automatique de réponses en temps réel en fonction des résultats prédits.
Tels que les opportunités de vente, les clics sur le Web, les commandes et les appels des clients, etc.
Le traitement d'événements complexes nécessite un environnement capable d'intégrer différents types de données
Étant donné que les prédictions impliquent souvent de grandes quantités de données de différents types, le traitement d'événements complexes est souvent associé au Big Data.
Le traitement d'événements complexes nécessite souvent l'utilisation de technologies prenant en charge une latence ultra faible, telles que le traitement des données en streaming en temps réel et des bases de données en mémoire.
Fédération de données et virtualisation
Lorsque les données existent dans différents référentiels de données, elles peuvent également être agrégées par des moyens autres que l'intégration physique
La fédération de données donne accès à une combinaison de référentiels de données indépendants quelles que soient leurs structures respectives
La virtualisation des données permet d'accéder et de visualiser des bases de données distribuées ainsi que plusieurs magasins de données hétérogènes comme une seule base de données.
données en tant que service
Logiciel en tant que ServiceSaaS
est un modèle de livraison et de licence
Les applications sous licence fournissent des services, mais les logiciels et les données sont situés dans des centres de données contrôlés par l'éditeur de logiciels plutôt que dans les centres de données de l'organisme de licence.
Fournir différents niveaux d'infrastructure informatique en tant que service (IT en tant que service IaaS, plateforme en tant que service PaaS, base de données en tant que service DBaaS)
Les données en tant que ServiceDaaS
Les données sont sous licence auprès d'un fournisseur et fournies par celui-ci sur demande, plutôt que de stocker et de conserver les données dans le centre de données de l'organisation agréée.
Intégration cloud
Avant le cloud computing, l'intégration pouvait être divisée en intégration interne et intégration inter-entreprises B2B
Intégration interne
Les services sont fournis via une plate-forme middleware interne, utilisant souvent un bus de services ESB pour gérer l'échange de données entre les systèmes.
intégration inter-entreprises
Réalisé via une passerelle EDI d'échange de données informatisées et un réseau à valeur ajoutée VAN
Intégration cloud
Généralement exécuté en tant qu'application SaaS dans le centre de données du fournisseur plutôt qu'au sein de l'organisation propriétaire des données intégrées.
normes d'échange de données
Les normes d'interaction des données sont des règles formelles pour la structure des éléments de données
Les modèles d'échange définissent les structures de transformation de données requises par tout système ou organisation pour échanger des données.
Les données doivent être mappées dans la spécification d'échange
S'entendre sur un format d'échange ou une disposition des données cohérents entre les systèmes peut grandement simplifier le processus de partage des données dans l'entreprise, réduisant ainsi les coûts de support et permettant aux employés de mieux comprendre les données.
Le National Information Exchange Model (NIEM) est une norme d'échange de données développée pour l'échange de documents et de transactions entre les agences gouvernementales américaines.
Activité
planification et analyse
Définir les exigences en matière d'intégration des données et de cycle de vie
Définir les exigences en matière d'intégration de données implique de comprendre les objectifs commerciaux de l'organisation, ainsi que les données et les options technologiques recommandées nécessaires pour atteindre ces objectifs.
Lois ou réglementations pertinentes qui exigent également la collecte de ces données
Le processus de définition des exigences crée et découvre des métadonnées précieuses
Plus les métadonnées d'une organisation sont complètes et précises, plus grande est sa capacité à gérer les risques et les coûts d'intégration des données.
Effectuer une exploration des données
L'exploration des données doit avoir lieu avant la conception
L'objectif de l'exploration des données est d'identifier des sources de données potentielles pour les efforts d'intégration de données.
L'exploration des données permettra d'identifier où les données peuvent être obtenues et où elles peuvent être intégrées.
Le processus combine des recherches techniques avec une expertise en la matière à l'aide d'outils qui analysent les métadonnées et le contenu réel des ensembles de données d'une organisation.
L'exploration des données comprend également un travail d'évaluation de haut niveau sur la qualité des données afin de déterminer si les données sont adaptées aux objectifs du plan d'intégration.
Enregistrer le traçage des données
Le processus d'exploration des données révélera également des informations sur la façon dont les données circulent dans une organisation.
Ces informations peuvent être utilisées pour documenter le lignage des données de haut niveau : comment les données ont été acquises ou créées par l'organisation, comment elles ont été déplacées et modifiées au sein de l'organisation, et comment elles ont été utilisées par l'organisation à des fins d'analyse, de prise de décision ou d'événement. déclenchement
Un lignage des données bien documenté peut inclure les règles selon lesquelles les données sont modifiées et la fréquence à laquelle elles sont modifiées.
Le processus d'analyse peut également offrir des opportunités d'améliorer les flux de données existants
La détection et l'élimination de ces inefficacités ou configurations inefficaces peuvent grandement contribuer à la réussite du projet et améliorer la capacité globale d'une organisation à utiliser ses données.
Analyser les données
Comprendre le contenu et la structure de vos données est essentiel pour réussir avec votre ensemble de données
Le profilage des données contribue à atteindre cet objectif
Si le processus de profilage des données est ignoré, certaines informations affectant la conception risquent de ne pas être découvertes avant les tests ou l'exploitation réelle.
L'un des objectifs du profilage est d'évaluer la qualité des données
Tout comme l'exploration avancée des données, le profilage des données implique la validation d'hypothèses sur les données par rapport aux données réelles.
Recueillir les règles métier
Les règles métier sont un sous-ensemble clé d'exigences, des déclarations qui définissent ou limitent certains aspects du traitement métier.
Les règles métier sont conçues pour maintenir la structure de l'entreprise et contrôler ou influencer le comportement de l'entreprise.
Concevoir des solutions d'intégration de données
Concevoir des solutions d'intégration de données
Les solutions d'intégration de données doivent être envisagées à la fois au niveau de l'entreprise et des solutions individuelles.
L'établissement de normes d'entreprise permet aux organisations de gagner du temps en mettant en œuvre des solutions individuelles
Sélectionnez le modèle d'interaction
Hub-and-spoke, point à point, publication-abonnement
Concevoir un service de données ou un modèle d'échange
Modéliser des centres de données, des interfaces, des messages, des services de données
Cartographier les données vers la cible
Concevoir l'orchestration des données
Développer des solutions d'intégration de données
Développer des services de données
Développer l’orchestration des flux de données
Élaborer un plan de migration de données
Développer une méthode de release
Développer des flux de traitement d’événements complexes
Conserver les métadonnées pour l'intégration et l'interopérabilité des données
mise en œuvre et suivi
outil
Moteur de transformation de données/outil ETL
Un moteur de transformation de données (ou outil ETL) est le principal outil de la boîte à outils d'intégration de données et est au cœur de tout programme d'intégration de données d'entreprise.
Que les données soient par lots ou en temps réel, physiques ou virtuelles, des outils très sophistiqués existent pour développer et exécuter ETL.
Les considérations de base pour la sélection du moteur de transformation de données doivent inclure si le traitement par lots et les capacités en temps réel sont requis, et si les données non structurées et structurées sont incluses.
Les plus matures actuellement sont les outils de traitement par lots de données structurées.
Serveur de virtualisation de données
moteur de transformation de données
Extraire, transformer et charger physiquement des données
Serveur de virtualisation de données
Extraire, transformer et intégrer virtuellement des données
Peut combiner des données structurées et non structurées
bus de service d'entreprise
Fait référence à la fois à un modèle d'architecture logicielle et à un middleware orienté message
Pour la messagerie en temps quasi réel entre les magasins asynchrones, les applications et les serveurs au sein de la même organisation
moteur de règles métier
De nombreuses solutions d'intégration de données s'appuient sur des règles métier
En tant que forme importante de métadonnées, ces règles peuvent être utilisées pour des intégrations de base ou dans des solutions incluant une gestion d'événements complexes afin que les organisations puissent répondre à ces événements en temps quasi réel.
Outils de modélisation de données et de processus
Les outils de modélisation de données sont utilisés pour concevoir non seulement des structures de données cibles, mais également des structures de données intermédiaires requises pour les solutions d'intégration de données.
Outils de profilage des données
Effectuer une analyse statistique du contenu d'un ensemble de données pour comprendre le format, la cohérence, la validité et la structure des données
référentiel de métadonnées
Le magasin contient des informations sur les données de l'organisation, y compris la structure des données, les éléments internes et les règles métier utilisées pour gérer les données.
méthode
Gardez les applications faiblement couplées, limitez le nombre d'interfaces de développement et de gestion, utilisez une approche en étoile et créez des interfaces standardisées.
Guide de mise en œuvre
Évaluation de l’état de préparation/évaluation des risques
Changement organisationnel et culturel
Intégration des données et gouvernance de l’interopérabilité
accord de partage de données
Définit les responsabilités et les utilisations acceptables des données échangées et est approuvé par le responsable des données commerciales des données pertinentes.
Intégration et interopérabilité des données et lignage des données
Métrique
Disponibilité des données
Volume et vitesse des données
Coût et complexité de la solution