Galerie de cartes mentales base de données
L'entrepôt de données est une collection stratégique qui fournit tous les types de données pour le processus de prise de décision à tous les niveaux de l'entreprise. Cette carte cérébrale examine la conception du cadre système de l'entrepôt de données, la technologie d'analyse multidimensionnelle, la technologie de prétraitement des données, et les points clés de la construction d'un entrepôt de données bancaire. Triez-le pour aider à comprendre la connotation et l'importance de la construction de l'entrepôt de données.
Modifié à 2024-01-19 15:42:49Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
base de données
Prétraitement des données
Critères d'évaluation de la qualité des données
précision
intégrité
cohérence
Opportunité
Crédibilité
Interprétabilité
Technologie de prétraitement des données
1. Nettoyage des données
But:
Résoudre les erreurs et les incohérences des données
Standardisation du format, découverte et traitement des données anormales, correction des erreurs de données, découverte et suppression des données en double
Gestion des valeurs manquantes
(1) Ignorer les tuples
(2) Remplissez manuellement les valeurs manquantes
(3) Utiliser un remplissage constant et uniforme
(4) Remplir en utilisant la moyenne des attributs
(5) Utiliser la valeur moyenne des attributs de l'échantillon après le regroupement
(6) Remplissez avec la valeur la plus probable
Traitement des données bruyant
(1) Emballage
(2) Regroupement
(3) Combinaison d'inspection informatique et manuelle
(4) Retour
2.Intégration des données
Objectif : Intégrer des données provenant de plusieurs sources de données
3. Conservation des données
Objectif : Obtenir une expression plus précise des données
Stratégie de conservation des données
(1) Agrégation de cubes de données
(2) Protocole dimensionnel
Transformation en ondelettes
Analyse des composants principaux
(3) Compression des données
compression sans perte
La compression avec perte
(4) Compression numérique
4. Modifications des données
Il s'agit d'une opération effectuée pour standardiser, discrétiser et superposer conceptuellement les données.
Méthode de transformation des données
(1) Agrégation : résumer et agréger les données
(2) Généralisation des données : le processus d'abstraction d'un niveau conceptuel relativement bas vers un niveau conceptuel supérieur
(3) Normalisation
(4) Construction d'attributs/dérivation de caractéristiques
gouvernance des données
La mise en place d'un système complet de gouvernance des données nécessite d'améliorer les capacités de gestion des informations sur les données sous plusieurs aspects tels que les systèmes, les normes, la surveillance et les processus pour résoudre les problèmes suivants.
normes de données
La prise en charge des activités de plateforme de données doit être standardisée
Système de contrôle des données
Document de spécification du processus
Définition de l'élément d'information
Gestion des métadonnées
Effectuer une analyse d'impact et de contexte des données pour réaliser une analyse d'impact et de relation de sang sur le flux de données et les relations de dépendance.
Qualité des données
Les exigences en matière de qualité des données sont mesurables et la qualité des données de la plate-forme de données doit être gérée de manière globale pour mettre en œuvre une inspection de la qualité des données et une analyse dimensionnelle définissables, ainsi que le suivi des problèmes.
service de données
Fournir des canaux de communication de service pour la plateforme de données pour les utilisateurs professionnels et les développeurs d'applications
Technologie d'analyse multidimensionnelle d'entrepôt de données
Concepts de base de l'entrepôt de données
Définition de base : Un entrepôt de données est une collection de données orientée sujet, intégrée et relativement stable qui reflète les changements historiques et est utilisée pour soutenir la prise de décision en matière de gestion.
Caractéristiques techniques de l'entrepôt de données
orienté sujet
Le thème fait référence aux objectifs et aux exigences de l'analyse et de la prise de décision. Il est proposé par le décideur en fonction des besoins du travail et est finalement mis en œuvre pour servir le décideur.
Orienté sujet fait référence à l'organisation requise du sujet où les données de l'entrepôt de données doivent être trouvées.
Les sujets applicables aux banques comprennent généralement
faire la fête
organisation interne
produit
protocole
événement
adresse
canal
commercialisation
finance
actifs du client
intégré
La construction d’un entrepôt de données est généralement l’étape la plus complexe et la plus critique.
L'analyse et la prise de décision nécessitent de grandes quantités de données à des fins d'analyse, de comparaison et d'identification.
Il existe de nombreuses duplications et incohérences dans les données entre plusieurs sources de données. Ce n'est que grâce à un traitement et un nettoyage systématiques que la prochaine étape d'intégration peut être réalisée.
Relativement stable (non volatile)
Une fois que les données entrent dans l’entrepôt, elles doivent être stockées de manière relativement stable pendant une longue période, ce qui est la condition de base pour garantir une prise de décision correcte.
La plupart des opérations de base de données sont des requêtes, avec peu de modifications et de suppressions.
Refléter les changements historiques (variante temporelle)
Les minutes de l'entrepôt de données stockent des informations sur les données qui reflètent l'état temporel historique et doivent également être stockées par étapes en fonction de certains ordres d'événements.
Analyse en ligne (OLAP)
1. Définition de base : fait référence à une technologie logicielle qui utilise des informations multidimensionnelles pour accéder, analyser et vérifier les données en ligne pour des problèmes spécifiques.
2.Concepts de base
(1) Dimensions
(2) Niveau dimensionnel
(3) Membres de dimension
(4) Mesure
(5) Collecte de données multidimensionnelles
(6) Unité de données
3.Caractéristiques techniques
(1) Rapidité
(2) Analysabilité
(3) Multidimensionnalité
(4) Informatif
Conception du cadre du système d'entrepôt de données
Planification et préparation de l'entrepôt de données
1. Analyse des besoins des utilisateurs
2. Analyse de faisabilité
faisabilité technique
faisabilité économique
faisabilité opérationnelle
3. Coordination de la construction et analyse de la résistance
4. Formulation du plan de développement du projet
(1) "Que faire"
Résoudre la répartition des tâches de construction d'un entrepôt de données
(2) "Comment faire"
Description des tâches et planification des progrès pour la construction d'un entrepôt de données
(3) "Ce qui est nécessaire"
Appel et disposition des ressources clés : personnel, matériel, logiciels
Architecture des données de l'entrepôt de données
1. Sens du flux de données
Couche post-source : chargement des données du système source
Couche thématique : grâce au traitement des données, des données historiques détaillées, des informations sur les clients, des informations sur les comptes, des données de transaction, etc. sont stockées selon des thèmes.
Couche récapitulative : résumez régulièrement en fonction des informations sur le compte et des informations sur le client.
Couche application : Enfin, les données nécessaires à l’analyse des applications sont formées et stockées.
2.Modèle de données
Avec l'accumulation de construction d'entrepôts de données, il est nécessaire de former un modèle de données d'entrepôt de données mature qui répond aux caractéristiques.
3. Normes de données
mappage de données
appliquer les règles
4. Qualité des données
(1) Définition et mesure initiale
(2) Analyser et trouver les erreurs
(3) Trouver la source du problème
(4) Résoudre les problèmes de qualité
(5) Surveiller le processus d'amélioration
5.Gestion et contrôle des données
Cadre de système de gestion de données unifié
6. Politique et capacité de conservation des données
besoins d'analyse commerciale
Besoins réglementaires
La nécessité de fournir des services supplémentaires aux clients sur la base de données historiques
Structure organisationnelle des données de l'entrepôt de données multigranularité
Le fait que la granularité soit raisonnable ou non affecte directement la quantité de données stockées dans l'entrepôt de données et les types de requêtes que l'entrepôt de données peut gérer.
La granularité est une mesure clé du degré d'intégration dans un entrepôt de données
Plus la granularité est grande, plus le niveau de détail est faible et plus le degré d’exhaustivité des données est élevé.
Plus la granularité est faible, plus le niveau de détail des données est élevé et plus le niveau d’exhaustivité est faible.
Architecture de l'entrepôt de données
Déterminer les fonctionnalités de base et les capacités d’extension
1. Bottom-up et bottom-up sont des architectures
Structure descendante :
Avantages : centralisation, unification et standardisation
Inconvénients : il doit être achevé en une seule fois, le cycle est long et le coût est élevé, il peut y avoir un risque de le pousser à la reconstruction ;
Structure ascendante : créez d'abord un magasin de données développé de manière indépendante, puis créez un entrepôt de données basé sur cette technologie
2. Architecture pure d'entrepôt de données
La structure est simple. Les données obtenues à partir du système source de données sont converties et chargées dans l'entrepôt de données, puis directement fournies à l'application de données frontale via l'entrepôt de données.
3. Architecture de datamart pure
Il n’existe pas d’entrepôt de données global. Les applications de traitement de données doivent se connecter à un ou plusieurs datamarts pour appeler des données.
Une forme intermédiaire d’entrepôt de données
4. Architecture d'entrepôt de données virtuel
La source de données unifiée connectée à l'application de traitement de données n'est qu'une couche intermédiaire, qui contient les règles et les moyens d'accès et d'intégration des données, et fournit une vue de l'entrepôt de données virtuel aux utilisateurs de l'entrepôt de données.
L'intégration des données ne se produit que lorsqu'un utilisateur demande des données de requête. Les exigences de mise en œuvre sont élevées ;
Points clés de la construction d'un entrepôt de données bancaires
(1) Le système d'entrepôt de données doit d'abord répondre aux exigences du siège social et des succursales locales en matière de stockage de données, de requêtes, de statistiques, d'analyse, etc.
(2) Lors de la construction de l'entrepôt de données, il est nécessaire de créer une source de données et une architecture unifiées.
Faites attention à la gestion et à la diffusion unifiée des métadonnées
Faites attention à la construction d'indicateurs de vendeur standardisés avec des normes unifiées et un calibre cohérent
Établir un mécanisme d'inspection des données, améliorer continuellement la qualité des données et renforcer la gouvernance des données dans tous les aspects
(3) Compte tenu de la croissance continue de l'activité, le plan de construction de l'entrepôt de données doit être évolutif
(4) Les activités bancaires ont des exigences de disponibilité extrêmement élevées et le système d'information de l'entreprise ne peut pas être facilement arrêté.