マインドマップギャラリー データベース
データ ウェアハウスは、企業のあらゆるレベルの意思決定プロセスにあらゆる種類のデータ サポートを提供する戦略的なコレクションであり、データ ウェアハウスのシステム フレームワーク設計、多次元分析テクノロジー、データ前処理テクノロジー、データ ウェアハウスの意味と構築の重要性を理解するために、銀行のデータ ウェアハウス構築の重要なポイントを整理します。
2024-01-19 15:42:49 に編集されましたデータベース
データの前処理
データ品質評価基準
正確さ
誠実さ
一貫性
適時性
信頼性
解釈可能性
データ前処理技術
1. データクリーニング
目的:
データのエラーや不整合を解決する
フォーマットの標準化、異常データの発見と処理、データエラーの修正、重複データの発見と削除
欠損値の処理
(1) タプルを無視する
(2) 欠損値を手動で埋める
(3) 均一かつ一定の充填を行う
(4) 属性平均を使用して埋める
(5) グループ化後のサンプル属性の平均値を使用する
(6) 最も可能性の高い値を入力します。
ノイズの多いデータ処理
(1) 包装
(2) クラスタリング
(3) コンピュータ検査と手動検査の組み合わせ
(4) 返却
2.データ統合
目的: 複数のデータソースからのデータを統合する
3. データのキュレーション
目的: データをより正確に表現する
データキュレーション戦略
(1) データキューブの集約
(2) ディメンションプロトコル
ウェーブレット変換
主成分分析
(3) データ圧縮
可逆圧縮
非可逆圧縮
(4) 数値圧縮
4. データの変更
これは、データを標準化、離散化し、概念的に階層化するために実行される操作です。
データ変換方法
(1) アグリゲーション:データを要約し、集計します。
(2) データ一般化: 比較的低い概念レベルからより高い概念レベルまで抽象化するプロセス
(3) 標準化
(4) 属性構築・特徴導出
データガバナンス
完全なデータ ガバナンス システムを確立するには、システム、標準、監視、プロセスなどのさまざまな側面からデータ情報管理機能を向上させ、以下の問題を解決する必要があります。
データ標準
データプラットフォームビジネスのサポートを標準化する必要がある
データ管理システム
プロセス仕様書
情報項目の定義
メタデータ管理
データインパクト分析・コンテキスト分析を実施し、データフロー・依存関係への影響分析・血縁分析を実現
データ品質
データ品質要件は測定可能であり、定義可能なデータ品質検査と次元分析、および問題追跡を実装するには、データ プラットフォームのデータ品質を包括的に管理する必要があります。
データサービス
ビジネス ユーザーとアプリケーション開発者向けにデータ プラットフォームのサービス通信チャネルを提供します。
データウェアハウス多次元分析技術
データ ウェアハウスの基本概念
基本定義: データ ウェアハウスは、歴史的な変化を反映し、経営における意思決定をサポートするために使用される、主題指向で統合された比較的安定したデータ コレクションです。
データウェアハウスの技術的特徴
主題指向
テーマとは、分析と意思決定の目標と要件を指します。これは、業務のニーズに応じて意思決定者によって提案され、最終的には意思決定者に役立つように実装されます。
サブジェクト指向とは、データ ウェアハウス内のデータを見つける必要があるサブジェクトの必要な構成を指します。
銀行に適用される一般的なトピックには次のようなものがあります。
パーティー
内部組織
製品
プロトコル
イベント
住所
チャネル
マーケティング
ファイナンス
顧客資産
統合された
データ ウェアハウスの構築は通常、最も複雑かつ重要なステップです。
分析と意思決定には、分析、比較、特定のための大量のデータが必要です。
複数のデータ ソース間のデータには多くの重複と不一致があり、体系的な処理とクリーニングを通じてのみ統合の次のステップを実行できます。
比較的安定(不揮発性)
データが倉庫に入った後は、長期間比較的安定して保管される必要があります。これは、正しい意思決定を保証するための基本条件です。
ほとんどのデータベース操作はクエリであり、変更や削除はほとんどありません。
履歴の変更を反映 (Time Variant)
データ ウェアハウスの議事録には、過去の時間ステータスを反映するデータ情報が保存されますが、特定のイベント順序に基づいて段階的に保存する必要もあります。
オンライン分析 (OLAP)
1. 基本定義: 特定の問題についてオンライン データにアクセスし、分析し、検証するために多次元情報を使用するソフトウェア テクノロジを指します。
2.基本的な考え方
(1) 寸法
(2) 次元レベル
(3) ディメンションメンバー
(4) 測定
(5) 多次元データ収集
(6) データ単位
3.技術的特徴
(1) 迅速性
(2) 分析性
(3) 多次元性
(4) 参考情報
データウェアハウスシステムのフレームワーク設計
データ ウェアハウスの計画と準備
1. ユーザーニーズ分析
2. 実現可能性の分析
技術的な実現可能性
経済的実現可能性
運用可能性
3. 建設調整と抵抗解析
4. プロジェクト開発計画の策定
(1)「どうするか」
データウェアハウス構築のタスク分割を解決
(2)「どうやってやるのか」
データ ウェアハウス構築のタスクの説明と進捗計画
(3)「何が必要なのか」
主要リソースの招集と配置: 人員、ハードウェア、ソフトウェア
データウェアハウスのデータアーキテクチャ
1. データフローの方向
ソース層後: ソース システム データの読み込み
テーマ層:データ処理により、詳細な履歴データ、顧客情報、口座情報、取引データなどがテーマごとに保存されます。
集計レイヤー:アカウント情報や顧客情報に応じて定期的に集計します。
アプリケーション層: 最後に、アプリケーション分析に必要なデータが形成され、保存されます。
2.データモデル
データウェアハウスの構築が蓄積されると、その特性に応じた成熟したデータウェアハウスのデータモデルを形成する必要があります。
3. データ標準
データマッピング
ルールを強制する
4. データ品質
(1) 定義と初期測定
(2) エラーを分析して見つける
(3) 問題の原因を見つける
(4) 品質問題の解決
(5) 改善プロセスのモニタリング
5.データの管理と制御
統合データ管理システムのフレームワーク
6. データ保持ポリシーと容量
ビジネス分析のニーズ
規制上のニーズ
履歴データに基づいて顧客に追加サービスを提供する必要性
多粒度のデータウェアハウスのデータ組織構造
粒度が適切かどうかは、データ ウェアハウスに保存されるデータの量と、データ ウェアハウスが処理できるクエリの種類に直接影響します。
粒度はデータ ウェアハウスの統合度を測る重要な尺度です
粒度が大きいほど、詳細レベルは低くなり、データの包括性の程度は高くなります。
粒度が小さいほど、データの詳細レベルは高くなりますが、包括性のレベルは低くなります。
データ ウェアハウス アーキテクチャ
基本機能と拡張機能を決定する
1. ボトムアップとボトムアップはアーキテクチャです
トップダウン構造:
利点: 集中化、統合、標準化
短所:一度に完了する必要があり、サイクルが長く、コストが高いため、再構築を余儀なくされる可能性があります。
ボトムアップ構造: まず独自に開発したデータマートを構築し、次にそのテクノロジーに基づいてデータウェアハウスを構築します
2. 純粋なデータ ウェアハウス アーキテクチャ
構造はシンプルで、データ ソース システムから取得したデータは変換されてデータ ウェアハウスにロードされ、データ ウェアハウスを介してフロントエンド データ アプリケーションに直接提供されます。
3. 純粋なデータマートアーキテクチャ
グローバル データ ウェアハウスは存在しません。データ処理アプリケーションは、データを呼び出すために 1 つ以上のデータ マートに接続する必要があります。
データ ウェアハウスの中間形式
4. 仮想データウェアハウスアーキテクチャ
データ処理アプリケーションに接続されている統合データ ソースは単なる中間層であり、データにアクセスして統合するためのルールと手段が含まれており、データ ウェアハウスのユーザーに仮想データ ウェアハウス ビューを提供します。
データ統合は、ユーザーがクエリ データの実装要件を要求した場合にのみ行われます。
銀行データウェアハウス構築のポイント
(1) データ ウェアハウス システムは、まずデータ ストレージ、クエリ、統計、分析などに関する本社および地方支社の要件を満たさなければなりません。
(2) データウェアハウスを構築する際には、統一されたデータソースと統一されたアーキテクチャを構築する必要があります。
メタデータの管理と統一公開に留意
統一された基準と一貫した口径を備えた標準化されたセールスマン指標の構築に注意を払う
データ検査メカニズムを確立し、データ品質を継続的に改善し、あらゆる側面でデータガバナンスを強化します。
(3) ビジネスの継続的な成長を考慮して、データ ウェアハウス構築計画は拡張可能でなければなりません
(4) 銀行業務は可用性要件が極めて高く、企業情報システムを簡単に停止することはできません。