マインドマップギャラリー DAMA-CDGA データ ガバナンス エンジニア - 13.
データ品質管理とは、すべてのデータ管理原則がデータ品質の向上に役立つ必要があり、組織による高品質データの使用をサポートすることがすべてのデータ管理原則の目標であることを意味します。
2024-03-05 20:31:04 に編集されました13. データ品質
導入
原則として
1. 最初に重要なデータから始める
2.PDCA
3. データ ガバナンスの側面を評価する
4. 根本原因の分析
5. データ品質レポート
概要
データの価値を実現するためには、データそのものが信頼できるもの、つまり高品質であることが前提となります。
すべてのデータ管理原則はデータ品質の向上に役立つ必要があり、組織による高品質データの使用をサポートすることがすべてのデータ管理原則の目標である必要があります。
データ ガバナンスや全体的なデータ管理と同様、データ品質管理はプロジェクトではなく継続的な取り組みです
ビジネスドライバー
含む
組織のデータ価値とデータ活用を高める機会
低品質のデータによって引き起こされるリスクとコストを削減します
組織の効率と生産性を向上させる
組織の評判を保護し向上させる
データから価値を引き出そうとしている組織は、高品質のデータが低品質のデータよりも価値があることを認識しています。
低品質のデータの使用にはリスクが伴います
高品質のデータはそれ自体が目的ではなく、組織の成功への手段です。
目標
データ利用者のニーズに基づいて、データを要件に適応させるための管理されたアプローチを開発します。
データライフサイクル全体の一部としてデータ品質管理の標準と仕様を定義する
データ品質レベルの測定、監視、報告のためのプロセスを定義および実装する
原則として
重要性
データ品質管理は、企業とその顧客にとって最も重要なデータに焦点を当てており、データの重要性とデータが間違っている場合のリスクのレベルに基づいて改善の優先順位を付ける必要があります。
完全なライフサイクル管理
データ ガバナンス管理は、作成または調達から廃棄までのデータ ライフ サイクル全体をカバーする必要があります。
データチェーン内のすべてのリンクは、データが高品質に出力されることを保証する必要があります。
防止
データ品質プログラムは、単に記録を修正することではなく、エラーやデータの可用性を低下させる状況を防ぐことに重点を置く必要があります。
根本原因の修正
データ品質の問題はプロセスやシステムの設計に関連していることが多いため、データ品質の向上には単にエラーを修正するだけではなく、それらをサポートするプロセスやシステムの変更が必要です。
ガバナンス
データ ガバナンス活動は高品質のデータの開発をサポートする必要があり、データ品質計画活動は管理されたデータ環境をサポートおよび維持する必要があります。
標準ドライバー
定量化可能なデータ品質要件は、測定可能な基準と期待の形で定義する必要があります
客観的な測定と透明性
データ品質レベルは客観的かつ一貫して測定する必要がある
ビジネスプロセスを組み込む
ビジネス プロセスの所有者は、プロセスを通じて生成されたデータの品質に責任を負い、プロセスにデータ品質標準を実装する必要があります。
システムの施行
システム所有者はシステムにデータ品質基準を適用する必要があります
サービスレベルに関連する
データ ガバナンスのレポートと問題管理はサービス レベル アグリーメントに統合される必要があります
基本的な考え方
データ品質
高品質データの関連特性を指します。
データ品質を測定および改善するために使用されるプロセスも指します。
高品質
データはデータ消費者アプリケーションのニーズを満たします
低品質
データがデータ消費者アプリケーションのニーズを満たしていない
データの品質はデータのシナリオとデータ利用者のニーズによって決まります
キーデータ
ほとんどの組織は大量のデータを保有していますが、すべてのデータが同じように重要であるわけではありません。
データ品質管理の原則は、組織と顧客にとって最も重要なデータの改善に焦点を当てることです。
そうすることで、プロジェクトの範囲が明確になり、ビジネス ニーズに直接的かつ測定可能な影響を与えることができます。
主要なデータを評価する
規制報告
財務報告書
経営方針
運用を継続する
事業戦略
データ品質の次元
形
ストロングワン
トーマス・レッドマン
ラリー・イングリッシュ
データ品質の次元は、データの測定可能な特性です。
データ品質ディメンションは、データ品質要件を定義する一連の語彙を提供します。
これらのディメンション定義により、初期のデータ品質と継続的な改善の有効性の評価が可能になります。
寸法は測定ルールの基礎です
DAMA コアの寸法
完全
潜在的なデータ量に対する保存されたデータ量の割合
独自性
エンティティ インスタンスは、満足のいくオブジェクト認識に基づいて複数回記録されるべきではありません。
適時性
データが要求された時点からの現実をどの程度表現しているか
効果
データは、定義された構文 (形式、タイプ、範囲) に準拠している場合に有効です。
正確さ
データが記述されている「現実世界」のオブジェクトまたはイベントをどの程度正確に記述しているか
一貫性
複数の表現と物事の定義の違いを比較する
データガバナンスとメタデータ
メタデータはデータ品質の管理に不可欠です
データの品質は、データ利用者のニーズをどの程度満たしているかによって決まります。
データ品質は期待に応えることであり、メタデータは期待を明確にする主な手段です
適切に管理されたメタデータは、データ品質の向上への取り組みもサポートします
データガバナンスのISO規格
データ品質向上のライフサイクル
データ品質を向上するには、入力がプロセスの要件を満たし、出力が期待どおりであることを確認するために、入力と出力の関係を評価する能力を向上させる必要があります。
計画フェーズP
データ品質チームは、既知の問題の範囲、影響、優先度を評価し、それらを解決するためのオプションを評価します。
このフェーズは、問題の根本原因の分析、原因と影響の観点からのコストと利益の理解、優先順位の確立、およびそれらに対処するための基本計画の策定という強固な基盤に基づいている必要があります。
実行フェーズ D
データ品質チームは、問題の根本原因の解決に取り組み、データを継続的に監視する計画を立てる責任があります。
チェックステージC
このフェーズには、必要に応じて測定されるデータ品質のアクティブな監視が含まれます
定義された品質しきい値が満たされている限り、追加のアクションは必要ありません。
データが許容可能な品質のしきい値を下回る場合は、許容可能なレベルに引き上げるために追加の手順を実行する必要があります。
処理ステージA
このフェーズでは、新たなデータ品質問題に対処し、解決する活動を指します。
問題の原因が評価され、解決策が提案されると、サイクルが再び始まります。
新しいサイクルの開始による継続的改善
新しいサイクルが始まります
既存の測定値がしきい値を下回っています
新しいデータセットは調査中です
既存のデータセットに対する新しいデータ品質要件
ビジネス、基準、期待の変化
最初にデータを正しく取得するコストは、間違ったデータを取得して修正するコストよりもはるかに低くなります。
データ管理プロセスに最初から品質を導入するコストは、データ管理プロセスを変革するコストよりも低くなります
データ品質ビジネス ルールの種類
データ品質ビジネス ルールでは、有用なデータと、組織内でデータを利用できる形式について説明します。
これらのルールは品質ディメンション要件に準拠する必要があり、データ品質要件を記述するために使用されます。
データ品質の問題の一般的な原因
リーダーシップの欠如によって引き起こされる問題
データ ガバナンスの問題の多くは、高品質データに対する組織の取り組みの欠如によって引き起こされており、それ自体がガバナンスと管理の形でのリーダーシップの欠如です。
データ品質を効果的に管理するには、次のような障害があります。
リーダーや従業員の意識の欠如
ガバナンスの欠如
リーダーシップと管理スキルの欠如
改善を正当化するのが難しい
価値を測定するためのツールが不適切であるか、機能しない
データ入力プロセスによって引き起こされる問題
データ処理機能に起因する問題
システム設計に起因する問題
問題によって引き起こされた問題を解決する
データ分析
データプロファイリングは、データを調べて品質を評価するために使用されるデータ分析の一形式です。
データプロファイリングは統計手法を使用して、データ収集の真の構造、内容、品質を発見します。
プロファイリング エンジンは、アナリストがデータの内容と構造のパターンを特定するために使用できる統計を生成します。
例えば
Null値の数
最大/最小
最大/最小長さ
個々の列値の度数分布
データの種類と形式
プロファイリングはデータを理解する効果的な方法ですが、組織が潜在的な問題を特定できるようにすることで、データ品質を向上させるための最初のステップにすぎません。
問題を解決するには、ビジネス プロセス分析、データ系統分析、問題の根本原因を特定するのに役立つ詳細なデータ分析など、他の形式の分析も必要です。
データガバナンスとデータ処理
データ ガバナンス改善の取り組みはエラーの防止に重点を置いていますが、何らかの形式のデータ処理を通じてデータ品質を向上させることもできます。
データクリーニング
データ クレンジング (データ クレンジング) は、データをデータ標準とドメイン ルールに準拠するように変換します。
クリーニングには、データエラーを検出して修正し、データ品質を許容可能なレベルにすることが含まれます。
クレンジングを通じてデータを継続的に修正することは、コストがかかり、リスクの高いプロセスです
理想的な世界では、時間の経過とともにデータ問題の根本原因が解決され、データ クレンジングの必要性が減少するはずです。
場合によっては、中流システムでのデータの再処理は他の代替方法よりも安価であるため、中流システムを介した継続的な変更も必要になります。
方法
データ入力エラーを防ぐためのコントロールを実装する
ソースシステム内の正しいデータ
データ入力のビジネスプロセスを改善する
データ増強
データの拡張または強化は、データ セットにプロパティを追加して、品質と使いやすさを向上させるプロセスです。
例
タイムスタンプ
データ項目が作成、変更、または非アクティブ化された日時を記録すると、履歴データ イベントを追跡し、アナリストが問題の時間範囲を特定できるようになります。
監査データ
監査では、履歴の追跡と検証に重要なデータ系統を記録できます。
参照用語集
データの理解と制御の向上
コンテキスト情報
レビューと分析のためにコンテキスト情報とタグデータを追加します
地理情報
住所の標準化とジオコーディングを通じて、市外局番、市区町村、近隣地域、緯度、経度などの地理情報を強化できます。
人口統計情報
顧客データは、年齢、結婚、性別、収入などの人口統計情報で強化できます。
心理情報
特定の行動、習慣、好みに応じてターゲット グループのデータをセグメント化するために使用されます。
評価情報
この拡張機能を資産評価、在庫、販売データなどに使用します。
データの解析とフォーマット
データ解析は、あらかじめ決められたルールを使用してオブジェクトの内容や値を解釈する分析プロセスです
まず、データ アナリストが一連のパターンを定義します。次に、これらのパターンがルール エンジンに記録され、ルール エンジンは特定のパターンと一致してアクションをトリガーします。
データ変換と標準化
通常の処理中に、データ ルールを使用してデータをターゲット アーキテクチャが読み取り可能な形式に変換できます。
活動
高品質のデータを定義する
データ品質戦略を定義する
主要なデータとビジネス ルールを特定する
初期データ品質評価を実行する
改善すべき領域を特定して優先順位を付ける
データ品質向上の目標を定義する
データ品質オペレーションを開発および展開する
データガバナンスルールを管理する
データ品質の測定と監視
データの問題を管理するための運用手順を開発する
データ品質のサービスレベル契約を策定する
データ品質レポートを作成する
道具
データプロファイリングツール
データ プロファイリング ツールは、アナリストがデータ内のパターンを特定し、品質特性の初期評価を行うことを可能にする高レベルの統計を生成します。
プロファイリング ツールは、大規模なデータ セットの評価を可能にする、データ検出の取り組みにとって特に重要です。
データ視覚化機能で強化されたプロファイリング ツールは、発見プロセスを支援します。
データクエリツール
データ プロファイリングはデータ分析の最初のステップにすぎず、潜在的な問題を特定するのに役立ちます
データ品質チームのメンバーは、分析結果によって生じた疑問に答え、データの問題の根本原因を洞察できるパターンを見つけるために、データをより深くクエリする必要もあります。
モデリングおよびETLツール
データのモデル化とETLプロセスの作成に使用されるツールは、データ品質に直接影響します。
これらのツールの使用は、使用プロセスにデータ思考があれば、より高品質なデータにつながる可能性があります。
データを理解せずに盲目的に使用すると、有害な影響が生じる可能性があります
データ品質チームのメンバーは、開発チームと協力してデータ品質リスクに対処し、効果的なモデリングおよびデータ処理ツールを活用して、組織がより高品質のデータにアクセスできるようにする必要があります。
データ品質ルールのテンプレート
ルール テンプレートにより、アナリストはデータに対する顧客の期待を把握し、ビジネス チームと技術チーム間のコミュニケーション ギャップを埋めることができます。
一貫したルールを継続的に開発することで、ビジネス要件をコードに変換するプロセスが簡素化されます。
メタデータリポジトリ
データ品質の定義にはメタデータが必要であり、高品質データの定義はメタデータの価値を示す方法です。
方法
注意事項
高品質のデータを作成する最善の方法は、低品質のデータが組織に入らないようにすることです
予防措置は既知のエラーの発生を防ぎますが、事後的にデータを検査しても品質は向上しません。
予防方法
データ入力制御を確立する
トレーニングデータプロデューサー
ルールを定義して適用する
データプロバイダーに高品質のデータの提供を要求する
データガバナンスと管理システムを導入する
正式な変更管理を開発する
是正処置
問題が発生して検出された後、是正措置が実施されます
データ品質の問題は体系的かつ根本的に解決して、是正措置のコストとリスクを最小限に抑える必要があります。
データ修正の実行方法
自動補正
自動修正テクノロジーには、ルールベースの標準化、正規化、修正が含まれます
変更された値は、手動介入なしで取得または自動的に生成され、送信されます。
オートコレクトには、優れた標準、一般に受け入れられているルール、および既知のエラー パターンを備えた環境が必要です
手動による検査と修正
自動ツールを使用してデータを矯正および修正し、修正が永続ストレージにコミットされる前に人間によるレビューを実行します。
一定の信頼レベルを超えるスコアの修正はレビューなしで送信できますが、信頼レベルを下回るスコアの修正はレビューと承認のためにデータ管理責任者に送信されます。
手動補正
ツールが不足している場合、自動化が不十分な場合、または人間の監視によって変更をより適切に処理できると判断される場合、手動修正が唯一の選択肢となります。
ビルド環境で直接更新を変更してコミットする文書化された方法は非常に危険なので、避けるべきです。
QAおよびレビューコードモジュール
開発者がリポジトリから取得してデータ品質チェックと監査プロセスを繰り返すことができる、共有可能、リンク可能、再利用可能なコード モジュールを作成します。
適切に設計されたコード モジュールは、多くのデータ品質の問題を防ぐことができ、同時にプロセスの一貫した実行を保証します。
特定の品質結果の報告が法律または政策によって要求されている場合、多くの場合、結果の系統を説明する必要があり、品質検査モジュールがこの機能を提供できます。
効果的なデータ ガバナンスの指標
測定可能性
データ品質の指標は測定可能でなければなりません – 定量化できるものでなければなりません
ビジネスとの関連性
多くのことが測定可能ですが、すべてを有用な指標に変換できるわけではありません
指標が業務運営やパフォーマンスの一部の側面に関連付けられない場合、その価値は限定的です
各データ品質指標は、主要なビジネス上の期待に対するデータの影響と関連付けられる必要があります。
受容性
指定された許容しきい値に基づいて、データがビジネスの期待を満たしているかどうかを判断します
スコアがしきい値以上の場合、データ品質はビジネスの期待を満たしています。
スコアがしきい値を下回る場合は満たされません
責任・管理体制
指標の測定結果が品質が期待を満たしていないことを示した場合、主要な関係者に通知します
ビジネスデータの所有者がこれに対して責任を負い、データ管理責任者によって適切な是正措置が取られます。
コントロール性
指標はビジネスの制御可能な側面を反映する必要があります
言い換えれば、範囲外になった場合は、データを改善するためのアクションをトリガーする必要があります。
トレンド分析
メトリクスにより、組織はデータ品質の長期的な改善を測定できるようになります
追跡は、データ品質チームのメンバーがデータ品質 SLA およびデータ共有契約の範囲内での活動を監視し、改善活動の有効性を実証するのに役立ちます。
情報の流れが安定すると、統計的プロセス制御技術を使用して変化を検出し、測定結果と研究中の技術プロセスの予測可能な変化を達成することができます。
統計的プロセス制御
統計的プロセス制御 (SPC) は、プロセスの入力、出力、またはステップの測定値の変化を分析することによってプロセスを管理する方法です。
一貫した入力を持つプロセスが一貫して実行されると、一貫した出力が生成されるという前提に基づいています。中心傾向 (平均、中央値、最頻値など、変数の値が中心値に近づく傾向) と中心値の周囲の変動性 (範囲、分散、標準偏差など) の尺度を使用して、偏差許容値を決定します。プロセスの中で
SPC で使用される主なツールは管理図です。これは、平均値の中心線 (中心傾向の尺度) と、測定値 (中心値の周りのばらつき) を表す管理上限および下限を含む時系列グラフです。
根本原因分析
問題の根本原因が解消されると、問題自体も解消されます
根本原因分析者 問題の原因とそれがどのように機能するかを理解するプロセス
目的は、取り除けば問題が消える根本的な状態を特定することです。
一般的な根本原因分析手法には、パレート分析 (80/20 ルール)、特性要因図分析、トラック アンド トレース、プロセス分析、5WHY などがあります。
実装ガイド
準備状況評価/リスク評価
組織と文化の変化
データ品質とデータガバナンス
データ品質システム
メトリクス
投資収益率
品質レベル
データ品質の傾向
データ問題管理の指標
サービスレベルの一貫性
データ品質計画図