ログイン
サインイン

マインドマップギャラリー DAMA-CDGA データガバナンスエンジニア - 8. データの統合と相互運用性

DAMA-CDGA データガバナンスエンジニア - 8. データの統合と相互運用性

データの統合と相互運用性では、さまざまなデータストア、アプリケーション、組織内およびそれらの間でデータを移動および統合するプロセスについて説明します。

2024-03-05 20:24:30 に編集されました

WSUJfrxa

最近の作品その他の作品を表示>>

DAMA-CDGA データガバナンスエンジニア - 8. データの統合と相互運用性

WSUJfrxa

最近の作品その他の作品を表示>>

おすすめ
アウトライン

DAMA-CDGA データガバナンスエンジニア - 17. データ管理と組織変更管理
- 13
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 16. データ管理組織と役割の期待
- 7
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 15. データ管理成熟度評価
- 12
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 14. ビッグデータとデータサイエンス
- 10
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 13.
- 8
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 12. メタデータ管理
- 8
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 11. データウェアハウジングとビジネスインテリジェンス
- 8
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 10. 参照データとマスターデータ
- 14
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 9. ドキュメントおよびコンテンツ管理
- 10
WSUJfrxa
DAMA-CDGA データガバナンスエンジニア - 6. データストレージと運用
- 12
WSUJfrxa

8. データの統合と相互運用性

導入

意味

データの統合と相互運用性

データの統合と相互運用性は、異なるデータストア、アプリケーション、組織内およびそれらの間でデータを移動および統合するプロセスを説明します。

データ統合

これは、データを物理または仮想の一貫した形式に統合することです。

データの相互運用性

複数のシステム間で通信できるか

データウェアハウス、BI、マスターデータ、参照データにとって重要

これらは、ソースシステムからデータセンター、データセンターからターゲットシステム、そして最終的には消費者に至るまでのデータの変換と統合に重点を置いているためです。

これはビッグデータ管理分野の中核です。

ビッグデータはさまざまな種類のデータを統合することを目的としています

データベースに保存された構造化データを含む

文書またはファイルに保存された非構造化テキストデータ

オーディオ、ビデオ、ストリーミングデータなどの他のタイプの非構造化データ。

マイニングに統合し、予測モデルを開発し、オペレーショナルインテリジェンス活動で使用します。

ビジネスドライバー

データの統合と相互運用性の主な目的は、データの移動を効果的に管理することです。

企業にとって、データ統合の複雑さと関連コストの管理は、データ統合アーキテクチャを構築する理由になります。

データ統合の複雑さを管理する

エンタープライズグレードのデータ統合設計は、異種ソリューションやポイントツーポイントソリューションよりもはるかに効率的です

アプリケーション間のポイントツーポイントソリューションでは、何千ものインターフェイスが作成される可能性があり、組織はすぐに圧倒されてしまう可能性があります。

維持管理費

データの移動に複数のテクノロジーが使用される場合、各テクノロジーには特定の開発コストと保守コストが必要となり、サポートコストが増加します。

標準ツールを適用することで、メンテナンスコストと人件費を削減し、トラブルシューティング作業の効率を向上させることができます。

目標と原則

目標

消費者が必要とするデータ形式でタイムリーにデータを配信します

データを物理的または仮想的にデータセンターに統合する

共有モデルとインターフェースを開発することで、管理ソリューションのコストと複雑さを軽減します。

意味のあるイベントを特定し、自動的にアラームをトリガーしてアクションを実行します

ビジネスインテリジェンス、データ分析、マスターデータ管理、業務効率化をサポート

原則として

エンタープライズ視点を採用し、反復的かつ段階的な配信によって将来のスケーラビリティ設計を確実に実現

サポートやメンテナンスを含め、ローカルデータのニーズとエンタープライズデータのニーズのバランスを取る

データ統合および相互運用性の設計と活動の信頼性を確保する

基本的な考え方

抽出、変換、ロード

概要

1. ETL の目標: 明確な目標を持ってデータウェアハウスに参入する

2. 構造化データ: データウェアハウスに入る

3. データウェアハウス: 最終的な目標は BI

データの統合と相互運用性の中心となるのは、抽出、変換、読み込み (ETL) の基本プロセスです。

物理か仮想か、バッチかリアルタイムかにかかわらず、ETL の実行はアプリケーションと組織間のデータフローにおいて必要なステップです。

効果

定期的にスケジュールされたイベントとして実行可能（バッチ処理）

分析またはレポートに必要なデータは通常、バッチジョブ内にあります

新しいデータまたはデータが更新されたときに実行可能 (リアルタイムまたはイベント駆動)

運用データ処理は多くの場合、リアルタイムまたはほぼリアルタイムです。

抽出する

必要なデータの選択とソースデータからの抽出が含まれます。

抽出されたデータは、ディスクまたはメモリ上の物理データリポジトリに保存されます。

変換する

選択したデータをターゲットデータベースの構造と互換性のあるものにすることです

フォーマットの変更

技術的なフォーマット変換

EBCDICからASCIIへのフォーマット変換など

構造変化

データ構造の変更

非正規化レコードから正規化レコードへ

セマンティックな変更

データ値を変換する際にセマンティクスの一貫した表現を維持する

0、1、2、3→不明、女性、男性、提供なし

重複を排除する

ルールに一意のキーまたはレコードが必要な場合は、ターゲットをスキャンし、重複行を検出して削除する方法を必ず含めてください。

並べ替える

定義されたスキーマに合わせてデータ要素またはレコードの順序を変更します。

バッチまたはリアルタイムで実行可能

または、変換結果を物理的な状態でキャッシュ領域に保存します

または、変換されたデータを仮想状態でメモリに保存します

搬入工程に移るまで

負荷

変換結果をターゲットシステムに物理的に保存または表示します

抽出、ロード、変換

概要

1. ELT の目標: データレイクへの参入、ビジネスシナリオが不明確

2. 構造化データと非構造化データ: どちらもデータレイクに入ることができます

3. データレイク: 最終的な目標は AI

ターゲットシステムがソースシステムや中間アプリケーションシステムよりも強力な変換機能を備えている場合、データ処理シーケンスを ELT (抽出、ロード、変換) に切り替えることができます。

ELT を使用すると、データを変換する前にターゲットシステムにロードできます。

ELT を使用すると、ソースデータを生データの形式でターゲットシステム上でインスタンス化できるため、他のプロセスにとって有益です。

ELT を使用したデータレイクへの読み込み（ビッグデータ環境では一般的）

マッピング

変換と同義であり、ソース構造からターゲット構造への検索行列を構築するプロセスとそのプロセスの結果の両方を指します。

抽出されるソースデータと抽出されたデータの識別ルール、ロードされるターゲットと更新されるターゲット行の識別ルール、および適用される変換または計算ルールを定義します。

遅れ

意味

データがソースシステムによって生成されるときと、データがターゲットシステムで利用可能になるときとの間の時間差を指します。

データ処理方法が異なれば、データ遅延の程度も異なります。

すごく高い

バッチ処理

より高い

イベント駆動型

とても低い

リアルタイム同期

バッチ処理

データは、データ利用者からの手動リクエストに基づいて、または定期的に自動的にトリガーされて、ファイルのバッチとしてアプリケーションと組織間を移動します。このタイプの対話はバッチ処理または ETL と呼ばれます。

バッチモードで移動されたデータは、特定の時点のすべてのデータを表します。

この一連のデータをインクリメントといい、ある時点のデータをスナップショットといいます。

バッチデータ統合ソリューションの場合、多くの場合、ソースでのデータ変更とターゲットでのデータ更新の間に大幅な遅延が発生し、その結果、遅延が長くなります。

マイクロバッチング

バッチデータ統合は、データ変換、移行、アーカイブに使用できるだけでなく、データウェアハウスやデータマートからのデータの抽出やロードにも使用できます。

毎日の更新よりも頻繁にバッチを実行するように指示します。

機会

バッチ処理のタイミングには危険が伴う可能性がある

アプリケーションの更新の問題を最小限に抑えるために、データ移動は、平日または夜間の論理処理の終了時に行われるようにスケジュールできます。

変更データのキャプチャ

特定の時間範囲内に変更されたデータのみを含めるフィルタリングを追加することで、送信帯域幅要件を削減する方法です。

変更データキャプチャは、データセットへの変更 (挿入、変更、削除) を監視し、これらの変更 (デルタ) を、データを使用する他のデータセット、アプリケーション、および組織に伝達します。

変更データキャプチャプロセスの一環として、データにタグやタイムスタンプなどの識別子を付けることもできます。

変更データのキャプチャはデータベースまたはログベースで行うことができます

データに基づいて

ソースシステムは特定のデータ要素を設定します。

たとえば、さまざまなタイムスタンプ、コード、フラグなど、すべて変更インジケーターとして機能します。

データ変更時にソースシステムプロセスがオブジェクトと識別子の単純なリストに追加され、抽出されたデータの選択を制御するために使用されます。

ソースシステムは変更されたデータをコピーします

ログに基づいて

データベース管理システムは、コピーおよび処理されたデータアクティビティのログを作成し、変換されてターゲットデータベースに適用される特定の変更を探します。

ほぼリアルタイムでイベント駆動型

バッチアプローチを採用しないほとんどのデータ統合ソリューションは、ほぼリアルタイムまたはイベント駆動型のアプローチを使用します。

データは、特定のスケジュール内で、またはデータ更新などのイベントの発生に応じて、より小さなセットで処理されます。

ほぼリアルタイムの処理は、バッチ処理と比較して待ち時間が短くなります。

また、作業は時間の経過とともに分散されるため、システム負荷が低くなります。

ただし、一般に同期データ統合よりも遅くなります。

ほぼリアルタイムのデータ統合ソリューションは、多くの場合、エンタープライズサービスバスを使用して実装されます。

非同期

非同期データフローでは、データを提供するシステムは、受信側システムが更新を確認するのを待たずに処理を続行します。

非同期とは、他のシステムが正常に機能している間、送信または受信システムが一定期間オフラインになる可能性があることを意味します

非同期データ統合では、ソースシステムアプリケーションの実行継続がブロックされず、ターゲットアプリケーションが使用不可になってもソースアプリケーションが使用できなくなることもありません。

非同期構成ではアプリケーションへのデータ更新がタイムリーではないため、準リアルタイム統合と呼ばれます。

リアルタイム、同期

ソースデータとターゲットデータ間の時間遅延やその他の差異が許可されない状況があります。

あるデータセットのデータを別のデータセットのデータと完全に同期する必要がある場合は、リアルタイム同期ソリューションを使用する必要があります。

同期統合ソリューションでは、実行は他のアプリケーションまたはプロセスからの確認を待ってから、次のアクティビティまたはトランザクションを実行します。

データ同期の確認を待つために時間を費やす必要があるため、ソリューションで処理できるトランザクションは少なくなります。

データを更新する必要があるアプリケーションが使用できない状態にある場合、アプリケーション内のトランザクションを完了できません。

低遅延またはストリーム処理

インシデント対応時間を短縮するように設計された低遅延データ統合ソリューション

ソリッドステートディスクを使用する

読み取りおよび書き込みのレイテンシを短縮する

非同期ソリューション

通常、次のデータを処理する前に後続のプロセスからの確認応答を待つ必要がないように、低遅延ソリューションで使用されます。

大規模なマルチプロセッサまたは並列処理

これは低遅延のための一般的な構成でもあります

コピー

世界中のユーザーにより良い応答時間を提供するために、一部のアプリケーションでは、データセットの正確なコピーが複数の物理的な場所に保持されています。

レプリケーションテクノロジーにより、メイントランザクションのオペレーティング環境のパフォーマンスに対する分析とクエリの影響を最小限に抑えます。

したがって、データ同期は、データセットの物理的に分散されたコピーごとに実行する必要があります。

ソリューションをコピーする

通常は、データセット自体ではなく、データセットの変更ログを監視します。

データセットへのアクセスに関してアプリケーションと競合しないため、運用アプリケーションへの影響を最小限に抑えます。

変更ログのデータのみがレプリカ間で転送されます。

標準のレプリケーションソリューションはほぼリアルタイムです

レプリケーションツールは、ソースデータセットとターゲットデータセットが互いの正確なコピーである場合に最高のパフォーマンスを発揮します。

データ変更が複数のレプリカサイトで発生する場合、レプリケーションソリューションは最良の選択ではありません

アーカイブ

使用頻度が低いデータは、組織にとって安価な代替データ構造またはストレージソリューションに移動できます。

ETL 機能は、データをアーカイブし、場合によってはアーカイブ環境のデータ構造に変換するために使用されます。

アーカイブ技術を監視して、技術が変化してもデータに引き続きアクセスできることを確認することが重要です

エンタープライズメッセージフォーマット/カノニカルフォーマット

カフカ

正規化されたデータモデルは、組織またはデータ交換チームがデータ共有形式を標準化するために使用する共通モデルです。

一般的なメッセージ形式またはエンタープライズ仕様のメッセージ形式に従って、送信システムから受信システムにデータを変換します。

正規化された形式を使用すると、システムまたは組織間のデータ変換の量が削減されます。

各システムは、データを多数のシステム形式に変換するのではなく、中央の標準形式に変換するだけで済みます。

インタラクションモデル

対話モデルは、データを転送するためにシステム間で接続を確立する方法を記述します。

ポイントからポイントへ

共有データシステム間のやり取りの大部分は「ポイントツーポイント」であり、相互にデータを直接受け渡します。

このモデルは、小規模なシステムセットのコンテキストで機能します。

しかし、多くのシステムが同じソースからの同じデータを必要とする場合、非効率になり、組織のリスクが増大します。

インパクト加工

ソースシステムが稼働している場合、データ提供のワークロードがトランザクション処理に影響を与える可能性があります。

管理インターフェース

ポイントツーポイント対話モデルに必要なインターフェイスの数は、システムデータの 2 乗に近い

これらのインターフェイスが確立されたら、メンテナンスとサポートを行う必要があります。

システム間のインターフェイスの管理とサポートの作業負荷は、すぐにシステム自体のサポートを超えてしまう可能性があります。

潜在的な不一致

複数のシステムで異なるバージョンまたはデータ形式が必要な場合、設計上の問題が発生します。

複数のインターフェイスを使用してデータを取得すると、ダウンストリームシステムに送信されるデータに一貫性がなくなる可能性があります。

ハブアンドスポーク

共有データ (物理または仮想) をアプリケーションが使用できる中央データセンターに統合します。

データを交換したいすべてのシステムは、他のシステムと直接 (ポイントツーポイント) ではなく、中央の共通データコントロールを通じてそれを行います。

データウェアハウス、データマート、運用データストア、マスターデータ管理センターはすべてデータセンターの例です。

データセンターは、ソースシステムのパフォーマンスへの影響を限定しながら、データの一貫したビューを提供します

システムをミックスに追加するには、データセンターへのインターフェースを構築するだけで済みます。

Enterprise Service Bus (ESB) は、複数のシステム間でほぼリアルタイムでデータを共有するためのデータ統合ソリューションです。そのデータセンターは、組織内のデータ共有の標準化された形式を表す仮想概念です。

一部のハブアンドスポークモデルには、許容できない遅延やパフォーマンスの問題がある

ハブアンドスポークアーキテクチャではデータセンター自体に作成オーバーヘッドが発生します

購読して公開する

パブリッシュアンドサブスクライブモデルには、データを宣伝 (パブリッシュ) するシステムと、データを受け入れる (サブスクライブ) 他のシステムが含まれます。

データをプッシュするシステムはデータサービスのカタログにリストされており、データを使用したいシステムはこれらのサービスに登録します。

データを公開すると、データは購読ユーザーに自動的に送信されます

データ統合と相互運用性アーキテクチャの概念

アプリケーションの結合

カップリングは、2 つのシステムがどの程度絡み合っているかを表します。

固く結ばれた

緊密に結合された 2 つのシステムには、一方のシステムが他方のシステムからの応答を待つ同期インターフェイスが存在することがよくあります。

オペレーショナルリスクを表す

一方が利用できない場合、実質的に両方とも利用できなくなり、両方のシステムの事業継続計画が一貫している必要があります。

疎結合

最適なインターフェイス設計です

応答を待たずにシステム間でデータを転送します。一方のシステムが利用不能になっても、もう一方のシステムが利用不能になることはありません。

疎結合は、サービス、API、メッセージキューなどのさまざまなテクノロジーを使用して実現できます。

EBS に基づくサービス指向アーキテクチャは、疎結合データ対話設計パターンの例です

オーケストレーションとプロセス制御

整える

システム内で複数の関連プロセスを編成および実行する方法を説明するために使用されます。

メッセージまたはデータグラムを処理するすべてのシステムは、一貫性と継続性を維持するために、これらのプロセスが実行される順序を管理できなければなりません。

プロセス制御

データの正確かつ完全な配信、スケジュール設定、抽出、ロードを保証するコンポーネントです

エンタープライズアプリケーションの統合

エンタープライズアプリケーション統合モデル EAI では、ソフトウェアモジュールは明確に定義されたインターフェイス呼び出し (アプリケーションプログラミングインターフェイス API) を通じてのみ対話します。

データストレージは、独自のソフトウェアモジュールを通じてのみ更新できます。他のソフトウェアは、定義された API を通じてのみアプリケーション内のデータに直接アクセスできます。

EAI はオブジェクト指向の概念に基づいており、他のモジュールに影響を与えることなくモジュールを再利用および置換できる機能を重視しています。

エンタープライズサービスバス

システム間の仲介者として機能し、システム間でメッセージを配信します。

アプリケーションは、ESB の既存の機能を通じて、送受信されたメッセージまたはファイルをカプセル化できます。

疎結合の例として、ESB は 2 つのアプリケーション間のサービスとして機能します。

サービス指向アーキテクチャー

アプリケーション間の明確に定義されたサービス呼び出しを通じて、プッシュデータまたは更新データを提供できます。

アプリケーションは他のアプリケーションと直接対話したり、他のアプリケーションの内部動作を理解したりする必要はありません。

アプリケーションの独立性と、対話するシステムに大幅な変更を加えることなくシステムを置き換える組織の能力をサポートします。

SOA の目標は、独立したソフトウェアモジュール間の明確に定義された対話を定義することです。

各モジュールは、他のソフトウェアモジュールまたは個々のコンシューマが機能を実行する (機能を提供する) ために使用できます。

SOA の重要な概念は、独立したサービスが提供されるということです。サービスには呼び出し側アプリケーションに関する事前知識がなく、サービスの実装は呼び出し側アプリケーションにとってブラックボックスです。

SOA は、Web サービス、メッセージング、API などのさまざまなテクノロジを通じて実装できます。

複雑なイベント処理

イベント処理は、発生したイベントに関する情報の流れを追跡および分析 (処理) し、そこから結論を引き出す方法です。

複雑なイベント処理とは、複数のソースからのデータを結合し、意味のあるイベントを識別し、イベントの処理とルーティングをガイドするためにこれらのイベントのルールを設定し、動作やアクティビティを予測し、予測結果に基づいてリアルタイムの応答を自動的にトリガーすることを指します。

販売機会、Web クリック、注文、顧客からの電話など。

複雑なイベント処理にはさまざまなデータを統合できる環境が必要

予測にはさまざまな種類の大量のデータが関与することが多いため、複雑なイベント処理はビッグデータに関連付けられることがよくあります。

複雑なイベント処理では、多くの場合、リアルタイムのストリーミングデータやメモリ内データベースの処理など、超低遅延をサポートするテクノロジーの使用が必要になります。

データフェデレーションと仮想化

データが異なるデータリポジトリに存在する場合、物理的な統合以外の方法でデータを集約することもできます。

データフェデレーションにより、それぞれの構造に関係なく、独立したデータリポジトリの組み合わせへのアクセスが提供されます。

データ仮想化により、分散データベースや複数の異種データストアにアクセスし、単一のデータベースとして表示できるようになります。

サービスとしてのデータ

Software as a ServiceSaaS

配信およびライセンスモデルです

ライセンスされたアプリケーションはサービスを提供しますが、ソフトウェアとデータは、ライセンス組織のデータセンターではなく、ソフトウェアベンダーが管理するデータセンターに配置されます。

さまざまなレベルのコンピューティングインフラストラクチャをサービスとして提供 (IT as a Service IaaS、Platform as a Service PaaS、Database as a Service DBaaS)

Data as a Service DaaS

データはベンダーからライセンスを取得し、ライセンスを取得した組織のデータセンターにデータを保存および維持するのではなく、ベンダーによってオンデマンドで提供されます。

クラウド統合

クラウドコンピューティングが登場する前は、統合は内部統合と企業間統合 B2B に分けられていました。

内部統合

サービスは内部ミドルウェアプラットフォームを通じて提供され、多くの場合、サービスバス ESB を使用してシステム間のデータ交換を管理します。

企業間の統合

電子データ交換EDIゲートウェイと付加価値ネットワークVANで完結

クラウド統合

通常は、統合されるデータを所有する組織内ではなく、ベンダーのデータセンターで SaaS アプリケーションとして実行されます。

データ交換標準

データ相互作用標準は、データ要素の構造に関する正式なルールです。

交換パターンは、システムまたは組織がデータを交換するために必要なデータ変換構造を定義します。

データを交換仕様にマッピングする必要がある

システム間で一貫した交換形式またはデータレイアウトに同意すると、企業内でのデータ共有プロセスが大幅に簡素化され、それによってサポートコストが削減され、従業員がデータをより深く理解できるようになります。

National Information Exchange Model (NIEM) は、米国政府機関間で文書や取引を交換するために開発されたデータ交換標準です。

活動

計画と分析

データ統合とライフサイクル要件を定義する

データ統合要件の定義には、組織のビジネス目標だけでなく、それらの目標を達成するために必要なデータと推奨されるテクノロジーオプションを理解することが含まれます。

このデータの収集も必要とする関連する法律または規制

要件定義のプロセスでは、貴重なメタデータが作成および検出されます

組織のメタデータがより完全で正確であればあるほど、データ統合のリスクとコストを管理する能力が高まります。

データ探索を実行する

データ探索は設計前に行う必要があります

データ探索の目標は、データ統合作業のための潜在的なデータソースを特定することです。

データ探索により、データがどこで取得され、どこで統合できるかが特定されます。

このプロセスでは、組織のデータセット上のメタデータと実際のコンテンツをスキャンするツールを使用して、技術的な検索と主題の専門知識を組み合わせます。

データ探索には、データが統合計画の目標に適しているかどうかを判断するためのデータ品質に関する高レベルの評価作業も含まれます。

レコードデータの系統

データ探索プロセスでは、データが組織内をどのように流れるかについての情報も明らかになります。

この情報は、データが組織によってどのように取得または作成されたか、データが組織内でどのように移動および変更されたか、分析、意思決定、またはイベントのために組織によってどのように使用されたかなど、高レベルのデータ系統を文書化するために使用できます。トリガーする

十分に文書化されたデータ系統には、データが変更されるルールとその変更頻度が含まれます。

分析プロセスは、既存のデータフローを改善する機会も提供します。

これらの非効率または非効果的な構成を見つけて排除することは、プロジェクトの成功に大きく役立ち、組織のデータ使用能力全体を向上させることができます。

データを分析する

データの内容と構造を理解することが、データセットで成功を収める鍵となります

データプロファイリングはこの目標の達成に役立ちます

データプロファイリングプロセスをスキップすると、設計に影響を与える一部の情報がテストまたは実際の運用まで発見されない可能性があります。

プロファイリングの目的の 1 つは、データの品質を評価することです。

高度なデータ探索と同様に、データプロファイリングには、実際のデータと比較してデータに関する仮定を検証することが含まれます。

ビジネスルールを収集する

ビジネスルールは、要件の主要なサブセットであり、ビジネス処理の側面を定義または制約するステートメントです。

ビジネスルールは、ビジネス構造を維持し、ビジネスの行動を制御または影響を与えるように設計されています。

データ統合ソリューションの設計

データ統合ソリューションは、企業レベルと個人ソリューションレベルの両方で検討する必要があります。

企業標準を確立することで、組織は個別のソリューションを実装する時間を節約できます

インタラクションモデルの選択

ハブアンドスポーク、ポイントツーポイント、パブリッシュ/サブスクライブ

データサービスまたは交換パターンを設計する

データセンター、インターフェース、メッセージ、データサービスのモデル化

データをターゲットにマッピングする

データオーケストレーションの設計

データ統合ソリューションの開発

データサービスの開発

データフローオーケストレーションの開発

データ移行計画を策定する

リリース方法を開発する

複雑なイベント処理フローを開発する

データの統合と相互運用性のためにメタデータを維持する

実装と監視

道具

データ変換エンジン/ETLツール

データ変換エンジン (または ETL ツール) は、データ統合ツールボックスの主要なツールであり、あらゆるエンタープライズデータ統合プログラムの中心となります。

データがバッチかリアルタイムか、物理か仮想かにかかわらず、ETL を開発して実行するための非常に高度なツールが存在します。

データ変換エンジンを選択する際の基本的な考慮事項には、バッチ処理とリアルタイム機能が必要かどうか、非構造化データと構造化データが含まれるかどうかが含まれます。

現在最も成熟しているのは、構造化データ用のバッチ処理ツールです。

データ仮想化サーバー

データ変換エンジン

データを物理的に抽出、変換、ロードする

データ仮想化サーバー

データを仮想的に抽出、変換、統合する

構造化データと非構造化データを組み合わせることができる

エンタープライズサービスバス

ソフトウェアアーキテクチャモデルとメッセージ指向ミドルウェアの両方を指します。

同じ組織内の非同期ストア、アプリケーション、サーバー間のほぼリアルタイムのメッセージング用

ビジネスルールエンジン

多くのデータ統合ソリューションはビジネスルールに依存しています

これらのルールはメタデータの重要な形式として、基本的な統合や複雑なイベント処理を含むソリューションに使用できるため、組織はこれらのイベントにほぼリアルタイムで対応できます。

データおよびプロセスモデリングツール

データモデリングツールは、ターゲットデータ構造だけでなく、データ統合ソリューションに必要な中間データ構造も設計するために使用されます。

データプロファイリングツール

データセットの内容の統計分析を実行して、データの形式、一貫性、有効性、構造を理解します。

メタデータリポジトリ

ストアには、データ構造、内部構造、データの管理に使用されるビジネスルールなど、組織内のデータに関する情報が含まれています。

方法

アプリケーションの疎結合を維持し、開発および管理インターフェイスの数を制限し、ハブアンドスポークアプローチを使用して、標準化されたインターフェイスを作成します。

実装ガイド

準備状況評価/リスク評価

組織と文化の変化

データ統合と相互運用性ガバナンス

データ共有契約

交換されるデータの責任と許容される使用法を定め、関連データのビジネスデータマネージャーによって承認されます。

データの統合と相互運用性、およびデータリネージュ

メトリクス

データの可用性

データ量と速度

ソリューションのコストと複雑さ

DAMA-CDGA データ ガバナンス エンジニア - 8. データの統合と相互運用性

DAMA-CDGA データ ガバナンス エンジニア - 8. データの統合と相互運用性

DAMA-CDGA データガバナンスエンジニア - 8. データの統合と相互運用性

DAMA-CDGA データガバナンスエンジニア - 8. データの統合と相互運用性