マインドマップギャラリー DAMA-CDGA データ ガバナンス エンジニア - 14. ビッグ データとデータ サイエンス
ビッグ データとデータ サイエンス: 複数のプロセスによって生成されたデータ セットからビジネス チャンスを掴みたいという欲求は、組織のビッグ データとデータ サイエンスの能力を向上させるための最大のビジネス推進力です。
2024-03-05 20:32:22 に編集されました14. ビッグデータとデータサイエンス
導入
ビッグデータとは、単に大量のデータを指すだけでなく、データの種類や生成速度の速さも指します。
従来のビジネス インテリジェンス BI は、構造化データを分析することで過去の傾向を示す「バックミラー」レポートを提供します。
場合によっては、将来の動作を予測するために BI モデルが使用されますが、信頼性は高くありません
ビッグデータを活用したい場合は、データの管理方法を変える必要があります
ほとんどのデータ ウェアハウスはリレーショナル モデルに基づいていますが、ビッグ データは通常、データの整理にリレーショナル モデルを使用しません。
ほとんどのデータ ウェアハウスは ETL (抽出、変換、ロード) の概念に依存しています。
データ レイクなどのビッグ データ ソリューションは、ELT (最初にロードしてから変換) の概念に依存しています。
ビジネスドライバー
複数のプロセスによって生成されたデータセットから生成されるビジネスチャンスを掴みたいという願望は、組織のビッグデータおよびデータサイエンス能力を向上させるための最大のビジネス推進力です。
原則として
ビッグ データ管理に関連する原則はまだ策定されていませんが、非常に明らかなことが 1 つあります。組織は、データ ファイル、その出所、および値の正確なインベントリ管理を可能にするために、ビッグ データ ソースに関連付けられたメタデータを慎重に管理する必要があるということです。
基本的な考え方
データサイエンス
データサイエンティストは、行動に関する仮説を立てます。つまり、特定の行動の前に特定の行動がデータで観察される可能性があります。
次に、データ サイエンティストは大量の履歴データを分析して、その仮説が過去に実際にどのくらいの頻度で発生したかを判断し、モデルの精度を統計的に検証します。
仮説が十分に高い頻度で有効であり、仮説によって予測される動作が有用である場合、そのモデルは、おそらくリアルタイムで将来の動作を予測するためのオペレーショナル インテリジェンス プロセスの基礎となる可能性があります。
に依存します
豊富なデータソース
情報の整理と分析
情報配信
調査結果とデータの洞察を紹介する
データサイエンスのプロセス
ビッグデータ戦略とビジネスニーズを定義する
データソースの選択
データの収集と抽出
データの前提条件と方法を設定する
分析のためにデータを統合および調整する
モデルを使用してデータを探索する
導入と監視
ビッグデータ
大量のデータ
ビッグデータには、数十億のレコードに数千のエンティティや要素が含まれることがよくあります。
データ更新が早い
データがキャプチャ、生成、または共有される速度を指します。
さまざまなデータ型
データを取得または渡す形式を指します。
データの粘度が高い
データの使用または統合の難しさを指します
データの変動が大きい
データ変更の頻度と、その結果生じる短いデータ有効期間を指します。
データの精度が低い
データの信頼性が低いことを指します
ビッグデータ アーキテクチャのコンポーネント
DW/BI とビッグデータ処理の最大の違いは次のとおりです。
従来のデータ ウェアハウスでは、データはウェアハウスに入るときに統合 (抽出、変換、ロード) されます。
ビッグデータ環境では、データは統合される前に受信およびロード (抽出、ロード、変換) されます。
ビッグデータソース
構造化データ 非構造化データ
データレイク
データレイクは、さまざまな種類や構造の大量のデータを抽出、保存、評価、分析でき、さまざまなシナリオ アプリケーションを提供できる環境です。
たとえば、次のように指定できます。
データサイエンティストがデータをマイニングして分析できる環境
最小限の変換(必要な場合)で生データを保存する集中ストレージ領域
ELT によるコンバージョンはほとんどありません
データ ウェアハウスの詳細履歴データ用の代替ストレージ領域
情報記録のオンラインアーカイブ
データが抽出される環境は、自動化されたモデルによって特定できます。
データ レイクは、Hadoop やその他のデータ ストレージ システム、クラスター サービス、データ変換、データ統合などのデータ処理ツールの複合構成として実装できます。
危険
データレイクのリスクは、すぐに乱雑で不潔で一貫性のないデータ沼に変わってしまう可能性があることです。
データレイクにコンテンツのインベントリを構築するには、データが取り込まれるときにメタデータを管理することが重要です
サービスベースのアーキテクチャ
サービスベースのアーキテクチャは、データを即座に提供し、同じデータ ソースを使用して完全かつ正確な履歴データ セットを更新する方法になりつつあります。
SBA アーキテクチャはデータ ウェアハウスに似ています
すぐにアクセスできるようにデータを運用データ ストア ODS に送信します。
同時に、データは履歴の蓄積のためにデータ ウェアハウスにも送信されます。
レベル
バッチレイヤー
データレイクは、最近のデータと履歴データを含むバッチ処理を提供します
加速層
リアルタイム データのみが含まれます
サービス層
バッチ処理とアクセラレーション層のデータを接続するためのインターフェイスを提供します
データはバッチ層とアクセラレーション層にロードされます
すべての分析計算は、バッチ レイヤーとアクセラレーション レイヤーのデータに対して実行されます。この設計は 2 つの独立したシステムで実装する必要がある場合があります。
バッチ層は、時間の経過とともに変化する構造コンポーネント (ここでは各トランザクションは挿入) と呼ばれることが多いのに対し、アクセラレーション層 (ODS では運用データ ストレージと呼ばれることが多い) では、すべてのトランザクションが更新されます。
このアーキテクチャは、現在の状態レイヤーと履歴レイヤーを同時に作成することで同期の問題を防ぎます。
機械学習
教師あり学習
複雑な数学理論、特に統計学、組み合わせ論、オペレーションズリサーチに基づいています。
通過はルールに基づいて行われます (SPAM メールと非 SPAM メールの分離など)
教師なし学習
データマイニング
隠れたパターンを見つけ出すことに基づいて
学習を強化する
教師の同意なしで目標の最適化を達成
意味解析
メディアモニタリングとテキスト分析は、ブランド、製品、サービス、またはその他の種類のトピックについて人々がどのように感じ、考えているかを感知するために、大量の非構造化データまたは半構造化データから洞察を取得および導き出す自動化された方法です。
自然言語処理 (NLP) を使用して短い文章を分析し、感情を検出し、感情の変化を明らかにして、考えられるシナリオを予測します。
データとテキストマイニング
データマイニングは、さまざまなアルゴリズムを使用してデータのパターンを明らかにする特別な分析方法です
もともとは機械学習の一分野であり、人工知能の一分野でした。
標準化されたクエリおよびレポート ツールは特定の問題を特定でき、データ マイニング ツールはパターンを明らかにすることで未知の関係を発見するのに役立ちます。
テキスト マイニングは、テキスト分析とデータ マイニング テクノロジを使用してドキュメントを分析し、コンテンツを自動的に分類し、ワークフロー指向およびドメイン専門家指向のナレッジ オントロジーになります。
したがって、電子テキストメディアは再構築やフォーマットを行わずに分析できます。
テクノロジー
分析する
異常検出アプリケーションの行動規範を確立するために使用される、個人、グループ、または群衆の古典的な行動を説明する試み
プロファイリングの結果は、多くの教師なし学習コンポーネントに入力されます。
データ削減
大きなデータセットを小さなデータセットに置き換えることです
小さなデータ セットには、大きなデータ セットのほとんどの情報が含まれています
データセットが小さいほど分析や操作が簡単です
協会
相関関係は、トランザクションに含まれる要素を研究し、要素間の相関関係を見つける教師なし学習プロセスです。
たとえば、インターネットの推奨事項
クラスタリング
データ要素を共通の特性に基づいて異なるクラスターにグループ化します。
たとえば、顧客のセグメンテーション
自己組織化マップ
予測分析
予測分析は、追加情報を受け取ったときに組織の反応を引き起こす可能性のあるイベントと変数の確率モデルに基づいて開発されます。
予測モデルの最も単純な形式は推定です。
規範的分析
予測分析よりも一歩進んで、すでに発生したアクションに基づいて結果を予測するだけでなく、結果に影響を与えるアクションを定義します。
規範的な分析は、いつ何が起こるかを予測し、なぜそれが起こるのかを示唆します
規範的分析はさまざまな意思決定の影響を示すことができるため、機会を活用したりリスクを回避したりする方法を提案できます。
非構造化データ分析
より多くの非構造化データが生成されるにつれて、非構造化データ分析の重要性がますます高まっています
特定の分析は、非構造化データを分析モデルに組み込まないと実行できません。
しかし、非構造化データの分析は、関心のある要素を無関係な要素から分離する何らかの方法がなければ非常に困難になる場合もあります。
スキャンとタグ付けは、非構造化データに「フック」を追加する方法であり、関連するスキーマ データの接続されたフィルタリングを可能にします。
運用分析
オペレーショナル BI またはストリーミング分析とも呼ばれるこの概念は、運用プロセスとリアルタイム分析の統合から生まれました。
運用分析には、リアルタイムの情報フローの追跡と統合、行動予測モデルに基づいた結論の導き出し、自動応答とアラートのトリガーが含まれます。
運用分析ソリューションには、動作モデルを設定するために必要な履歴データの準備が含まれます
データの視覚化
ビジュアライゼーションは、写真やグラフィック表現を使用して概念、アイデア、事実を説明するプロセスです。
フィーチャ データを圧縮してカプセル化し、見やすくする
ビジュアライゼーションは静的形式 (公開されたレポートなど) である場合もあれば、ビジュアライゼーションを適応させる創造的な手段が必要な場合もあります。
データマッシュアップ
データとサービスを統合して、洞察や分析結果を視覚的に表示します
活動
ビッグデータ戦略とビジネスニーズを定義する
戦略的評価基準
組織はどのような問題を解決しようとしているのか、何を分析する必要があるのか?
使用または取得するデータ ソースは何ですか
データの適時性と範囲を提供する
他のデータ構造への影響と依存性
既存のモデリング データへの影響
データソースの選択
データソースの取得と受信
データの仮定と方法を開発する
分析のためにデータを統合および調整する
モデルを使用してデータを探索する
予測モデルを設定する
トレーニングモデル
評価モデル
データの視覚化を作成する
導入と監視
洞察と発見を明らかにする
追加のデータソースを使用して反復処理する
道具
MPP はテクノロジーもアーキテクチャも何も共有していません
分散ファイルベースのデータベース
データベース内アルゴリズム
ビッグデータクラウドソリューション
統計計算およびグラフィック言語
データ視覚化ツールセット
方法
分析モデリング
ビッグデータモデリング
実装ガイド
戦略的一貫性
準備状況評価/リスク評価
組織と文化の変化
ビッグデータとデータサイエンスのガバナンス
ビジュアルチャネル管理
データサイエンスと視覚化の標準
データセキュリティ
メタデータ
データ品質
メトリクス
技術的な使用状況の指標
ロードおよびスキャンインジケーター
学習とストーリーのシナリオ