マインドマップギャラリー データマイニングと分析テクノロジーのマインドマップ
人工知能、機械学習、統計などの方法を使用して、大量のデータから有用なこれまで知られていなかったパターンや知識を抽出するコンピューティング プロセス。
2021-12-27 22:46:49 に編集されましたデータマイニングと分析テクノロジー
第 1 章 データマイニングの概要
授業前に理解する
まとめ
機械学習
作業手順
データインポート
データの前処理
特徴エンジニアリング
スプリット
トレーニングモデル
評価モデル
新しいデータを予測する
AI
ビッグデータの特徴
たくさん
多様な
高速
価値
1.1 データマイニングの概要
意味
人工知能、機械学習、統計などの方法を使用して、大量のデータから有用なこれまで知られていなかったパターンや知識を抽出するコンピューティング プロセス。
背景
データの量は劇的に増加し、データベースベースの知識発見、および対応するデータマイニング理論と技術の研究という新しい研究の方向性が生まれました。
インターネットに次ぐテクノロジーのホットスポット
大量の情報は人々に利便性をもたらす一方で、多くの問題ももたらします。
情報が多すぎて消化するのが難しい
情報の真偽を見分けるのは難しい
情報セキュリティを保証するのは難しい
情報はさまざまな形式で提供され、均一に処理することが困難
爆発的なデータだが知識は乏しい
ビジネスデータからビジネス情報への進化
データ収集→データアクセス→データウェアハウス、意思決定支援→データマイニング(予測情報の提供)
ステージ
データの前処理
クリーンアップ、統合、選択、変換
データマイニング
モデルの評価
プロセス
データ、情報、知識
データ
「8000m」「10000m」
客観的な事物の観察と測定から生み出される、研究対象となる客観的な事物を実体と呼びます。
情報
「航空機飛行の最高高度は8000メートル」「10000メートルの高山」
知識
「飛行機はこの山を越えることはできません」
知恵
メインコンテンツ
アソシエーションルールマイニング
ビールとおむつ
教師あり機械学習
離散ラベル予測 - ラベル分類
連続ラベル予測 - 数値予測
教師なし機械学習 - クラスタリング (類似性アルゴリズム)
戻る
複数の変数間の定量的な関係を確立する
アルゴリズムの分類
教師あり学習
与えられたトレーニングデータから関数(モデル)を学習し、新しいデータが到着すると、その関数(モデル)に基づいて結果を予測できます。
トレーニング データには明確な識別または結果が含まれています
回帰アルゴリズム、ニューラル ネットワーク、SVM サポート ベクター マシン
回帰アルゴリズム
線形回帰
数値的な問題を扱うと、最終的な予測結果は次のような数値になります。
ロジスティック回帰
電子メールがスパムかどうかを判断するなどの分類アルゴリズムに属します。
ニューラルネットワーク
視覚認識や音声認識への応用
SVM サポート ベクター マシン アルゴリズム
ロジスティック回帰アルゴリズムの強化
教師なし学習
トレーニング データには特にラベルが付けられていない
クラスタリングアルゴリズム、次元削減アルゴリズム
クラスタリングアルゴリズム
母集団内の距離を計算し、距離に基づいてデータを複数の母集団に分割します。
次元削減アルゴリズム
データを高次元から低次元に削減します。たとえば、住宅価格には、住宅の長さ、幅、面積、部屋数の 4 つの特性が含まれます。次元は 4 次元データであり、長さと幅の情報は、面積 = 長さ × 幅で表される情報と重複します。
データを圧縮して機械学習の効率を向上させる
エンタープライズ データ アプリケーション
半教師あり学習
トレーニングおよび分類問題で少数のラベル付きサンプルと多数のラベルなしサンプルを使用する方法
画像の識別
強化学習
学習対象者は観察した周囲からのフィードバックに基づいて判断を下します
ロボット制御
1.2 データマイニングの基本的なプロセスと方法
基本的な方法
予測マイニング
現在のデータを外挿して予測を行う
記述的マイニング
データベース内のデータの一般的な特性 (相関、傾向、クラスタリング、異常など) を特徴付けます。
データマイニングのフローチャート
第六中学校における主なデータマイニング手法(P6)
データセットの概要
データ関連付けルール
データ間の潜在的なつながりを記述する方法。通常は暗黙の A-B で表されます。
分類と予測
クラスタリング
異種検出
時系列モデル
1.3 データマイニングの応用
仕事
ヘルスケアと医療
銀行と保険
ソーシャルメディア
道具
Weka、MATLAB、Java
関連情報
サブトピック
第 2 章 データの説明と視覚化
2.1 概要
データ属性とデータ値の分析→データの説明と視覚化
2.2 データオブジェクトと属性タイプ
データセット
データオブジェクトで構成される
売上データベース: 顧客、店舗アイテム、売上 医療データベース:患者、治療情報 大学データベース: 学生、教授、コース情報
データオブジェクト
データオブジェクトはエンティティを表します
として知られている: サンプル、サンプル、インスタンス、データ ポイント、オブジェクト、タプル
属性
データオブジェクトの特性
用語
データベース: ディメンション
機械学習: 機能
統計: 変数
データマイニング、データベース: プロパティ
分類
公称特性
名目上の属性値は、カテゴリーや名前を表すいくつかの記号またはものの名前です
公称属性: 髪の色、可能な値: 黒、白、茶色 公称属性: 婚姻状況、可能な値: 既婚、独身、離婚、死別
バイナリ属性 (特殊な公称属性)
カテゴリとステータスは 2 つだけです
対称バイナリ
データサイズの差は小さい 例: 性別 - 男性、女性
非対称バイナリ
データサイズは大きく異なります 例: 医療検査 – 陰性、陽性
順序プロパティ
順序はありますが、その違いは不明で、通常は評価に使用されます。
教師の称号、軍の階級、顧客満足度
数値プロパティ
間隔スケーリングのプロパティ
単位長さで連続測定
比率スケールのプロパティ
固定ゼロ点があり、順序付けされており、倍数を計算できます
離散属性と連続属性
2.3 データの基本的な統計的説明
中心傾向の尺度
平均値、中央値、最頻値
メトリクスデータの広がり
範囲、四分位、四分位範囲
5 つの数字の要約、箱ひげ図、外れ値
分散、標準偏差
データの基本統計をグラフで表現
分位点プロット
分位数 - 分位数プロット
ヒストグラム
高さ - 量、頻度
散布図
属性間の相関関係を発見する
2.4 データの視覚化
意味
グラフィックを通じてデータを効果的に表現する
3つの可視化方法
箱ひげ図 (箱ひげ図)
複数の属性データの分散差を分析
データの分布を表示し、外れ値を表示できます(削除が必要)
ヒストグラム
さまざまな間隔での単一属性の変化分布を分析します。
散布図
2 つのデータセット間の相関分布を表示します
2.4.1 ピクセルベースの視覚化
1 次元の値を視覚化する簡単な方法は、色がその次元の値を反映するピクセルを使用することです。
1 次元の値に適していますが、多次元の空間データの分布には適していません
2.4.2 幾何投影の視覚化
ユーザーが多次元データの投影を発見できるようにします。幾何投影テクノロジの主な課題は、高次元空間を 2 次元で視覚化する方法を見つけ出すことです。
2 次元のデータ ポイントの場合、通常はデカルト座標系の散布図が使用され、散布図ではデータの 3 次元としてさまざまな色や形状を使用できます。
(3 次元データセットに使用) 散布図、散布図行列、平行座標の視覚化 (次元数が大きい場合)
2.4.3 アイコンベースの視覚化
少数のアイコンで多次元データ値を表現します
よく使用される 2 つのアイコン方法
チェルノフの顔 (最大 36 次元の視覚化が可能)
データの傾向を明らかにする
顔の目、口、鼻などの要素は、さまざまな形状、サイズ、位置、方向を使用して寸法値を表します。
各顔は n 次元のデータ ポイント (n ≤ 18) を表し、顔の小さな違いを識別することでさまざまな顔の特徴の意味が理解されます。
キャラクター線画
2.4.4 階層的な視覚化
すべての次元をサブセット (つまり、部分空間) に分割し、これらの部分空間を階層的に視覚化します。
一般的に使用される 2 つの階層視覚化方法
X 軸 Y 軸のサブセット階層
数値チャート
2.4.5 複雑なオブジェクトと関係の視覚化
タグクラウド
2.5 データの類似性と非類似性の測定
コンセプト
類似性
2 つのデータ オブジェクトがどの程度類似しているかを測定します。値が大きいほど、より類似していることを示します。通常の値の範囲は [0,1] です。
似ていないこと
2 つのデータ オブジェクト間の相違の程度を測定します。値が小さいほど、データは類似しています。通常、最小の相違度は 0 です。
近接性
類似性または非類似性を指します
2 つのデータ構造を提供します
データ マトリックス (オブジェクト - 属性マトリックス)
n データ オブジェクトを格納します。各 n データ オブジェクトには n 行があり、p 個の属性特性には p 列があります)
相違度行列 (オブジェクト - オブジェクト行列)
データオブジェクトの保存に使用される相違値
通常は三角行列
公称属性の近接度測定
バイナリ属性の近接性測定
数値属性の相違点
数値属性オブジェクトの非類似性の距離測定を計算するためのいくつかの一般的な方法
ユークリッド距離
マンハッタンの距離
Ou と Man は次の特性を同時に満たします
ミンコフスキー距離
オユマンの宣伝
最高距離
オブジェクト間の差の最大値を与える
順序属性の近接性の測定
混合属性の相違点
属性の種類ごとにグループに分けられ、種類ごとにデータマイニング分析(クラスター分析など)が実行されます。 これらの分析で同じ結果が得られる場合、この方法は機能しますが、実際のアプリケーションでは、属性タイプの分類ごとに同じ結果を得るのは困難です。
より良いアプローチ: 1 回の分析を実行し、異なる属性を 1 つの相違度行列に結合し、属性を共通の区間 [0.0,0.1] に変換するだけです。
例
サブトピック
コサイン類似度 (理解するだけ)
テキスト検索、生体情報マイニング
文書ベクトル、単語頻度ベクトル
周波数ベクトルは通常、長くてまばらです (0 値が多くあります)。
第7章 サポートベクターマシン
サポートベクターマシンの分類
線形二項分類問題
最適な超平面を見つける
第6章 分類と予測
6.1 データの分類
連続変数
身長体重
カテゴリ変数
順序なしカテゴリ変数
秩序ある分類
データ分類の一般的な方法
分類、順序、距離、比率
6.2 デシジョンツリーモデル
デシジョンツリーを生成する
デシジョンツリーを枝刈りする
6.2.1 デシジョンツリーの仕組み
6.3 ベイズ分類モデル
最大事後仮説
学習者は、データ D が与えられた場合、候補仮説セット H から最も可能性の高い仮説 h を選択します。h は最大事後仮説と呼ばれます。
同時確率を求める必要がある
通常、各属性は独立して同一に分散されていると想定されます。
この前に、属性間の相関を最小限に抑えるために相関計算とマージを実行する必要があります。
特徴
属性は離散的または連続的にすることができます
強固な数学的基盤と安定した分類効率
欠損、ノイズの多いデータ、外れ値の影響を受けにくい
属性に関連性がない場合、分類効果は非常に優れています
6.4 線形判別モデル
6.5 ロジスティック回帰モデル
6.6 モデルの評価と選択
第5章 アソシエーションルールマイニング
5.1 概要
コンセプト
アソシエーション ルール マイニングは、トランザクション データベース内のアイテム セット間の相関をマイニングし、サポートと信頼性の最小しきい値要件を満たすすべてのアソシエーション ルールをマイニングするために使用されます。
関連ルールは、大量のデータ内のデータ項目間の潜在的に有用な依存関係を見つけるために使用されます。
よく使うアイテムセット
最低限のサポートと最低限の信頼性を満たすアイテムセット
サポート
信頼性
強力なルール
最低限のサポートと信頼を満たす、またはそれを超えるルール
データマイニングの主な手順
ビッグデータの項目集合において、出現数≧頻出項目集合を求める
上記で取得した頻出項目セットから、最低限のサポートと信頼性の条件を満たす相関ルールを確立します。
5.2 分類
5.3 調査手順
5.4 アプリオリアルゴリズム分析
5.6 アソシエーション ルールの一般化 (GRI)
深さ優先探索
5.7 相関ルールの詳細な調査
第4章 データ削減(データ削減)
4.1 メンテナンスの概要
データの元の外観を維持しながら、データを最大限に合理化します。
4.2 属性の選択と数値削減
属性の評価基準(P58)
一貫性測定
2 つの属性間の一貫性の度合い
教育レベルとVIPレベルの一致度
相関測定
異なる属性間の相関とは、それらの間の関係を指します。
教育レベルとVIPレベルの相関関係
2 つの属性間の相関が高いほど、一方の属性の値を他方の属性の値から推測する精度が高くなります。
識別能力測定
データベース内のレコードを区別する特定の属性の機能
情報計測
属性に含まれる情報の量が多いほど、その重要性は高くなります
情報量は通常「情報エントロピー」で測られます。
属性サブセットの選択方法
ステップバイステップで進むを選択してください
ターゲットプロパティを空に設定します
各反復では、元のデータ セット内の残りの属性から最適な属性が選択され、それがターゲット属性セットに追加されます。
元のデータセットから属性を削除します
ターゲット セットが要件を満たすまでこのプロセスを繰り返します
ステップバイステップの後方選択
まず、元の属性セットをターゲット以外の属性セットに割り当てます。
各反復で、総合スコアが最も悪い属性がターゲット属性セットから削除されます。
ターゲット属性セットが要件を満たすまで、このプロセスを繰り返します。
数値的削減
プロパティを変数に変換してダイナミック レンジを縮小します。
単純な関数変換
データの標準化
属性を離散化し、整数でエンコードする
等幅離散化、等深さ離散化
値が 2 つだけになるように属性をバイナリ化します。
属性値が信号や画像の場合は圧縮符号化も可能
4.3 線形回帰
意味
単一の従属変数と 1 つ以上の独立変数の間の関係を研究するものです
使いやすさ
予測とは、観測変数を使用して従属変数を予測することを指します。
因果分析では、独立変数を従属変数の原因として扱います。
線形回帰
重回帰
非線形回帰
線形依存関係を持たないモデル データ
多項式回帰モデリング手法を使用し、変数変換を実行して非線形モデルを線形モデルに変換し、最小二乗法を使用してそれを解きます。
4.4 主成分分析(PCA主成分分析)
高次元データの次元削減に一般的に使用される方法
元の変数の線形結合を作成し、結合されたいくつかの変数を通じて元の量の情報のすべてまたはほとんどを反映します。
結合された変数が主成分です
第 3 章 データの収集と前処理 (クリーニング、統合、削減、変換)
3.1 概要
ビッグデータ収集の特徴
ビッグデータのライフサイクルの最初のステップ
従来のデータと比較して、ビッグデータのデータは大規模で、多様で、異質です。
ビッグデータは、収集から処理に至るまで、一貫性、可用性、パーティションのフォールトトレランスを考慮する必要があります。
ビッグデータの収集方法(理解)
分散システムのログ収集
ネットワークデータ収集
Webクローラ、Webサイト公開API(アプリケーションプログラミングインターフェース)
DPIディープパケットインスペクション
DFI深度/動的流量検査
特定のシステムインターフェースデータ収集
3.2 データ前処理の目的とタスク
目的
データ品質の向上
メインミッション
データクリーニング
データ内のノイズを明確にし、不一致を修正します
データ統合
複数のデータ ソースからのデータをデータ ウェアハウスなどの一貫したデータ ストアに統合します。
データ変換(正規化など)
データをより短い間隔に圧縮する
3.3 データクリーニング
本質はデータモデルを変更するプロセスです
データ クリーニング パス (理解)
1. 欠損値のクリーニング
欠損値を削除する
平均代入
ホットカード充填方法
最近距離判定充填法
回帰代入
複数の代入方法
k - 最近傍法
ベイズベースのアプローチ
2. 外れ値(外れ値、野生値)のクリーニング
外れ値の定義と特定
外れ値の処理
3. フォーマットコンテンツのクリーニング
4. ロジックエラーのクリーニング
重複を削除する
不合理な価値観を取り除く
5. 不要なデータのクリーニング
6.適合性の検証
3.4 データ統合
コンセプト
従来の意味でのデータ統合
複数のデータ ストアのデータを結合し、データ ウェアハウスなどの単一のデータ ストアに保存します。
一般的な意味でのデータ統合
ETL - 抽出、変換、ロード (宛先へ) データ ウェアハウスを構築する上で重要な部分です
ユーザーは、データ ソースから必要なデータを抽出し、データをクリーンアップし、最後に事前定義されたデータ ウェアハウス モデルに従ってデータをデータ ウェアハウスにロードします。
モデルの重要性
データの定義を標準化して、統一されたコーディング、分類、編成を実現します。
複数のデータベースを統合する場合、データの冗長性がよく発生します。
冗長な属性の検出
相関分析
離散変数
カイ二乗検定
値が大きいほど関連性が高くなります
連続変数
相関係数
1、-1 に等しい、完全に線形関係
0 より大きい、正の相関
0 に等しい、線形相関はありません
0 未満、負の相関
共分散分析
0 より大きい、正の相関
0 に等しい、独立性
一部のデータは共分散が 0 ですが、独立ではありません
0 未満、負の相関
データ削減戦略
次元削減
次元削減が必要なシナリオ
データは疎であり、次元が高い
高次元データはルールベースの分類手法を採用
複雑なモデル (深層学習など) を使用しますが、トレーニング セットの数は少ない
視覚化する必要がある
代表的な次元削減手法 - PCA 主成分分析
導入
データ内の多くの属性間には相関関係があります。
関連する複数の属性を組み合わせて 1 つの属性だけを形成する方法は見つかりますか?
コンセプト
特定の相関関係を持つ複数の元の属性 (p 属性など) を、関連性のない包括的な属性のセットに再結合して、元の属性を置き換えます。通常、数学的処理は、p の元の属性を申請者の包括的な属性として線形結合することです。
例:学生の成績、国語、数学、外交、歴史、地理などは文系と理系の2つの属性に分けられます。
データ削減 - サンプリング
データ圧縮
ピクセルなどの品質を下げてデータのサイズを小さくします。
3.5 データ変換
データ変換戦略
滑らかさ、属性構築、集約、正規化、離散化、概念階層化
一般的に使用されるデータ変換方法
正規化によるデータの変換
ビニングによる離散化
ヒストグラムビニングによる離散化
クラスタリング、デシジョン ツリー、相関分析による離散化
名目データの概念的階層化
離散化
等幅法
等周波数法
クラスタリング手法