マインドマップギャラリー パターン認識
機械学習またはデータマイニングとも呼ばれます。主に導入、データの前処理、クラスター分析、ベイズ分類、最近傍法などが含まれます。
2024-02-04 00:51:57 に編集されましたAvatar 3 centers on the Sully family, showcasing the internal rift caused by the sacrifice of their eldest son, and their alliance with other tribes on Pandora against the external conflict of the Ashbringers, who adhere to the philosophy of fire and are allied with humans. It explores the grand themes of family, faith, and survival.
This article discusses the Easter eggs and homages in Zootopia 2 that you may have discovered. The main content includes: character and archetype Easter eggs, cinematic universe crossover Easter eggs, animal ecology and behavior references, symbol and metaphor Easter eggs, social satire and brand allusions, and emotional storylines and sequel foreshadowing.
[Zootopia Character Relationship Chart] The idealistic rabbit police officer Judy and the cynical fox conman Nick form a charmingly contrasting duo, rising from street hustlers to become Zootopia police officers!
Avatar 3 centers on the Sully family, showcasing the internal rift caused by the sacrifice of their eldest son, and their alliance with other tribes on Pandora against the external conflict of the Ashbringers, who adhere to the philosophy of fire and are allied with humans. It explores the grand themes of family, faith, and survival.
This article discusses the Easter eggs and homages in Zootopia 2 that you may have discovered. The main content includes: character and archetype Easter eggs, cinematic universe crossover Easter eggs, animal ecology and behavior references, symbol and metaphor Easter eggs, social satire and brand allusions, and emotional storylines and sequel foreshadowing.
[Zootopia Character Relationship Chart] The idealistic rabbit police officer Judy and the cynical fox conman Nick form a charmingly contrasting duo, rising from street hustlers to become Zootopia police officers!
パターン認識
導入
パターン認識の基本概念
パターン認識
コンピュータを利用した人間のパターン認識能力の実現とは、コンピュータを利用して人間のさまざまな物や現象の分析・説明・判断・識別を実現し、認識すべきものをさまざまなパターンカテゴリーに割り当てる技術です。
パターン認識は、パターンからカテゴリへのマッピングとして見ることができます
モデル
物質や現象に関する情報
大まかに言って、時間と空間に存在する観察可能なオブジェクトが同じまたは類似していると区別できる場合、パターンと呼ぶことができます。
パターンは、情報収集によって形成されたオブジェクトの説明であり、標準化され、理解しやすく、識別可能である必要があります。
説明する
パターンとは物そのものではなく、物から得られる情報です。たとえば、人物の写真や個人情報などです。
パターンが似ているかどうかを区別できる(質問に関連)
パターンは通常ベクトルで表され、添字は時間特性、空間特性、またはその他の識別子を反映することができます。
パターンベクトル
特定の個別のものを観察することによって得られる時間的・空間的分布を伴う情報(サンプルまたはサンプルベクトルといいます)
パターンクラス
パターンが属するカテゴリ、または同じカテゴリ内のパターンの母集団 (略してカテゴリ)
パターン認識システム
設計と実装の2つのプロセスで構成されます
パターンが属するカテゴリ、または同じカテゴリ内のパターンの母集団 (略してカテゴリ)
デザイン(トレーニング・学習)
分類器を設計するために特定の数のサンプル (トレーニング セットまたは学習セットと呼ばれる) を使用することを指します。
実現(意思決定、分類、判断)
設計された分類器を使用して、識別されるサンプルの分類決定を行うことを指します。
システム構成
データ収集(データ取得)
方法
各種センサーを介して、光や音などの情報を電気情報に変換したり、文字情報をコンピュータに入力したりする
分類
一次元波形:音波、心電図、脳波など。
二次元画像:テキスト、画像など
3D画像:顔など
物理量:人の身長、体重、製品の重量、品質レベルなど。
論理量(0/1):有無、男女など。
前処理
目的
ノイズを除去し、有益な情報を強化します
よく使われるテクニック
一次元信号のフィルタリングとノイズ除去、画像の平滑化、強調、復元、フィルタリングなど。
特徴の抽出と選択
目的
元のデータから、分類の性質を最もよく反映する特徴を取得します。
特徴の形成
分類問題を反映するいくつかの特徴は、さまざまな手段を通じて元のデータから取得されます (データの標準化が必要な場合もあります)。
機能の選択
特徴の中から分類に最も有益な特徴をいくつか選択します
特徴抽出
特定の数学的変換を通じて特徴の数を減らす
分類決定またはモデルマッチング
特徴空間の決定ルールを使用して、認識されたオブジェクトを特定のカテゴリに割り当てます
説明する
このシステム構造は、人工ニューラル ネットワークにおける統計的パターン認識、ファジー パターン認識、教師あり手法に適しています。
構造パターン認識手法の場合、特徴抽出と選択の代わりにプリミティブ抽出のみが使用されます。
クラスター分析では、分類器の設計と意思決定が 1 つのステップに統合されます。
画像の特徴
色
テクスチャ
形
空間関係
4つのスペース
3つの大きな仕事
パターン集
特徴抽出と特徴選択
種類の識別
関連する質問
性能評価
テストエラー率またはエラー率
計算の複雑さ
分ける
分類基準
質問またはサンプルの性質
教師付きパターン認識
まず、カテゴリ ラベルが付いたサンプルのバッチを用意し、サンプル セットに基づいて分類器を設計し、次に新しいサンプル カテゴリを決定します。
教師なしパターン認識
サンプルのバッチは 1 つだけであり、サンプル セットはサンプル間の類似性に基づいていくつかのカテゴリに直接分割されます。
メインメソッド
統計的パターン認識
分類
教師なし分類
クラスター分析
教師付き分類
コレクションの分類
確率的分類
方法の説明
特徴ベクトル
モード判定
条件付き確率分布 P (X/i) で表されるように、m 個のカテゴリに m 個の分布があり、未知のパターンがどの分布に属するかを決定します。
理論的根拠
確率論
数学的統計
アドバンテージ
より成熟した
妨害ノイズの影響を考慮できる
パターンプリミティブを認識する強力な能力
欠点がある
複雑な構造のパターンから特徴を抽出するのは困難
パターンの構造的特徴を反映することはできず、パターンの性質を説明することは困難です。
全体的な観点から識別問題を検討することが難しい
構造パターン認識
ファジーパターン認識
ニューラルネットワーク方式
理論的根拠
神経生理学
心理学
パターンの記述方法
さまざまなレベルのアクティビティによって表される入力ノードのセット
モード判定
非線形動的システム
メインメソッド
BPモデル、HOPフィールドモデル
アドバンテージ
複雑な非線形問題を効果的に解決する
サンプルに大きな欠陥や歪みがあることを許可する
欠点がある
効果的な学習理論の欠如
長い間
応用分野
画像、顔、テキスト、数字、指紋、音声...
根本的な問題
パターン(サンプル)の表現方法
n 次元の列ベクトル
x= (x1, x2, …, xn)T
パターンクラスのコンパクトさ
クリティカルポイント(サンプル)
マルチカテゴリサンプルセットでは、一部のサンプルの特性値がわずかに変化すると、それらは別のカテゴリのサンプルになります。このようなサンプルはクリティカルサンプル(ポイント)と呼ばれます。
ファームセット
意味
同じパターン クラスのサンプルの分布は比較的集中しており、重要なサンプルがないか、非常に少ないパターン クラスはコンパクト セットと呼ばれます。
自然
重要なポイントがほとんどない
セット内の任意の 2 つの点を結ぶ線。線上の点は同じセットに属します。
セット内の各ポイントには十分な大きさの近傍があり、その近傍には同じセットのポイントのみが含まれます。
必要とする
きつさを満たす
類似性
さまざまな距離を使用して類似性を表現する
共通距離
ミンコフスキー距離
絶対値距離または都市距離またはマンハッタン距離 (q=1)
ユークリッド距離 (q=2)
チェッカーボード距離またはチェビシェフ距離 (q=∞)
マハラノビス距離
ここで、共分散行列と平均は次のとおりです。
データの標準化
目的
各コンポーネント間の数値範囲がアルゴリズムに及ぼす影響を排除します。
方法
[0,1] または [-1, 1] への標準化、分散の標準化
式
特徴の正規化
分散の正規化
データの前処理
なぜデータの前処理を行うのでしょうか?
良くない
不完全な
データ収集中に適切な値が欠如している
データ収集およびデータ分析時のさまざまな考慮事項
人的/ハードウェア/ソフトウェアの問題
うるさい
データ収集ツールの問題
データ入力中の人為的/コンピュータ的エラー
データ送信エラー
一貫性のないデータ型
さまざまなデータソース
関数の依存関係が違反されました
良い
正しさ:正しいかどうか、正確かどうかなど。
完全性: データが欠落しているか、取得できない場合
一貫性: 一部のデータは変更されているが、他のデータは変更されていない場合
信頼性: データが正しいという信頼度を表します。
タスク
データクリーニング
欠損値を埋め、ノイズの多いデータを平滑化し、外れ値を特定して削除し、不一致を解決します。
データ統合
複数のデータベース、データ キューブ、またはファイルを統合する
データ変換と離散化
標準化
概念階層の生成
データ削減
寸法削減
数量削減
データ圧縮
特徴抽出と特徴選択
データクリーニング
❑ 欠損値を埋める
理由
❑ 機器の異常
❑ 他の既存データとの不整合のため削除
❑ 誤解により入力されなかったデータ
❑ 入力時に慎重に行われなかったため、一部のデータが入力されませんでした。
❑ データ変更のログを記録しない
対処する
◼ タプルを無視する: これは通常、クラス ラベルが欠落している場合 (マイニング タスクが分類または記述するように設計されていると仮定)、各属性の欠損値の割合が変化する場合 (タスクは分類または記述するように設計されている) に行われます。各属性の欠損値の割合が大きく異なる場合、その効果は非常に低くなります。
「クラス ラベル」(クラス ラベルまたはターゲット ラベル)は、通常、データ セット内の「サンプルが属するクラスまたはグループを表すために使用されるラベル」を指します。
◼ 欠損値を手動で埋める: 作業負荷が高く、実現可能性が低い
◼ 欠損値を自動的に埋める
❑ グローバル変数を使用します: 不明または -∞ など
❑ 属性の平均を使用する
❑ 指定されたタプルと同じクラスに属するすべてのサンプルの平均値または中央値を使用します。
❑ 欠損値を最も可能性の高い値で埋める: ベイズ公式やデシジョン ツリーなどの推論ベースの方法を使用する
❑ スムーズノイズデータ
理由
❑ データ収集ツールの問題
❑ データ入力エラー
❑ データ送信エラー
❑ 技術的な制限
❑ 命名規則の不一致
対処する
ビニング
まずデータを並べ替えて、同じ深さのビンに分割します。次に、ビンの平均による平滑化、ビンの中央値による平滑化、ビンの境界による平滑化などを行うことができます。
操作する
等しい深さのビニング
境界値の平滑化: すべての値を最大値または最小値に変換します。
等幅ビニング
[110,155)、左閉、右開
クラスタリング
クラスタリングを通じて外れ値を検出して削除する
戻る
回帰関数に当てはめてデータを平滑化する
❑ 外れ値を特定または削除する
❑ データの不一致を解決する
データ統合
◼ データ統合:
❑ 複数のデータソースからのデータを一貫したストアに統合する
◼ パターンの統合:
❑ さまざまなデータソースからのメタデータを統合する
◼ 例: A.cust_id = B.customer_no
◼ エンティティ認識の問題:
❑ さまざまなデータソースから現実世界のエンティティを照合する
◼ 例: ビル クリントン = ウィリアム クリントン
◼ データ値の競合を検出して解決する
❑ 現実世界の同じエンティティでも、異なるデータソースからの属性値は異なる場合があります
❑ 考えられる理由: データ表現の違い、測定値の違いなど。
データ削減
目的
◆大規模なデータベースコンテンツの複雑なデータ分析には多くの時間がかかり、元のデータ分析が非現実的かつ実行不可能になります。
◆データ削減: データ削減またはリダクションとは、最終的なマイニング結果に影響を与えずに、マイニングされたデータのサイズを削減することです。
◆データ削減技術を使用すると、データ セットの縮小表現を取得できます。これははるかに小さいですが、元のデータの完全性の維持にほぼ近いものになります。
◆縮小されたデータセットをマイニングすると、マイニングの効率が向上し、同じ(またはほぼ同じ)結果が得られます。
標準
◆データ削減に費やす時間は、削減されたデータ セットのマイニングで節約される時間を超えたり、「相殺」したりしてはなりません。
◆縮小して得られるデータは元のデータに比べて非常に小さいですが、同一またはほぼ同一の解析結果を得ることができます。
方法
◆データキューブの集約。
n 次元のデータ キューブを n-1 次元のデータ キューブに集約します。
◆次元削減(属性削減)。
新しいデータ セットの確率分布が元のデータ セットの確率分布にできるだけ近くなるように、属性の最小セットを見つけます。
PCA
◆データ圧縮。
可逆圧縮
非可逆圧縮
◆数値の削減。
代替のより小さいデータ表現を選択して、データ量を削減します。
タイプ
ヒストグラム
クラスタリング
サンプリング
◆概念の離散化と階層化。
標準化
最小-最大正規化
それは正しいはずです
Z スコア正規化 (ゼロ平均正規化)
ネガティブかもしれない
離散化
目的
データの離散化は、元のデータセットの複雑さを単純化するために、連続データの値をいくつかの間隔に分割するプロセスです。
タイプ
順序のないセットの値、例: 色、職業。
順序付けされたセットの値 (軍の階級、職業上の称号など)
連続値、例: 実数
コンセプトの階層化
クラスター分析
コンセプト
考え
特定の類似性尺度に基づいて、分類された各モデルを分類します。
似たものを 1 つのカテゴリにグループ化する
アルゴリズム
類似度閾値と最小距離原理に基づくシンプルなクラスタリング手法
最小距離原則に従って 2 つのカテゴリを連続的に結合する方法
基準関数に基づく動的クラスタリング手法
応用
クラスター分析は、他のアルゴリズムの前処理ステップとして使用できます。
データの分布を取得するための独立したツールとして使用可能
クラスター分析により孤立点マイニングを完了できる
パーティションベースのクラスタリング手法
パーティショニング方法は、データ オブジェクトを重複しないサブセット (クラスター) に分割し、各データ オブジェクトが正確に 1 つのサブセットに含まれるようにすることです。
分類
距離タイプ
ユークリッド距離
マンハッタンの距離
ミンコフスキー距離
Min の距離は距離ではなく、一連の距離の定義です。
アルゴリズムの種類
K 平均法 (K 平均法) アルゴリズム
入力: クラスターの数 k と n 個のオブジェクトを含むデータベース D
出力: 二乗誤差基準を最小化する k 個のクラスター。
アルゴリズムのステップ
1. K 個の初期クラスター中心が存在するように、クラスターごとに初期クラスター中心を決定します。 2.サンプル セット内のサンプルは、最小距離の原則に従って最も近いクラスターに割り当てられます。 3.各クラスターのサンプル平均を新しいクラスター中心として使用します。 4.クラスターの中心が変更されなくなるまで、手順 2 と 3 を繰り返します。 5.最終的に、K個のクラスタが得られる。
特徴
アドバンテージ
シンプルかつ高速
スケーラブルで効率的
結果セットが密である場合、効果はより良くなります
欠点がある
クラスター平均が定義されている場合にのみ使用できます
k は事前に指定する必要があります
これは初期値に非常に敏感であり、反復回数に直接影響します。
凸でない形状のクラスターや、サイズが大きく異なるクラスターの検索には適していません。
「ノイズ」と異常値データに敏感です
改善する
k-mode アルゴリズム: 離散データの高速クラスタリングを実現し、k-means アルゴリズムの効率を維持し、k-means の適用範囲を離散データに拡張します。
k-prototype アルゴリズム: 離散属性と数値属性が混在するデータをクラスター化できます。k-prototype では、数値属性と離散属性の両方を計算する非類似性メトリックが定義されます。
k-Mediods アルゴリズム (K-Mediods): K-Means アルゴリズムは、孤立点の影響を受けます。この問題を解決するには、クラスター内の平均値を参照点として使用する代わりに、クラスター内の最も中心にあるオブジェクト、つまり中心点を参照点として選択できます。この分割方法は、依然としてすべてのオブジェクトとその参照点の間の相違点の合計を最小化するという原則に基づいています。
k-medoids (K-中心点) アルゴリズム
入力: クラスターの数 k と、n 個のオブジェクトを含むデータベース。
出力: k 個のクラスター
アルゴリズムのステップ
1. k 個の初期クラスタリング中心が存在するように、各クラスタの初期クラスタリング中心を決定します。 2. 他のすべての点から k 個の中心点までの距離を計算し、各点から k 個の中心点までの最短のクラスターを、それが属するクラスターとみなします。 3. 各クラスター内の点を順番に選択し、この点から現在のクラスター内のすべての点までの距離の合計を計算し、最終的な距離の合計が最も小さい点が新しい中心点とみなされます。 4. 各クラスターの中心点が変化しなくなるまで、手順 2 と 3 を繰り返します。 5.終了すると、k個のクラスタが得られる。
特徴
アドバンテージ
K-medoids アルゴリズムは、特定の点から他のすべての点までの距離の合計が最小となる点を計算します。距離の最小合計を計算することで、一部の孤立したデータによるクラスタリング プロセスへの影響を軽減できます。これにより、最終的な効果が実際の除算に近づきます。
欠点がある
K-means アルゴリズムと比較すると、計算量が O(n) 程度増加するため、一般に K-medoids アルゴリズムの方が小規模なデータ操作に適しています。
階層ベースのクラスタリング アルゴリズム
意味
データ オブジェクトのクラスター化ツリーを作成します。階層分解がボトムアップで形成されるかトップダウンで形成されるかに応じて、凝集型階層クラスタリングと分割型階層クラスタリングにさらに分けることができます。
芯
2 つのクラスター間の距離を測定する方法。通常、各クラスターはオブジェクトのセットです。
分類
距離型(クラスタ間距離測定方式)
アルゴリズムの種類
AGNES (凝集型階層クラスタリング)
意味
AGNES (凝集型階層クラスタリング) は、最初に各オブジェクトをクラスターとして扱い、次に特定の最終条件が満たされるまでこれらの原子クラスターをより大きなクラスターにマージするボトムアップ戦略です。
類似性
2 つのクラスター間の類似性は、2 つの異なるクラスター内の最も近いデータ ポイントのペアの類似性によって決定されます。
ステップ
1. 各オブジェクトを初期クラスターとして扱います。 2. 繰り返します。 3. 2 つのクラスター内の最も近いデータ ポイントに基づいて、2 つの最も近いクラスターを見つけます。 4. 2 つのクラスターを結合して、新しいクラスター セットを生成します。 5. 定義されたクラスターの数に達するまで。
DIANA (分割階層クラスタリング)
BIRCH (階層的手法を使用したバランスの取れた反復削減とクラスタリング)
密度クラスタリング法
芯
エリア内の点の密度が特定のしきい値よりも大きい限り、そのエリアは類似するクラスターに追加されます。
分類
DBSCAN
芯
パーティショニングや階層的クラスタリング手法とは異なり、クラスタを密度で接続された点の最大のセットとして定義し、十分に高密度の領域をクラスタに分割し、「ノイズの多い」空間データベースで任意の形状のクラスタを見つけることができます。
意味
オブジェクトの ε 近傍: 指定されたオブジェクトの半径 ε 内のエリア。
コア オブジェクト (コア ポイント): オブジェクトの ε 近傍に少なくとも最小数の MinPts オブジェクトが含まれる場合、そのオブジェクトはコア オブジェクトと呼ばれます。
直接密度到達可能性: オブジェクト集合 D が与えられ、p が q の ε 近傍内にあり、q がコア オブジェクトである場合、オブジェクト p はオブジェクト q から開始して直接密度到達可能であると言います。
密度到達可能性: コア点 P2、P3、...、Pn があり、P1 から P2 への密度が直接、P2 から P3 への密度が直接、... の場合、P(n-1 からの密度) ) から Pn までは直接であり、Pn から Q までの濃度は直接であり、P1 から Q までの濃度に到達可能です。達成可能な密度にも対称性はありません。
接続された密度: S から P と Q の両方が密度に到達できるようなコア ポイント S がある場合、P と Q は密度接続されます。密度接続には対称性があります。P と Q が密度接続されている場合、Q と P も密度接続されている必要があります。密に接続されている 2 つの点は、同じクラスターに属します。
ノイズ: 密度ベースのクラスターは、密度の到達可能性に基づいた、密度に接続されたオブジェクトの最大のセットです。どのクラスターにも含まれていないオブジェクトは「ノイズ」とみなされます。
ステップ
1) ポイントの近傍に MinPts を超えるポイントが含まれている場合、それはコア ポイントです。そうでない場合、そのポイントは一時的にノイズ ポイントとして記録されます。 2) この点から到達可能な密度を持つすべてのオブジェクトを見つけてクラスターを形成します
特徴
アドバンテージ
クラスタリングは高速で、ノイズ ポイントを効果的に処理し、任意の形状の空間クラスターを検出できます。
欠点がある
(1) データ量が増加すると、I/O 消費をサポートするためにより大きなメモリが必要になり、大量のデータも消費します。 (2) 空間クラスタリングの密度が不均一で、クラスタ間隔が大きく異なる場合、クラスタリングの品質は低下します。 (3) ユーザーが入力を手動で設定する必要がある 2 つの初期パラメーター ε (近傍半径) と minPts (ε 近傍の最小点数) があり、クラスタリングの結果はこれら 2 つのパラメーターの値に非常に敏感です。値が異なると、クラスタリング結果も異なります。
光学
デンクルー
ベイズ分類
ナイーブ・ベイズ
ベイズ法は、事前確率とクラス条件付き確率が既知の場合のパターン分類手法であり、分割されるサンプルの分類結果はさまざまな分野のサンプルの総数に依存します。
ナイーブ ベイズは、すべての特徴属性が互いに独立していると想定しています。これが、アルゴリズムの名前にある「ナイーブ」という言葉の由来です。
実際には、属性間に依存関係が存在することがよくありますが、興味深いのは、Naive Bayes アルゴリズムの独立性の仮定が明らかに真ではない場合でも、依然として非常に良好な分類結果が得られることです。
ベイズの公式
最小エラー率
特徴は与えられた情報です
カテゴリは最終要件です
地物属性が複数ある場合
意味
事後確率 P(cj |x)
つまり、データサンプル x が与えられたときに cj が真である確率であり、これが私たちが関心のあるものです (計算対象です)。
各 P(xk|Ci) は事前知識によって取得できます。 または、サンプルセットを通じて統計を実行します
事前確率 P(cj)
事前確率 P(Ci) は事前知識によって取得できます。 または、サンプルセットを通じて統計を実行します
P(x) は消去または定式化できます。
簡略化
最小限のリスク
デシジョンテーブル
計算方法
各決定 α について、個別に計算します
条件付きリスクを最小限に抑えて意思決定を行う
最近傍法
最近傍法/K 最近傍法
目的
ポイントの分類を決定する
アイデア
トレーニング データ セット内の新しいインスタンスに最も近い k 個のトレーニング インスタンスを見つけて、最近の k 個のトレーニング インスタンスの中でクラス数が最も多いクラス (新しいインスタンスのクラス) を数えます。
プロセス
トレーニング サンプルとテスト サンプルの各サンプル ポイント間の距離を計算します (一般的な距離の測定には、ユークリッド距離、マハラノビス距離などが含まれます)。
上記のすべての距離値を並べ替えます
距離が最小の最初の k 個のサンプルを選択します
これらの k 個のサンプルのラベルに基づいて投票し、最終的な分類カテゴリを取得します。
k値の選択
k 値が小さいほど、モデルは複雑になり、過学習が容易になります。ただし、k 値が大きいほど、モデルは単純になります。これは、どの点でもそのクラスであることを意味します。トレーニング セット内で最も多くのカテゴリが含まれています。 したがって、通常、k はより小さい値をとり、相互検証を使用して決定します。 ここでのいわゆる相互検証は、サンプルの一部を予測サンプル (95% トレーニングと 5% 予測など) に分割し、k はそれぞれ 1、2、3、4、5 などを使用して予測し、最終的な分類誤差を計算します。誤差が最小となる k を選択します。
違い
K 平均法
目的は、一連の点セットを k 個のカテゴリに分割することです。
K-Means はクラスタリング アルゴリズムです
教師なし学習、同様のデータをグループ化して分類を取得、外部分類なし
トレーニング データ セットにはラベルがなく、乱雑です。クラスタリング後は、最初は乱雑になりますが、その後は秩序が生じます。
最近傍法/K 最近傍法
目的は、ポイントの分類を決定することです
KNN は分類アルゴリズムです
教師あり学習、分類対象は事前にわかっている
トレーニング データ セットにはラベルがあり、すでに完全に正しいデータです。
協会規則
意味
基本的な考え方
アイテム: たとえば、コーラ、ポテトチップス、パン、ビール、おむつはすべてアイテムと呼ばれます。
I={i1, i2,…,im} をすべての項目 (Item) の集合とします。
トランザクション T は購入レコードであり、各トランザクション T には Tid として記録される一意の識別子があります。
D はすべてのトランザクションのセットです。
itemset は調査したいセットです
アイテムセット内のアイテムの数はアイテムセットの長さと呼ばれ、k 個のアイテムを含むアイテムセットは K アイテムセットと呼ばれます。
協会規則
A->B という形式の論理的含意。A も B も空ではなく、A⸦I、B⸦I、および (A と B が交差する = 空)。
サポートサポート
アイテムセット A と B がすべてのトランザクションで同時に出現する確率を説明します D
S(A->B)=P(AB)=|AB|/|D|
サポートは相関ルールの重要性の尺度です
自信自信
アイテムセットAが出現する物Tには、同時にアイテムセットBも出現する確率。
C(A->B)=P(B|A)=|AB|/|A|
信頼度は相関ルールの正確さの尺度です
強力な相関ルール
D が I に対する最小限の支持と最小限の信頼性を満たす相関規則を強相関規則と呼びます。
リフト
リフト度は、アイテム セット A の外観がアイテム セット B の外観にどの程度影響するかを示します。
L(A->B)=P(AB)/(P(A)*P(B))
1より大きい
正の相関
1に等しい
独立した
1未満
負の相関
よく使うアイテムセット
最小限のサポートを満たす項目セットは、頻繁な項目セットと呼ばれます。頻繁に出現する k 項目セットのセットは、通常、Lk と表されます。
目的
ユーザー指定の最小サポートと最小信頼度に基づいて強い関連性ルールを見つける
ステップ
ユーザーによる最小限のサポートを提供して、すべての頻繁なアイテムセットまたは最大の頻繁なアイテムセットを検索します
ユーザーによる最小限の信頼性を与えることにより、頻繁に使用される項目セット内の相関ルールを見つけます。
アルゴリズム
アプリオリアルゴリズム
最初のステップは、反復を通じてトランザクション データベース内のすべての頻繁なアイテムセット、つまりサポートがユーザーが設定したしきい値を下回らないアイテムセットを取得することです。
よく使う項目: 数える、数える S
2 番目のステップでは、頻繁に使用される項目セットを使用して、ユーザーの最小信頼レベルを満たすルールを構築します。
アソシエーション ルール: カウント C
FP-成長