マインドマップギャラリー 第 3 章 線形モデル
機械学習 (Xigua Book Edition)、基本的な形式を紹介します。 線形回帰、 対数オッズ回帰、線形判別分析、 多分類学習など
2024-04-12 22:37:17 に編集されましたAvatar 3 centers on the Sully family, showcasing the internal rift caused by the sacrifice of their eldest son, and their alliance with other tribes on Pandora against the external conflict of the Ashbringers, who adhere to the philosophy of fire and are allied with humans. It explores the grand themes of family, faith, and survival.
This article discusses the Easter eggs and homages in Zootopia 2 that you may have discovered. The main content includes: character and archetype Easter eggs, cinematic universe crossover Easter eggs, animal ecology and behavior references, symbol and metaphor Easter eggs, social satire and brand allusions, and emotional storylines and sequel foreshadowing.
[Zootopia Character Relationship Chart] The idealistic rabbit police officer Judy and the cynical fox conman Nick form a charmingly contrasting duo, rising from street hustlers to become Zootopia police officers!
Avatar 3 centers on the Sully family, showcasing the internal rift caused by the sacrifice of their eldest son, and their alliance with other tribes on Pandora against the external conflict of the Ashbringers, who adhere to the philosophy of fire and are allied with humans. It explores the grand themes of family, faith, and survival.
This article discusses the Easter eggs and homages in Zootopia 2 that you may have discovered. The main content includes: character and archetype Easter eggs, cinematic universe crossover Easter eggs, animal ecology and behavior references, symbol and metaphor Easter eggs, social satire and brand allusions, and emotional storylines and sequel foreshadowing.
[Zootopia Character Relationship Chart] The idealistic rabbit police officer Judy and the cynical fox conman Nick form a charmingly contrasting duo, rising from street hustlers to become Zootopia police officers!
第 3 章 線形モデル
(1) 基本形
線形モデルは、属性の線形結合を通じて予測する関数を学習しようとします。利点: シンプルな形式、モデル化が容易 解釈可能性 非線形モデルの基礎(階層構造や高次元マッピングの導入)
基本形
一般的な形式
は属性によって記述された例です。ここで、xi は i 番目の属性の x の値です。
ベクトル形式
、で
(2) 線形回帰
離散型の処理を考えてみましょう。
「順序」関係がある 連続値に変換する
「順序」関係 属性値がある場合は次元ベクトルに変換されます。
目的: 実数値の出力トークンをできるだけ正確に予測するための線形モデルを学習します。
単一属性の線形性
目標:
パラメータ/モデル推定: 最小二乗法
二乗誤差を最小限に抑える:
w と b をそれぞれ微分すると、次のようになります。
重線形回帰
重回帰ターゲット
最小二乗法
(3) 対数確率回帰
一般化された線形モデル:
2 つの分類タスク
単位ステップ関数の欠点: 不連続性
偉大な自然法則
y をクラス事後確率推定値とみなした場合
、勾配降下法、ニュートン法などを使用して最適解を求めることができます。
(6) カテゴリの不均衡問題
問題の説明: 正のサンプルと負のサンプルの間に不均衡の問題があります。多くの分類アルゴリズムでは、不均衡なサンプル セットをトレーニングや学習に直接使用すると、いくつかの問題が発生します。
精度のパラドックス: データ セットには 1000 個のデータ ポイントがあり、そのうち 990 個がカテゴリ 0、残りの 10 個がカテゴリ 1 です。以下の表のモデル A はモデル B よりも優れていますか?
不均衡なデータに直面すると、一部の評価指標 (精度など) により、モデルがより大きな割合を持つカテゴリに大きく偏り、モデルの予測関数が失敗します。不均衡なデータセットに直面しても、AUC (曲線下面積) は安定したままとなり、精度パラドックスなどの歪みは発生しません。
精度 (ACC) の定義:
さまざまなカテゴリのトレーニング例の数が大きく異なる場合 (肯定的なカテゴリが小さいカテゴリであると仮定すると)、多くの場合、「小さいカテゴリ」がより重要になります。
基本的な考え方:
基本戦略: 再度規模を拡大する。
一般的なカテゴリ不均衡学習方法: (1) オーバーサンプリング (オーバーサンプリング) 例: SMOTE (2) アンダーサンプリング 例: EasyEnsemble (3) しきい値の移動
オーバーサンプリング: いくつかの正の例を追加して、正の例と負の例の数を近づけます。
しきい値の移動: 分類問題の場合、インスタンスのクラス ラベルを直接予測することはできませんが、確率値を予測して、インスタンスを正のクラスと負のクラスに分割するためのしきい値を指定します。しきい値は通常、0.5 に指定されます。ただし、実際の状況に応じて、しきい値を移動し、特定のクラスの重みを増やすことで、クラスの不均衡を解決できます。
アンダーサンプリング: いくつかの負の例を削除して、正の例と負の例の数を近づけます。
問題があります。m − /m を正確に推定することは、多くの場合困難です。
(5) 多カテゴリー学習
多分類学習の基本的な考え方は「分割法」です。重要なのは、複数の分散タスクを分割し、複数の分類器を統合する方法です。
スプリット戦略: 1. 1 対 1 2. 1 対残り 3. 多対多
1対1
スプリットステージ
N カテゴリのペアリング: N(N-1)/2 の 2 カテゴリ タスク
2 つのカテゴリのタスクごとに分類器を学習します。 N(N-1)/2 の 2 クラス分類器
テスト段階
新しいサンプルは、予測のためにすべての分類子に送信されます。 N(N-1)/2 分類結果
投票により、最終的な分類結果が生成されます。 最も予測されたカテゴリが最終カテゴリです
残りのペア
タスクの分割
特定のカテゴリは正の例として使用され、他の反例は次のとおりです。 N 個の第 2 カテゴリのタスク
各 2 クラス タスク学習分類器: N 個の 2 クラス分類器
テスト段階
新しいサンプルが予測のためにすべての分類器に送信されます: N 個の分類結果
各分類子の予測信頼度を比較します。最も高い信頼度を持つカテゴリが最終カテゴリとして使用されます。
多対多: いくつかのクラスがポジティブ クラスとして使用され、いくつかのクラスがアンチクラスとして使用されます。
エラー訂正出力コード
フローチャート:
要約: (1) ECOC コーディングは、分類子エラーに対してある程度の耐性と訂正能力を持っています。コードが長いほど、エラー訂正能力は強くなります。 (2) 同じ長さの符号の場合、理論的には、2 つのカテゴリ間の符号化距離が遠いほど、誤り訂正能力は強くなります。
「1対多」と「多対残り」の比較
「1 対多」: N(N-1)/2 分類器をトレーニングします。これには、大きなストレージ オーバーヘッドとテスト時間が必要です。 トレーニングに使用されるサンプルのカテゴリは 2 つだけであり、トレーニング時間は短いです。
「Many to Rest」: 少ないストレージ オーバーヘッドとテスト時間で N 個の分類器をトレーニングします すべてのトレーニング例がトレーニングに使用され、トレーニング時間が長くなります。
予測パフォーマンスは特定のデータ分布に依存し、ほとんどの場合、この 2 つは類似しています。
(4) 線形判別分析
これは教師あり学習アルゴリズムであり、データの次元を削減するためによく使用されます。 1936 年にロナルド フィッシャーによって発明され、一部の情報源ではフィッシャー LDA とも呼ばれています。 LDA は、機械学習とデータ マイニングの分野で古典的で人気のあるアルゴリズムです。
LDA は教師あり次元削減手法とみなすこともできます
LDAの考え方
同様のサンプルの投影点は可能な限り近くなります。
異種サンプルの投影点は可能な限り遠くにあります。
LDA の考え方から派生した
目標を最大化する:
クラス内発散行列:
クラス間発散行列:
一般化レイリー商:
これが LDA の最大の目標です。作る
同等のものは次のとおりです。
ラグランジュ乗数法を使用します。
利用可能:
結果:
注: 彼は学習アルゴリズムです
代替関数:対数確率関数(対数確率関数を「対数確率関数」といいます) 利点: 単調微分可能、任意の次数で微分可能
対数オッズ (logit) オッズ (オッズ) は、サンプルが陽性例である相対的な可能性を反映します。
メリット:事前にデータの分散を想定する必要がない(つまり、あらゆるデータに利用可能) 「カテゴリー」のおおよその確率予測が得られる 既存の数値最適化アルゴリズムを直接適用して、最適な解を得ることができます。