マインドマップギャラリー ニューラルネットワークとディープラーニングの基礎
最も基本的なニューラル ネットワークの構造である多層パーセプトロン MLP とフィードフォワード ネットワーク FNN をベースに、ニューラル ネットワークの目的関数と最適化技術を要約します。バックプロパゲーション アルゴリズムは、ネットワークに対する目的関数の勾配問題を計算します。重み係数、および初期化、正則化などのニューラル ネットワーク最適化のための補助テクノロジ。
2023-02-23 17:40:31 に編集されましたニューラルネットワークとディープラーニング ベース
ニューラルネットワークの基本構造
ニューロンの構造
加重和
刺激信号
シナプス/加重
活性化値
活性化関数
不連続関数
記号関数
パーセプトロン
閾値関数
マカロック・ピッツニューロン
連続微分可能関数
ロジスティック シグモイド関数
双曲線正接関数 Tanh()
欠点がある
活性化値 a が大きい場合、関数は飽和領域に入り、対応する導関数は 0 に近づきます。勾配による学習アルゴリズムでは、収束が非常に遅くなるか、停滞することさえあります。 ReLU 関数はより速く収束します
ReLU関数
クラシックReLU
リーキー ReLU
まとめ
ニューロンの計算構造
線形加重加算により活性化値が生成される 非線形活性化関数により出力が生成される
多層ニューラルネットワークがXOR問題を解決
パーセプトロン
線形結合シンボリック活性化関数
線形不可分性は収束しない
XOR演算など
直線的に分離できない溶液
非線形基底関数ベクトルは、元の固有ベクトルを置き換えます。
複数のニューロンを使用して多層ニューラル ネットワークを形成する
ニューロンの接続方法
基本的な構成要素として、ニューロンは並列およびカスケード構造を通じて多層ネットワークに接続されます。
並列接続
同じ層内の複数のニューロンは同じ入力特徴ベクトル x を受け取り、それぞれ複数の出力を生成します。
カスケードモード
並列接続された複数のニューロンはそれぞれ出力を生成し、その出力が次の層のニューロンに入力として渡されます。
多層パーセプトロンMLP フィードフォワード ニューラル ネットワーク FNN
多層パーセプトロン構造
入力層
入力層のユニットの数は、入力特徴ベクトルの次元 D です。
入力特徴行列 N×D
各行はサンプルに対応し、行数はサンプル数 N になります。
列の数は特徴ベクトルの次元 D です
隠れ層
ティア1
入力行列 N×D
元の特徴行列です
重み係数行列 D×K1
各ニューロンの重み係数は D 次元の列ベクトルに対応します
合計 K1 個のニューロンが D×K1 行列を形成します。
バイアスベクトル N×K1
各行はサンプル バイアスに対応し、合計 N 行になります。
列の数はニューロンの数です K1
出力行列 N×K1
Z=φ(A)=φ(XW W0)
ティア2
入力行列 N×K1
上位層出力行列
重み係数行列 K1×K2
各ニューロンの重み係数は、K1 次元の列ベクトルに対応します。
合計 K2 個のニューロンが K1×K2 の行列を形成します
バイアスベクトル N×K2
各行はサンプル バイアスに対応し、合計 N 行になります。
列の数はニューロンの数です K2
出力行列 N×K2
Z=φ(A)=φ(XW W0)
第 m 層
入力行列 N×K(m-1)
上位層出力行列
重み係数行列 K(m-1)×Km
各ニューロンの重み係数は、K(m-1) 次元の列ベクトルに対応します。
合計 Km 個のニューロンが K(m-1)×Km の行列を形成します
バイアスベクトル N×Km
各行はサンプル バイアスに対応し、合計 N 行になります。
列の数はニューロンの数 Km
出力行列 N×Km
Z=φ(A)=φ(XW W0)
出力層
入力行列 N×K(L-1)
上位層出力行列
重み係数行列 K(L-1)×KL
各ニューロンの重み係数は、K(L-1) 次元の列ベクトルに対応します。
合計 KL ニューロンは K(L-1)×KL の行列を形成します
バイアスベクトル N×KL
各行はサンプル バイアスに対応し、合計 N 行になります。
列の数はニューロンの数 KL
出力行列 N×KL
Z=φ(A)=φ(XW W0)
多層パーセプトロンの操作関係 プログラム構成
入力
m番目の層のj番目のニューロンの出力
加重和
上位層の出力はこの層の入力として使用されます
活性化関数
出力
ニューラルネットワークの出力表現
注記
出力層のニューロンの数は、ニューラル ネットワークが同時に複数の出力関数を持つことができることを示しています。
回帰問題
出力層ニューロンの出力は回帰関数の出力です。
2つのカテゴリー
出力層ニューロンは陽性タイプの事後確率を出力し、シグモイド関数はそのタイプの事後確率を表します。
複数のカテゴリ
出力層の各ニューロンは各タイプの事後確率を出力し、Softmax 関数は各タイプの確率を表します。
ニューラルネットワークの非線形マッピング
基底関数回帰との違い
パラメータの決定
基底関数回帰の基底関数はあらかじめ決められています
ニューラル ネットワークの基底関数パラメーターはシステム パラメーターの一部であり、トレーニングを通じて決定する必要があります。
非線形関係
基底関数回帰では、入力ベクトルと出力の間に非線形関係のみがあります。
ニューラル ネットワークの入力ベクトルと重み係数は、出力と非線形の関係にあります。
例
2層ニューラルネットワーク
3層ニューラルネットワーク
ニューラルネットワークの近似定理
ニューラルネットワークのエッセンス
D 次元ユークリッド空間から K 次元ユークリッド空間へのマッピング
入力特徴ベクトル x は D 次元ベクトルです
出力 y は K 次元ベクトルです
コンテンツ
1 層の隠れユニットのみを必要とする MLP は、有限区間で定義された連続関数を任意の精度で近似できます。
ニューラルネットワークの目的関数と最適化
ニューラルネットワークの目的関数
一般的に
重回帰出力の状況
誤差二乗和
複数の二項分類出力状況
クロスエントロピー
シングルK分類出力状況
クロスエントロピー
出力のアクティブ化に関するサンプル損失関数の導関数
ニューラルネットワークの最適化
損失関数
高度に非線形な非凸関数
損失関数を最小化する解は次の条件を満たします。
ハンセン行列 H は正定性を満たします
ニューラルネットワークの重み係数
寸法
重み係数空間の対称性
ニューロンの位置が入れ替わっても入出力関係は変わらず、前後でニューラルネットワークは等価です。
重み係数の最適化
フルグラデーションアルゴリズム
確率的勾配アルゴリズム
ミニバッチ確率的勾配アルゴリズム
バックプロパゲーション BP アルゴリズムは勾配または導関数を計算します
誤差逆伝播BPアルゴリズム 損失関数の重み係数の勾配を計算します。
考え
導関数の連鎖則
出力の活性化に対する損失関数の導関数は、ラベルへの回帰出力の誤差です。
活性化重み係数の導関数は入力ベクトルです
損失関数の勾配または重み係数の導関数
エラーバックプロパゲーション
隠れ層にはエラーが存在しないため、エラーの影響を出力層から入力方向に伝播する必要があります。
逆伝播アルゴリズムの導出
順伝播
初期値
隠れ層
出力層
出力レイヤーのグラデーション
出力層エラー
勾配コンポーネント
隠れ層バックプロパゲーション
隠れ層のグラデーションチェーン分解
式の導出
アルゴリズム的思考
順伝播
前の層のニューロン出力 z は重み付けされて合計され、次の層のニューロン活性化 a が得られます。
誤差逆伝播法
後の層 (出力に近い層) の伝播誤差 δ(l 1) が前の層に逆伝播されて、前の層の伝播誤差 δ(l) が得られ、これが最初の隠れ層に逆伝播されます。レイヤ (入力非表示レイヤに最も近い)
アルゴリズムプロセス (重み係数の1ステップ反復)
初期値
順伝播
隠れ層
出力層
誤差逆伝播法
出力層
隠れ層
勾配コンポーネント
ミニバッチ確率的勾配アルゴリズム
逆伝播アルゴリズムのベクトル形式
初期値
順伝播
層 l の j 番目のニューロンの活性化に対する拡張重み係数
l番目の層の重み係数行列
加重加算とアクティベーション
出力層伝播誤差ベクトル
誤差逆伝播法
エラーバックプロパゲーション
勾配コンポーネント
l番目の層の重みベクトル行列の勾配
l番目の層のバイアスベクトルの勾配
層 l のニューロンの重み係数の勾配
逆伝播アルゴリズムの拡張
ネットワークのヤコビアン行列
ヤコビアン行列分解
誤差逆伝播方程式
回帰問題
2 分類問題
多分類問題
ネットワーク用ハンセン行列
ニューラルネットワーク学習におけるいくつかの問題
根本的な問題
目的関数と勾配の計算
初期化
重み係数の初期化
入力番号と出力番号はそれぞれ m と n です。
ザビエルの初期化
活性化関数がReLU関数の場合の重み係数の初期化
入力ベクトルの正規化
統一空間で表現される単位の正規化
正則化
体重減少に対する正規化された損失関数
反復的な更新
いくつかのタイプの等価正則化手法
拡張サンプルセット
サンプルセット内のサンプルをいくつかの異なる小さな角度で回転および移動させて、新しいサンプルを形成します
入力ベクトルにノイズを注入する
敵対的トレーニングのために入力サンプルに低電力のランダム ノイズを追加します。
早期停止テクニック
検証エラーの転換点を検出し、過学習を防ぐために検証エラーが増加し始めたら反復を停止します。