マインドマップギャラリー 完全に接続されたニューラルネットワーク
全結合ニューラル ネットワークの詳細な分類の紹介 全結合ニューラル ネットワークは、複数の変換をカスケードして、入力層、出力層、および複数の隠れ層で構成されます。
2023-07-27 22:52:26 に編集されました完全に接続されたニューラルネットワーク
意味
完全に接続されたニューラル ネットワークは複数の変換をカスケードして、入力から出力へのマッピングを実現します。
2層完全接続ネットワーク
比較した
線形分類器
W はテンプレートとみなすことができ、テンプレートの数はカテゴリの数によって決まります。
完全に接続されています
W1 もテンプレートと見なすことができます
W2 は、複数のテンプレートの一致結果を組み合わせて、最終的なカテゴリのスコアを取得します。
非線形
構成
入力層、出力層、および複数の隠れ層
活性化関数
よく使用されるアクティベーション関数
シグモイド
ReLU
タン
リーキー ReLU
ネットワーク構造設計
ニューロンの数が増えるほど、インターフェイスはより複雑になり、このセットの分類能力が強化されます。
ニューラル ネットワーク モデルの複雑さは、分類タスクの難易度に応じて調整されます。タスクが難しいほど、ニューラル ネットワークの構造を深く広く設計する必要がありますが、過学習現象に注意する必要があります。
SOFTMAX とクロスエントロピー損失
ソフトマックス
出力結果を正規化する
出力結果を確率に変換する
エントロピー損失
実際の値との差を測定するために使用されます(ワンホットコード) - KL ダイバージェンス
最適化
計算グラフ
ステップ
あらゆる複雑な関数を計算グラフの形式で表現できます。
計算グラフ全体を通じて、各ゲート ユニットは入力を取得して計算を実行します。
このゲートの出力値
入力値に対する出力値の局所的な勾配
チェーン ルールを使用して、ゲート ユニットは返された勾配にその入力のローカル勾配を乗算して、ゲート ユニットの各入力値に対するネットワーク全体の出力の勾配を取得する必要があります。
共通ドアユニット
追加ゲート
乗算ゲート
コピーゲート
マックスドア
質問
グラデーションが消える
連鎖律の乗法的性質により
勾配爆発
連鎖律の乗法的性質により
解決
適切なアクティベーション関数を使用する
運動量法
振動方向のステップサイズを小さくする
アドバンテージ
高次元鞍点からの突破
局所最適化および鞍点からの脱却
適応勾配法
振動方向のステップサイズを小さくし、フラット方向のステップサイズを大きくします。
勾配振幅の二乗は振動の方向です。
勾配振幅の 2 乗がフラット方向です。
RMSProp メソッド
アダム
運動量法と適応勾配法を組み合わせたものですが、コールドスタート時に遅くなりすぎないように修正する必要があります。
要約する
モメンタム方式 SGD が最適ですが、手動調整が必要です
ADAM は使いやすいですが、最適化は困難です
重みの初期化
オールゼロの初期化
いまいち
ランダムな初期化
ガウス分布を使用する
勾配がなくなり、情報の流れがなくなる可能性が高い。
ザビエルの初期化
各層のニューロンの活性化値の分散は基本的に同じです。
まとめ
適切な初期化方法を使用すると、順伝播中の情報の消失を防ぐことができ、逆伝播中の勾配消失の問題も解決できます。
活性化関数として双曲線正接またはシグモイドを選択する場合は、Xaizer 初期化メソッドを使用することをお勧めします。
活性化関数として ReLU または Leakly ReLU を選択する場合は、He 初期化メソッドを使用することを推奨します。
バッチ正規化
BN層と呼ばれる
方法
入力と出力が同じ配分になるようにウェイト配分を調整します。
バッチトレーニング後に y 出力を調整します - 平均を減算して分散を除去します
このうち、データ分布の平均と分散は、分類への寄与に基づいて独立して決定する必要があります。
利点
往路通過時の信号消失と勾配消失の問題を解決
過学習と過小学習
過学習
モデルの能力がトレーニング セットで減少し、検証セットで増加し始めると、過剰適合が始まります。
学習時に、選択したモデルに含まれるパラメーターが多すぎるため、既知のデータに対しては良好な予測が得られますが、未知のデータに対しては予測が不十分になります。
通常、学習されたデータの特徴ではなく、トレーニング データが記憶されます。
解決
より多くのトレーニング データを取得する
情報を許可または制限するためにモデルを調整する - 正則化
モデルのサイズを調整する
モデルの重みを制約し、重みを正則化する
ランダムな非アクティブ化 (ドロップアウト)
隠れ層ニューロンを一定の確率で活性化させない
成し遂げる
トレーニング プロセス中に、特定の層でドロップアウトを使用すると、層の一部の出力がランダムに破棄され、これらの破棄されたニューロンはネットワークによって削除されるようです。
ランダム損失率
0 に設定された特徴の割合です。通常は 0.2 ~ 0.5 の範囲です。
複数の小規模ネットワークのモデル統合とみなせる
アンダーフィッティング
モデルの記述能力が弱すぎて、データ内のパターンをうまく学習できません。
通常、モデルは単純すぎる
ハイパーパラメータ調整
学習率
大きすぎる
収束できない
大きすぎる
最小値付近で発振し、最適値に到達できません。
小さすぎる
長い収束時間
適度
高速なコンバージェンスと良好な結果
最適化
グリッド検索方式
各ハイパーパラメータは複数の値を取り、これらのハイパーパラメータを組み合わせて複数のハイパーパラメータ セットを形成します。
バリデーターのハイパーパラメーターのセットごとにモデルのパフォーマンスを評価します。
最もパフォーマンスの高いモデルで使用される値のセットを最終的なハイパーパラメーター値として選択します。
ランダム検索方式
パラメータ空間内の点をランダムに選択します。各点はハイパーパラメータのセットに対応します。
検証セットのハイパーパラメーターのセットごとにモデルのパフォーマンスを評価します。
最終的なハイパーパラメータ値として、最高のパフォーマンスを持つモデルによって使用される値のセットを選択します。
一般に、ランダム サンプリングはログ スペースで行われます。