ログイン
サインイン

マインドマップギャラリー完全に接続されたニューラルネットワーク

完全に接続されたニューラルネットワーク

全結合ニューラルネットワークの詳細な分類の紹介全結合ニューラルネットワークは、複数の変換をカスケードして、入力層、出力層、および複数の隠れ層で構成されます。

2023-07-27 22:52:26 に編集されました

WSUJfrxa

最近の作品その他の作品を表示>>

完全に接続されたニューラルネットワーク

WSUJfrxa

最近の作品その他の作品を表示>>

おすすめ
アウトライン

コンピュータビジョンデジタル画像処理
- 6
PlotWizard
畳み込みニューラルネットワーク
- 9
WSUJfrxa
注意メカニズム
- 11
WSUJfrxa
モデルの生成
- 5
WSUJfrxa
コンボリューション、ノイズ除去、エッジ抽出
- 5
WSUJfrxa
古典的なネットワーク分析
- 13
WSUJfrxa
コンピュータービジョンとディープラーニング
- 8
WSUJfrxa
主要な深層学習モデル
- 14
Mason·Carter
BEVのセンシング方向の学習シーケンス
- 19
21_ethanSawyer

完全に接続されたニューラルネットワーク

意味

完全に接続されたニューラルネットワークは複数の変換をカスケードして、入力から出力へのマッピングを実現します。

2層完全接続ネットワーク

比較した

線形分類器

W はテンプレートとみなすことができ、テンプレートの数はカテゴリの数によって決まります。

完全に接続されています

W1 もテンプレートと見なすことができます

W2 は、複数のテンプレートの一致結果を組み合わせて、最終的なカテゴリのスコアを取得します。

非線形

構成

入力層、出力層、および複数の隠れ層

活性化関数

よく使用されるアクティベーション関数

シグモイド

ReLU

タン

リーキー ReLU

ネットワーク構造設計

ニューロンの数が増えるほど、インターフェイスはより複雑になり、このセットの分類能力が強化されます。

ニューラルネットワークモデルの複雑さは、分類タスクの難易度に応じて調整されます。タスクが難しいほど、ニューラルネットワークの構造を深く広く設計する必要がありますが、過学習現象に注意する必要があります。

SOFTMAX とクロスエントロピー損失

ソフトマックス

出力結果を正規化する

出力結果を確率に変換する

エントロピー損失

実際の値との差を測定するために使用されます（ワンホットコード） - KL ダイバージェンス

最適化

計算グラフ

ステップ

あらゆる複雑な関数を計算グラフの形式で表現できます。

計算グラフ全体を通じて、各ゲートユニットは入力を取得して計算を実行します。

このゲートの出力値

入力値に対する出力値の局所的な勾配

チェーンルールを使用して、ゲートユニットは返された勾配にその入力のローカル勾配を乗算して、ゲートユニットの各入力値に対するネットワーク全体の出力の勾配を取得する必要があります。

共通ドアユニット

追加ゲート

乗算ゲート

コピーゲート

マックスドア

質問

グラデーションが消える

連鎖律の乗法的性質により

勾配爆発

連鎖律の乗法的性質により

解決

適切なアクティベーション関数を使用する

運動量法

振動方向のステップサイズを小さくする

アドバンテージ

高次元鞍点からの突破

局所最適化および鞍点からの脱却

適応勾配法

振動方向のステップサイズを小さくし、フラット方向のステップサイズを大きくします。

勾配振幅の二乗は振動の方向です。

勾配振幅の 2 乗がフラット方向です。

RMSProp メソッド

アダム

運動量法と適応勾配法を組み合わせたものですが、コールドスタート時に遅くなりすぎないように修正する必要があります。

要約する

モメンタム方式 SGD が最適ですが、手動調整が必要です

ADAM は使いやすいですが、最適化は困難です

重みの初期化

オールゼロの初期化

いまいち

ランダムな初期化

ガウス分布を使用する

勾配がなくなり、情報の流れがなくなる可能性が高い。

ザビエルの初期化

各層のニューロンの活性化値の分散は基本的に同じです。

まとめ

適切な初期化方法を使用すると、順伝播中の情報の消失を防ぐことができ、逆伝播中の勾配消失の問題も解決できます。

活性化関数として双曲線正接またはシグモイドを選択する場合は、Xaizer 初期化メソッドを使用することをお勧めします。

活性化関数として ReLU または Leakly ReLU を選択する場合は、He 初期化メソッドを使用することを推奨します。

バッチ正規化

BN層と呼ばれる

方法

入力と出力が同じ配分になるようにウェイト配分を調整します。

バッチトレーニング後に y 出力を調整します - 平均を減算して分散を除去します

このうち、データ分布の平均と分散は、分類への寄与に基づいて独立して決定する必要があります。

利点

往路通過時の信号消失と勾配消失の問題を解決

過学習と過小学習

過学習

モデルの能力がトレーニングセットで減少し、検証セットで増加し始めると、過剰適合が始まります。

学習時に、選択したモデルに含まれるパラメーターが多すぎるため、既知のデータに対しては良好な予測が得られますが、未知のデータに対しては予測が不十分になります。

通常、学習されたデータの特徴ではなく、トレーニングデータが記憶されます。

解決

より多くのトレーニングデータを取得する

情報を許可または制限するためにモデルを調整する - 正則化

モデルのサイズを調整する

モデルの重みを制約し、重みを正則化する

ランダムな非アクティブ化 (ドロップアウト)

隠れ層ニューロンを一定の確率で活性化させない

成し遂げる

トレーニングプロセス中に、特定の層でドロップアウトを使用すると、層の一部の出力がランダムに破棄され、これらの破棄されたニューロンはネットワークによって削除されるようです。

ランダム損失率

0 に設定された特徴の割合です。通常は 0.2 ～ 0.5 の範囲です。

複数の小規模ネットワークのモデル統合とみなせる

アンダーフィッティング

モデルの記述能力が弱すぎて、データ内のパターンをうまく学習できません。

通常、モデルは単純すぎる

ハイパーパラメータ調整

学習率

大きすぎる

収束できない

大きすぎる

最小値付近で発振し、最適値に到達できません。

小さすぎる

長い収束時間

適度

高速なコンバージェンスと良好な結果

最適化

グリッド検索方式

各ハイパーパラメータは複数の値を取り、これらのハイパーパラメータを組み合わせて複数のハイパーパラメータセットを形成します。

バリデーターのハイパーパラメーターのセットごとにモデルのパフォーマンスを評価します。

最もパフォーマンスの高いモデルで使用される値のセットを最終的なハイパーパラメーター値として選択します。

ランダム検索方式

パラメータ空間内の点をランダムに選択します。各点はハイパーパラメータのセットに対応します。

検証セットのハイパーパラメーターのセットごとにモデルのパフォーマンスを評価します。

最終的なハイパーパラメータ値として、最高のパフォーマンスを持つモデルによって使用される値のセットを選択します。

一般に、ランダムサンプリングはログスペースで行われます。