マインドマップギャラリー 必要なのは注意力だけです
変圧器の構造の詳細な説明やより詳細な計算ロジックなど、論文「attention is all you need」の内容を整理。
これはバクテリアに関するマインドマップであり、その主な内容には、概要、形態、種類、構造、生殖、分布、アプリケーション、および拡張が含まれます。概要は包括的で綿密で、レビュー資料として適しています。
これは、植物の無性生殖に関するマインドマップであり、その主な内容には、概念、胞子の生殖、栄養生殖、組織培養、芽が含まれます。概要は包括的で綿密で、レビュー資料として適しています。
これは、動物の生殖発達に関するマインドマップであり、その主な内容には、昆虫、カエル、鳥、性的生殖、無性生殖が含まれます。概要は包括的で綿密で、レビュー資料として適しています。
ディープラーニングの理論的知識
人工知能技術開発
画像分割アルゴリズム
機械学習の基本的な回帰アルゴリズム
ニューラルネットワークの動作過程を詳しく解説
畳み込みニューラル ネットワーク (CNN)
ニューラル ネットワークとディープラーニング リカレント ニューラル ネットワーク
ニューラル ネットワークとディープラーニング 畳み込みニューラル ネットワーク
ニューラルネットワークとディープラーニングの基礎
コンピュータービジョンとディープラーニング
必要なのは注意力だけです
自己注意 自意識
基本構造
このプロセスは次のように表現できます。
sqrt(dk) はスケール スカラーであり、Q と K の内積結果が大きすぎます。
ビジュアルディスプレイ
Q、K、V 行列はすべて入力から生成されます。
Q、K、V を生成する
W^Q、W^K、W^V は、モデルのトレーニング プロセス中に学習された適切なパラメーターです。
文を入力すると、文内の各単語が文内のすべての単語で計算されます。
文内の単語の依存関係を学習する
文の内部構造を捉える
セルフアテンションメカニズムを使用する理由
複雑
RNN や CNN と比較すると、より支配的です。
並列化できるのでしょうか?
マルチヘッド アテンションでは各セルフ アテンション間に依存関係がなく、同時に実行できます。
遠距離依存
各単語は他の単語とのアテンションを計算する必要があるため、最大パス長は 1 であり、長距離の依存関係を簡単に把握できます。
マルチヘッドアテンション 強気の注意
複数のセルフアテンション構造の組み合わせ
各ヘッドは異なる表現空間の特徴を学習します
デコーダ
構造
マスクドマルチヘッドの最初のレベル
最初のレベルの K、Q、および V はすべて、前の層デコーダの出力から得られます。
マスク操作を追加
次の出力単語は翻訳プロセス中にはわかりません。
以前に翻訳された出力単語のみに注目できます。
第 2 レベルのマルチヘッド
クエリは、前のデコーダ層の出力から取得されます。
キーと値はエンコーダーの出力から取得されます。
デコーダの各位置は、入力シーケンスの各位置に付随することができます。
入力の埋め込み
埋め込み図
トークンの埋め込み
は単語ベクトルです。最初の単語は CLS フラグで、後続の分類タスクに使用できます。
セグメントの埋め込み
2つの文を区別するために使用される
位置埋め込み
その他の情報
位置エンコーディング
説明する
モデルには再帰演算や畳み込み演算がないため、文中にはモナドの相対情報や位置情報はありません。
モデルが位置情報を学習するために、位置エンコーディングのレイヤーが単語埋め込みに追加されます。
三角関数のエンコード方法を選択します
位置埋め込みは、モデルが位置情報を取得できないことを補うだけであり、モデル設計の欠陥を根本的に解決することはできません。
意義
Self-Attention は巧妙に考えられていますが、注文情報をまったく取り込まない絶妙な袋詰めモデルとしか言えず、追加の注文情報を追加する必要があります。
追加&標準化
Residual Connection の略語を追加
画像処理用の ResNet に似た構造
前の層の情報を区別せずに次の層に渡す
多層ネットワークトレーニングの困難な問題を解決する
Norm はレイヤーの正規化を表します
活性化の正規化
トレーニングプロセスのスピードアップ
変圧器モデルのアーキテクチャ