心智圖資源庫 Attention is all you need
論文《Attention is all you need》細節的整理,包括transformer結構的詳解,以及更細節的計算邏輯。
編輯於2024-04-03 17:47:56Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Attention is all you need
Self-Attention 自註意力
基本結構
該過程可表示為
sqrt(dk)是尺度標量,Q和K的點積結果過大
直覺展示
Q,K,V矩陣都是由輸入產生
生成Q,K,V
W^Q, W^K, W^V 是我們模型訓練過程學習到的適當的參數
輸入一個句子,那麼裡面的每個字都要和該句子中的所有字進行attention計算
學習句子內部的單字依賴關係
捕捉句子的內部結構
使用自註意力機制的原因
複雜性
和RNN和CNN相比是比較優勢的
是否可並行
多頭Attention中每個Self-Attention之間沒有依賴可以同時進行
長距離依賴
由於每個字都要和其他字計算注意力,所以最大路徑長度為1,很容易捕捉長距離依賴
MultiHead-Attention 多頭注意力
多個Self-Attention結構的結合
每個head學習到在不同表示空間中的特徵
Decoder
結構
第一級的Masked Multi-head
第一級的K,Q,V皆來自前一層decoder的輸出
加入了Mask操作
翻譯過程中並不知道下一個輸出詞語
只能attend到前面已經翻譯過的輸出的詞語
第二級的Multi-Head
query來自於先前一級的decoder層的輸出
key和value來自於encoder的輸出
decoder的每一個位置都可以attend輸入序列的每一個位置
Input Embedding
Embedding示意圖
Token Embeddings
是詞向量,第一個單字是CLS標誌,可以用於之後的分類任務
Segment Embeddings
用來區別兩個句子
Position Embeddings
其它細節
position encoding
說明
模型中沒有recurrence和convolution操作,所以沒有單子在句子中的相對或覺得位置資訊
為讓模型學習位置訊息,在word embedding上加了一層position encoding
選取三角函數的encoding方式
Position Embedding對於本身模型無法捕捉位置訊息,只是起到了一個彌補的作用,並不能從根本上解決模型設計上的缺陷
重要意義
Self-Attention雖然構思巧妙,但是只能說是一個精妙的詞袋模型,並沒有捕捉到任何次序訊息,所以要加上額外的次序訊息
位置編碼
Add & Norm
Add 代表 Residual Connection
類似影像處理的ResNet的結構
將前一層的訊息,無差別的傳遞到下一層
解決多層網路訓練困難問題
Norm則代表了Layer Normalization
活化值歸一化
加速訓練過程
Transformer模型架構