Galerie de cartes mentales Le fondement des réseaux de neurones et de l’apprentissage profond
Il résume les structures de réseau neuronal les plus élémentaires - perceptron multicouche MLP et réseau à action directe FNN. Sur cette base, il résume la fonction objectif et la technologie d'optimisation du réseau neuronal. L'algorithme de rétro-propagation calcule le problème de gradient de la fonction objectif vers le réseau. coefficient de poids. , ainsi que des technologies auxiliaires pour l'optimisation des réseaux neuronaux telles que l'initialisation, la régularisation, etc.
Modifié à 2023-02-23 17:40:31Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Réseaux de neurones et apprentissage profond Base
Structure de base du réseau neuronal
structure neuronale
somme pondérée
signal de relance
synaptique/pondéré
valeur d'activation
fonction d'activation
fonction discontinue
fonction symbolique
perceptron
fonction de seuil
Neurones de McCulloch-Pitts
fonction différenciable en continu
Fonction sigmoïde logistique
Fonction tangente hyperbolique tanh()
défaut
Lorsque la valeur d'activation a est grande, la fonction entre dans la région de saturation et la dérivée correspondante est proche de 0. Dans l'algorithme d'apprentissage par gradient, la convergence devient très lente voire stagnante. La fonction ReLU converge plus rapidement
Fonction ReLU
ReLU classique
ReLU qui fuit
Résumé
La structure informatique des neurones
La sommation pondérée linéaire produit des valeurs d'activation La fonction d'activation non linéaire produit une sortie
Le réseau neuronal multicouche résout le problème XOR
perceptron
Fonction d'activation symbolique de combinaison linéaire
L'inséparabilité linéaire ne converge pas
Comme l'opération XOR
Solution linéairement indissociable
Le vecteur de fonction de base non linéaire remplace le vecteur propre d'origine.
Utilisez plusieurs neurones pour former un réseau neuronal multicouche
Comment les neurones sont connectés
En tant qu'élément de base, les neurones sont connectés à un réseau multicouche via des structures parallèles et en cascade.
Connexion parallèle
Plusieurs neurones de la même couche reçoivent le même vecteur de caractéristiques d'entrée x et produisent respectivement plusieurs sorties.
Mode cascade
Plusieurs neurones connectés en parallèle produisent chacun des sorties, qui sont transmises aux neurones de la couche suivante en tant qu'entrée.
Perceptron multicouche MLP Réseau neuronal à action directe FNN
Structure perceptron multicouche
couche d'entrée
Le nombre d'unités dans la couche d'entrée est la dimension D du vecteur d'entités en entrée.
Matrice de caractéristiques d'entrée N×D
Chaque ligne correspond à un échantillon, et le nombre de lignes est le nombre d'échantillons N
Le nombre de colonnes est la dimension du vecteur de caractéristiques D
Calque masqué
Niveau 1
Matrice d'entrée N×D
est la matrice de fonctionnalités d'origine
Matrice des coefficients de pondération D×K1
Le coefficient de poids de chaque neurone correspond à un vecteur colonne de dimension D
Un total de neurones K1 forment une matrice D×K1.
Vecteur de biais N×K1
Chaque ligne correspond à un biais d'échantillon, soit un total de N lignes
Le nombre de colonnes est le nombre de neurones K1
Matrice de sortie N×K1
Z = φ (A) = φ (XW W0)
Niveau 2
Matrice d'entrée N×K1
Matrice de sortie de la couche supérieure
Matrice des coefficients de pondération K1×K2
Le coefficient de poids de chaque neurone correspond à un vecteur colonne de dimension K1
Un total de neurones K2 forment une matrice de K1×K2
Vecteur de biais N×K2
Chaque ligne correspond à un biais d'échantillon, soit un total de N lignes
Le nombre de colonnes est le nombre de neurones K2
Matrice de sortie N×K2
Z = φ (A) = φ (XW W0)
mois couche
Matrice d'entrée N×K(m-1)
Matrice de sortie de la couche supérieure
Matrice de coefficient de poids K(m-1)×Km
Le coefficient de poids de chaque neurone correspond à un vecteur colonne de dimension K(m-1)
Un total de neurones Km forment une matrice de K(m-1)×Km
Vecteur de biais N×Km
Chaque ligne correspond à un biais d'échantillon, soit un total de N lignes
Le nombre de colonnes est le nombre de neurones Km
Matrice de sortie N×Km
Z = φ (A) = φ (XW W0)
couche de sortie
Matrice d'entrée N×K(L-1)
Matrice de sortie de la couche supérieure
Matrice de coefficient de poids K(L-1)×KL
Le coefficient de poids de chaque neurone correspond à un vecteur colonne de dimension K(L-1)
Un total de neurones KL forment une matrice de K(L-1)×KL
Vecteur de biais N × KL
Chaque ligne correspond à un biais d'échantillon, soit un total de N lignes
Le nombre de colonnes est le nombre de neurones KL
Matrice de sortie N×KL
Z = φ (A) = φ (XW W0)
La relation opérationnelle du perceptron multicouche Structure du programme
entrer
La sortie du j-ième neurone dans la m-ième couche
somme pondérée
La sortie de la couche supérieure est utilisée comme entrée de cette couche
fonction d'activation
sortir
Représentation de la sortie du réseau neuronal
Note
Le nombre de neurones dans la couche de sortie indique que le réseau neuronal peut avoir plusieurs fonctions de sortie en même temps.
problème de régression
La sortie du neurone de la couche de sortie est la sortie de la fonction de régression.
Deux catégories
Le neurone de la couche de sortie génère la probabilité postérieure du type positif et la fonction sigmoïde représente la probabilité postérieure du type.
Plusieurs catégories
Chaque neurone de la couche de sortie génère la probabilité a posteriori de chaque type, et la fonction Softmax représente la probabilité de chaque type.
Cartographie non linéaire du réseau neuronal
La différence avec la régression de la fonction de base
Détermination des paramètres
Les fonctions de base pour la régression des fonctions de base sont prédéterminées
Les paramètres de fonction de base du réseau neuronal font partie des paramètres du système et doivent être déterminés par formation.
relation non linéaire
La régression par fonction de base n'a qu'une relation non linéaire entre le vecteur d'entrée et la sortie.
Le vecteur d'entrée et le coefficient de poids du réseau neuronal ont une relation non linéaire avec la sortie
Exemple
Réseau neuronal à deux couches
réseau neuronal à trois couches
Théorème d'approximation du réseau neuronal
Essence du réseau neuronal
Cartographie de l'espace euclidien de dimension D à l'espace euclidien de dimension K
Le vecteur de caractéristiques d'entrée x est un vecteur de dimension D
La sortie y est un vecteur à K dimensions
contenu
Un MLP qui n'a besoin que d'une seule couche d'unités cachées peut se rapprocher d'une fonction continue définie dans un intervalle fini avec une précision arbitraire.
Fonctions objectives et optimisation des réseaux de neurones
Fonction objectif du réseau neuronal
en général
Situations de sortie de régression multiple
somme d'erreur des carrés
Situations de sortie de classification binaire multiple
entropie croisée
Situation de sortie de classification K unique
entropie croisée
La dérivée de la fonction de perte d'échantillon par rapport à l'activation de la sortie
Optimisation des réseaux de neurones
fonction de perte
Fonctions non convexes hautement non linéaires
La solution pour minimiser la fonction de perte satisfait
La matrice de Hansen H satisfait à la définition positive
Coefficient de pondération du réseau neuronal
Dimensions
Symétrie de l'espace des coefficients de poids
La relation entrée-sortie reste inchangée lorsque les neurones échangent leurs positions, et le réseau neuronal est équivalent avant et après.
Optimisation du coefficient de poids
algorithme de gradient complet
algorithme de gradient stochastique
algorithme de gradient stochastique en mini-lots
L'algorithme de rétropropagation BP calcule les gradients ou les dérivés
Algorithme BP de rétro-propagation des erreurs Calculer le gradient du coefficient de poids de la fonction de perte
Pensée
règle de chaîne des produits dérivés
La dérivée de la fonction de perte par rapport à l'activation de la sortie est l'erreur de la sortie de régression par rapport à l'étiquette
La dérivée du coefficient de pondération d'activation est le vecteur d'entrée
Gradient de la fonction de perte ou dérivée du coefficient de poids
rétropropagation d'erreur
Il y a un manque d'erreur dans la couche cachée et l'impact de l'erreur doit être propagé de la couche de sortie vers la direction d'entrée.
Dérivation de l'algorithme de rétropropagation
propagation vers l'avant
valeur initiale
Calque masqué
couche de sortie
Dégradé du calque de sortie
Erreur de couche de sortie
composant de dégradé
Rétropropagation des couches cachées
Décomposition de la chaîne de dégradé de calque caché
Dérivation de formule
Pensée algorithmique
propagation vers l'avant
La sortie neuronale z de la couche précédente est pondérée et additionnée pour obtenir l'activation neuronale a de la couche suivante.
Rétropropagation
L'erreur de propagation de cette dernière couche (couche proche de la sortie) δ(l 1) est rétro-propagée à la couche précédente, et l'erreur de propagation δ(l) de la couche précédente est obtenue, qui est rétro-propagée à la couche précédente. premier calque masqué (le plus proche du calque masqué en entrée)
processus d'algorithme (Itération en une étape du coefficient de pondération)
valeur initiale
propagation vers l'avant
Calque masqué
couche de sortie
Rétropropagation
couche de sortie
Calque masqué
composant de dégradé
algorithme de gradient stochastique en mini-lots
Forme vectorielle de l'algorithme de rétropropagation
valeur initiale
propagation vers l'avant
Coefficient de poids augmenté pour l'activation du j-ième neurone dans la couche l
La matrice des coefficients de poids de la lième couche
sommation pondérée et activation
Vecteur d'erreur de propagation de la couche de sortie
Rétropropagation
rétropropagation d'erreur
composant de dégradé
Le gradient de la matrice de vecteurs de poids de la lième couche
Le gradient du vecteur de biais de la lième couche
Le gradient du coefficient de poids d'un neurone dans la couche l
Une extension de l'algorithme de rétropropagation
Matrice jacobienne du réseau
Décomposition matricielle jacobienne
Équation de rétro-propagation des erreurs
problème de régression
Problème de deux classifications
Problème de multi-classification
Matrice Hansen pour les réseaux
Quelques problèmes dans l'apprentissage des réseaux neuronaux
question fondamentale
Fonction objectif et calcul du gradient
initialisation
Initialisation du coefficient de pondération
Les nombres d'entrée et de sortie sont respectivement m et n.
Initialisation Xavier
Initialisation des coefficients de poids lorsque la fonction d'activation est la fonction ReLU
Normalisation du vecteur d'entrée
Normalisation unitaire, représentée dans un espace unifié
Régularisation
Fonction de perte régularisée pour la perte de poids
mise à jour itérative
Plusieurs types de techniques de régularisation équivalentes
ensemble d'échantillons augmenté
Faites pivoter et traduisez un échantillon dans l'ensemble d'échantillons sous plusieurs petits angles différents pour former un nouvel échantillon.
Injecter du bruit dans le vecteur d'entrée
Ajoutez du bruit aléatoire de faible puissance aux échantillons d'entrée pour un entraînement contradictoire
technique d'arrêt précoce
Détectez le tournant de l'erreur de vérification. Arrêtez l'itération lorsque l'erreur de vérification commence à augmenter pour éviter le surajustement.