Galerie de cartes mentales réseau neuronal entièrement connecté
Introduction à la classification détaillée des réseaux de neurones entièrement connectés. Les réseaux de neurones entièrement connectés mettent en cascade plusieurs transformations pour réaliser un mappage entrée-sortie. Ils sont composés d'une couche d'entrée, d'une couche de sortie et de plusieurs couches cachées.
Modifié à 2023-07-27 22:52:26Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
réseau neuronal entièrement connecté
définition
Les réseaux neuronaux entièrement connectés mettent en cascade plusieurs transformations pour réaliser un mappage entrée-sortie.
Réseau à deux couches entièrement connecté
Par rapport
classificateur linéaire
W peut être considéré comme un modèle et le nombre de modèles est déterminé par le nombre de catégories.
Entièrement connecté
W1 peut également être considéré comme un modèle
W2 combine les résultats de correspondance de plusieurs modèles pour obtenir la note finale de la catégorie.
non linéaire
composition
Une couche d'entrée, une couche de sortie et plusieurs couches cachées
fonction d'activation
Fonctions d'activation couramment utilisées
Sigmoïde
RéLU
Tanh
ReLU qui fuit
Conception de la structure du réseau
Plus le nombre de neurones est grand, plus l’interface est complexe et plus la capacité de classification sur cet ensemble est forte.
La complexité du modèle de réseau neuronal est ajustée en fonction de la difficulté de la tâche de classification. Plus la tâche est difficile, plus la structure du réseau neuronal conçue doit être profonde et large, mais il convient de prêter attention au phénomène de surajustement.
SOFTMAX et perte d'entropie croisée
softmax
Normaliser les résultats de sortie
Convertir les résultats de sortie en probabilités
perte d'entropie
Utilisé pour mesurer la différence par rapport à la valeur réelle (code one-hot) - divergence KL
optimisation
Graphique informatique
étape
Toute fonction complexe peut être exprimée sous la forme d'un graphe informatique
Tout au long du graphique informatique, chaque unité de porte reçoit des informations puis effectue des calculs.
La valeur de sortie de cette porte
Le gradient local de sa valeur de sortie par rapport à la valeur d'entrée
À l'aide de la règle de chaîne, l'unité de porte doit multiplier le gradient renvoyé par le gradient local de son entrée pour obtenir le gradient de la sortie de l'ensemble du réseau pour chaque valeur d'entrée de l'unité de porte.
Blocs-portes communs
Porte d'ajout
porte de multiplication
porte de copie
porte maximale
question
le dégradé disparaît
En raison des propriétés multiplicatives de la règle de chaîne
explosion de dégradé
En raison des propriétés multiplicatives de la règle de chaîne
Solution
Utiliser la fonction d'activation appropriée
méthode de l'élan
Réduire la taille du pas de la direction d'oscillation
avantage
Sortez du point de selle de haute dimension
Sortez des optima locaux et des points de selle
méthode de gradient adaptatif
Réduisez la taille du pas dans le sens de l'oscillation et augmentez la taille du pas dans le sens plat.
Le carré de l'amplitude du gradient est la direction de l'oscillation
Le carré de l’amplitude du gradient est la direction plate.
Méthode RMSProp
ADAM
Une combinaison de la méthode du moment et de la méthode du gradient adaptatif, mais elle doit être corrigée pour éviter d'être trop lente lors du démarrage à froid.
Résumer
La méthode Momentum SGD est la meilleure, mais nécessite un ajustement manuel
ADAM est facile à utiliser, mais difficile à optimiser
Initialisation du poids
initialisation à zéro
pas trop bon
initialisation aléatoire
Utiliser la distribution gaussienne
Il existe une forte probabilité que le gradient disparaisse et que le flux d'informations disparaisse.
Initialisation Xavier
La variance des valeurs d'activation des neurones dans chaque couche est fondamentalement la même.
résumé
Une bonne méthode d'initialisation peut empêcher la disparition des informations lors de la propagation vers l'avant et peut également résoudre le problème de la disparition du gradient lors de la propagation inverse.
Lors de la sélection de la tangente hyperbolique ou du Sigmoïde comme fonction d'activation, il est recommandé d'utiliser la méthode d'initialisation Xaizer.
Lors de la sélection de ReLU ou Leakly ReLU comme fonction d'activation, il est recommandé d'utiliser la méthode d'initialisation He.
normalisation par lots
appelée couche BN
méthode
Ajustez la répartition du poids pour que l'entrée et la sortie aient la même répartition
Ajustez la sortie y après la formation par lots - soustrayez la moyenne pour supprimer la variance
Parmi eux, la moyenne et la variance de la distribution des données doivent être déterminées indépendamment en fonction de la contribution à la classification.
avantage
Résoudre le problème de la disparition du signal et de la disparition du gradient lors du passage vers l'avant
Surapprentissage et sous-apprentissage
surapprentissage
Lorsque la capacité du modèle diminue sur l'ensemble d'entraînement et commence à augmenter sur l'ensemble de validation, elle commence à surajuster.
Lors de l'apprentissage, le modèle sélectionné contient trop de paramètres, ce qui entraîne de bonnes prédictions pour les données connues mais de mauvaises prédictions pour les données inconnues.
Habituellement, les données d'entraînement sont mémorisées plutôt que les caractéristiques des données apprises.
solution
Obtenez plus de données d'entraînement
Réguler le modèle pour autoriser l'information ou la contraindre - régularisation
Ajuster la taille du modèle
Contraindre les poids du modèle, régularisation des poids
Désactivation aléatoire (abandon)
Laissez les neurones de la couche cachée ne pas être activés avec une certaine probabilité
accomplir
Pendant le processus de formation, utiliser l'abandon sur une certaine couche signifie supprimer aléatoirement certaines sorties de la couche. Ces neurones rejetés semblent être supprimés par le réseau.
taux de perte aléatoire
est la proportion de fonctionnalités définies sur 0, généralement comprise entre 0,2 et 0,5
Peut être considéré comme un modèle d'intégration de plusieurs petits réseaux
Sous-ajustement
La capacité de description du modèle est trop faible pour bien apprendre les modèles dans les données.
Généralement le modèle est trop simple
Réglage des hyperparamètres
taux d'apprentissage
C est trop gros
Impossible de converger
Trop grand
Oscille près de la valeur minimale et ne peut pas atteindre la valeur optimale.
trop petit
Temps de convergence long
Modéré
Convergence rapide et bons résultats
optimisation
méthode de recherche par grille
Chaque hyperparamètre prend plusieurs valeurs et ces hyperparamètres sont combinés pour former plusieurs ensembles d'hyperparamètres.
Évaluer les performances du modèle pour chaque ensemble d'hyperparamètres sur le validateur
Sélectionnez l'ensemble de valeurs utilisé par le modèle le plus performant comme valeurs finales des hyperparamètres.
Méthode de recherche aléatoire
Sélectionnez aléatoirement des points dans l'espace des paramètres, chaque point correspond à un ensemble d'hyperparamètres
Évaluer les performances du modèle pour chaque ensemble d'hyperparamètres sur l'ensemble de validation
Sélectionnez l'ensemble de valeurs utilisé par le modèle avec les meilleures performances comme valeurs finales des hyperparamètres.
Généralement, l'échantillonnage aléatoire est effectué dans l'espace journal.