Galerie de cartes mentales réseau neuronal traditionnel
Passez en revue quelques points de connaissance des réseaux de neurones traditionnels pour l'apprentissage automatique, notamment les fonctions d'activation non linéaires, le concept de gradient, le concept de régression linéaire, les scénarios et limites d'application de la régression linéaire, la structure des réseaux de neurones, etc.
Modifié à 2022-11-23 09:35:21Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
réseau neuronal traditionnel
fonction d'activation non linéaire
sigmoïde
avantage
Compressez les valeurs des caractéristiques d'entrée dans une large plage comprise entre 0 et 1, afin que l'amplitude des données puisse être maintenue sans changements majeurs dans les réseaux profonds.
Le plus proche des neurones biologiques au sens physique
En fonction de sa plage de sortie, cette fonction convient aux modèles qui ont des probabilités prédites en sortie
défaut
Lorsque l'entrée est très grande ou très petite, la sortie est fondamentalement constante, c'est-à-dire que le changement est très faible, ce qui fait que le gradient est proche de 0.
Les dégradés peuvent disparaître prématurément, entraînant une convergence plus lente
Les opérations exponentielles prennent relativement du temps
La sortie n'est pas de moyenne 0, ce qui amène les neurones de la couche suivante à recevoir en entrée le signal de moyenne non nulle émis par la couche précédente. À mesure que le réseau s'approfondit, la tendance de distribution des données originales changera.
tanh
avantage
Résoudre le problème selon lequel la sortie de la fonction sigmoïde ci-dessus n'est pas moyenne de 0
La dérivée de la fonction Tanh va de 0 à 1, ce qui est meilleur que le 0 à 0,25 de la fonction sigmoïde, ce qui atténue dans une certaine mesure le problème de la disparition des gradients.
La fonction Tanh est similaire à la fonction y=x près de l'origine. Lorsque la valeur d'activation d'entrée est faible, les opérations matricielles peuvent être effectuées directement et la formation est relativement simple.
défaut
Semblable à la fonction sigmoïde, le problème du gradient de disparition existe toujours
Observez ses deux formes d'expressions, à savoir 2*sigmoid(2x)-1 et (exp(x)-exp(-x))/(exp(x) exp(-x)). le fonctionnement électrique existe toujours
RéLU
avantage
Par rapport à la fonction sigmoïde et à la fonction Tanh, lorsque l'entrée est positive, la fonction Relu n'a pas de problème de saturation, ce qui résout le problème de disparition du gradient et rend le réseau profond entraînable.
La vitesse de calcul est très rapide, il vous suffit de déterminer si l'entrée est supérieure à la valeur 0
La vitesse de convergence est beaucoup plus rapide que les fonctions sigmoïde et Tanh
La sortie Relu amènera certains neurones à avoir une valeur de 0, ce qui non seulement entraîne une parcimonie du réseau, mais réduit également la corrélation entre les paramètres, ce qui atténue dans une certaine mesure le problème du surajustement ;
défaut
La sortie de la fonction Relu n'est pas une fonction avec 0 comme moyenne.
Il existe un problème de Dead Relu, c'est-à-dire que certains neurones peuvent ne jamais être activés, ce qui empêche la mise à jour des paramètres correspondants. Les principales raisons de ce problème incluent des problèmes d'initialisation des paramètres et des paramètres de taux d'apprentissage trop élevés ;
Lorsque l'entrée est une valeur positive et que la dérivée est 1, dans la "réaction en chaîne", le gradient ne disparaîtra pas, mais la force de la descente du gradient dépend entièrement du produit des poids, ce qui peut conduire au problème d'explosion du gradient.
ReLU qui fuit
avantage
En réponse au problème Dead Relu qui existe dans la fonction Relu, la fonction Leaky Relu donne à la valeur d'entrée une très petite pente lorsque l'entrée est une valeur négative. Sur la base de la résolution du problème du gradient 0 dans le cas d'une entrée négative, c'est également bien atténué le problème de Dead Relu.
La sortie de cette fonction va de l'infini négatif à l'infini positif, c'est-à-dire que la fuite étend la plage de la fonction Relu, où la valeur de α est généralement définie sur une valeur plus petite, telle que 0,01.
défaut
Théoriquement, cette fonction a de meilleurs effets que la fonction Relu, mais une grande quantité de pratique a prouvé que son effet est instable, il n'y a donc pas beaucoup d'applications de cette fonction dans la pratique.
Des résultats incohérents dus à des fonctions différentes appliquées à différents intervalles entraîneront l'incapacité de fournir des prédictions de relations cohérentes pour les valeurs d'entrée positives et négatives.
La notion de dégradé
La signification originale du gradient est un vecteur (vecteur), ce qui signifie que la dérivée directionnelle d'une certaine fonction à ce stade atteint la valeur maximale dans cette direction, c'est-à-dire que la fonction change le plus rapidement dans cette direction (la direction de ce gradient) à ce stade, et le changement est Le taux est le plus grand (le module du gradient).
Le concept de régression linéaire
Relation linéaire pour décrire la relation de mappage de l'entrée à la sortie
Scénarios d'application de régression linéaire
Analyse de réseau, analyse des risques, prévision du cours des actions, prévisions météorologiques
Limites de la régression linéaire
La régression linéaire peut clairement décrire la segmentation de données distribuées linéairement, mais est faible pour décrire des données distribuées non linéairement.
La structure du réseau neuronal
couche d'entrée
valeur d'activation
couche du milieu
couche de sortie
Poids : fait référence à la relation étroite avec un neurone dans la couche d'entrée. Plus la connexion est étroite, plus la valeur est élevée.
Valeur d'activation : La valeur d'activation de la couche de sortie est calculée. Le calcul simple consiste à multiplier la valeur d'activation de la couche d'entrée par le poids.
Offset : ne vous inquiétez pas de ce paramètre pour l'instant
Connexion « parallèle » et « série » des neurones
Ici, m représente la largeur de la nième couche du réseau neuronal et n est la profondeur du réseau neuronal actuel.
De la première couche du réseau neuronal à la sortie finale, la valeur de chaque neurone est déterminée par la valeur du neurone de la couche précédente, les paramètres du neurone W, b et la fonction d'excitation. L'équation du k-ième neurone dans le n. -ème couche peut être exprimée par la formule :
Fonction de perte-Perte
L’un des facteurs les plus importants affectant les performances du deep learning. C'est le monde extérieur qui affecte les nerfs Conseils directs pour la formation sur les modèles de réseau
Une fonction de perte appropriée peut assurer la convergence du modèle d'apprentissage profond
La conception d'une fonction de perte appropriée est l'un des principaux contenus des travaux de recherche
Définition de la fonction Softmax et ses avantages
fonction exponentielle normalisée
Convertir les résultats de prédiction en nombres non négatifs
La première étape de softmax consiste à transformer les résultats de prédiction du modèle en fonction exponentielle, garantissant ainsi le caractère non négatif de la probabilité.
La somme des probabilités de divers résultats prédits est égale à 1
La méthode consiste à diviser les résultats convertis par la somme de tous les résultats convertis, ce qui peut être compris comme le pourcentage des résultats convertis dans le total. Cela donne des probabilités approximatives.
Définition de la fonction d'entropie croisée et ses avantages
Pourquoi peut-il être utilisé comme fonction de perte
L'entropie croisée peut être utilisée comme fonction de perte dans les réseaux de neurones (apprentissage automatique). p représente la distribution d'étiquettes réelles et q est la distribution d'étiquettes prédite du modèle formé. La fonction de perte d'entropie croisée peut mesurer la similarité entre p et q. .
Un autre avantage de l'entropie croisée en tant que fonction de perte est que l'utilisation de la fonction sigmoïde pendant la descente de gradient peut éviter le problème du taux d'apprentissage réduit de la fonction de perte d'erreur quadratique moyenne, car le taux d'apprentissage peut être contrôlé par l'erreur de sortie.
Considérons p(i) comme la distribution de probabilité réelle et q(i) comme la distribution de probabilité prédite. Si nous utilisons l'entropie croisée comme fonction de perte, lorsque nous la minimisons, nous pouvons faire en sorte que q(i) s'approche progressivement de p( i), le but du montage est atteint.
,
Problème de régression avec l'intervalle cible [0, 1] et la génération
Personnaliser
Prendre goût à un certain attribut
Supprimez certaines valeurs prédites individuellement ou attribuez des paramètres de différentes tailles
Fusionner plusieurs pertes
Tâches de formation multi-objectifs, définition de méthodes raisonnables de combinaison de pertes (diverses opérations)
fusion de réseaux neuronaux
Différentes pertes du réseau neuronal sont combinées et la perte commune est utilisée pour entraîner et guider le réseau.
taux d'apprentissage
Plus la valeur est grande, plus la vitesse de convergence est rapide.
Petite valeur numérique, précision de convergence élevée
Comment choisir un taux d'apprentissage approprié
Fixé
Fixe, c'est-à-dire taux d'apprentissage fixe, est la configuration la plus simple et ne nécessite qu'un seul paramètre.
Le taux d'apprentissage reste inchangé pendant tout le processus d'optimisation. Il s'agit d'une stratégie très rarement utilisée, car à mesure qu'elle s'approche du point optimal global, le taux d'apprentissage doit devenir de plus en plus petit pour éviter de sauter le point optimal.
étape
Utilisez une méthode de réduction uniforme, par exemple, chaque réduction correspond à 0,1 fois la valeur d'origine.
Il s'agit d'une stratégie d'itération du taux d'apprentissage très couramment utilisée. Chaque fois que le taux d'apprentissage est réduit à un certain multiple de l'original, il s'agit d'une transformation discontinue qui est simple à utiliser et donne généralement de bons résultats.
Adágrad
taux d'apprentissage adaptatif
L'algorithme AdaGrad montre qu'à mesure que l'algorithme continue d'itérer, r deviendra de plus en plus grand et le taux d'apprentissage global deviendra de plus en plus petit. Par conséquent, d'une manière générale, l'algorithme AdaGrad commence par une convergence d'incitation, puis se transforme lentement en convergence de pénalité, et la vitesse devient de plus en plus lente.
RMSprop
L'algorithme RMSProp n'accumule pas violemment et directement des gradients carrés comme l'algorithme AdaGrad, mais ajoute un coefficient d'atténuation pour contrôler la quantité d'informations historiques obtenues.
Pour faire simple, après avoir fixé le taux d'apprentissage global, pour chaque passage, le taux d'apprentissage global est divisé paramètre par paramètre par la racine carrée de la somme carrée des gradients historiques contrôlés par le coefficient d'atténuation, de sorte que le taux d'apprentissage de chaque Le paramètre est différent.
L'effet est que des progrès plus importants seront réalisés dans la direction la plus plate de l'espace des paramètres (parce qu'il est plus plat, la somme des carrés des gradients historiques est plus petite, correspondant à un déclin d'apprentissage plus faible), et cela peut rendre la direction raide plus fluide, accélérant ainsi la formation.
élan
Suivez la direction d'optimisation qui a été obtenue. Il n'est pas nécessaire de retrouver la direction, il suffit de la peaufiner.
Quelle est la différence entre utiliser l'élan et augmenter directement le taux d'apprentissage ?
La direction est différente et la recherche est plus précise.
surapprentissage
Le surajustement est également appelé surapprentissage. Sa manifestation intuitive est que l'algorithme fonctionne bien sur l'ensemble d'entraînement, mais ne fonctionne pas bien sur l'ensemble de test, ce qui entraîne de mauvaises performances de généralisation.
Le surajustement est dû au fait que les données d'entraînement contiennent des erreurs d'échantillonnage pendant le processus d'ajustement des paramètres du modèle, et que le modèle complexe ajuste également les erreurs d'échantillonnage pendant l'entraînement. L'erreur d'échantillonnage fait référence à l'écart entre l'ensemble d'échantillons obtenu par échantillonnage et l'ensemble de données global.
Le modèle lui-même est si complexe qu'il s'adapte au bruit dans l'ensemble d'échantillons d'apprentissage. À ce stade, vous devez choisir un modèle plus simple ou recadrer le modèle
Les échantillons de formation sont trop peu nombreux ou manquent de représentativité. A ce moment, il est nécessaire d'augmenter le nombre d'échantillons ou d'augmenter la diversité des échantillons
L'interférence du bruit de l'échantillon d'apprentissage amène le modèle à s'adapter à ces bruits. Dans ce cas, il est nécessaire d'éliminer les données bruitées ou de passer à un modèle qui n'est pas sensible au bruit.
solution
Abandonner
La différence entre l'abandon et le pooling
sous-thème
Lors de la propagation vers l'avant, nous laissons la valeur d'activation d'un certain neurone cesser de fonctionner avec une certaine probabilité p, ce qui peut rendre le modèle plus généralisable car il ne s'appuiera pas trop sur certaines caractéristiques locales.
Régularisation
Quel effet la régularisation a-t-elle sur le paramètre w ?
Qu’est-ce que la perte de poids et quel est son lien avec la régularisation ?
Le but de la régularisation L2 est d'atténuer le poids à une valeur plus petite et de réduire dans une certaine mesure le problème du surajustement du modèle. L'atténuation du poids est donc également appelée régularisation L2.
Réglage fin
La plupart des paramètres n'ont pas besoin d'être mis à jour et les paramètres réels sont considérablement réduits.
Gelez une partie des couches convolutives du modèle pré-entraîné (généralement la majorité des couches convolutives proches de l'entrée, car ces couches conservent beaucoup d'informations sous-jacentes) ou même gelez toutes les couches réseau, et entraînez les couches convolutives restantes (généralement les parties proches de la couche convolutive de sortie) et de la couche entièrement connectée.
Le principe du réglage fin est d'utiliser la structure de réseau connue et les paramètres de réseau connus, de modifier la couche de sortie vers notre propre couche et d'affiner les paramètres de plusieurs couches avant la dernière couche, utilisant ainsi efficacement les puissantes capacités de généralisation des profondeurs. réseaux neuronaux.
importance
Tenez-vous sur les épaules de géants : il y a de fortes chances que le modèle formé par vos prédécesseurs soit plus solide que le modèle que vous construisez à partir de zéro. Il n'est pas nécessaire de réinventer la roue.
Le coût de formation peut être très faible : si vous utilisez la méthode de dérivation de vecteurs de caractéristiques pour l'apprentissage par transfert, le coût de formation ultérieur est très faible, il n'y a aucune pression sur le processeur et cela peut être effectué sans machine d'apprentissage en profondeur.
Convient aux petits ensembles de données : pour les situations où l'ensemble de données lui-même est petit (des milliers d'images), il n'est pas réaliste de former un grand réseau neuronal avec des dizaines de millions de paramètres à partir de zéro, car plus le modèle est grand, plus le volume de données est important. exigences, le surapprentissage ne peut être évité. À l'heure actuelle, si vous souhaitez toujours utiliser les capacités d'extraction de super fonctionnalités des grands réseaux de neurones, vous ne pouvez compter que sur l'apprentissage par transfert.
modèle de migration
L'apprentissage par transfert (Transfer learning), comme son nom l'indique, consiste à transférer les paramètres d'un modèle entraîné (modèle pré-entraîné) vers un nouveau modèle pour aider le nouveau modèle à s'entraîner. Étant donné que la plupart des données ou des tâches sont liées, grâce à l'apprentissage par transfert, nous pouvons partager les paramètres du modèle appris (qui peuvent également être compris comme les connaissances apprises par le modèle) avec le nouveau modèle d'une manière ou d'une autre pour accélérer le processus d'optimisation de l'efficacité de l'apprentissage. du modèle ne nécessite pas d’apprendre à partir de zéro comme la plupart des réseaux.