Connexion
Connexion

Galerie de cartes mentales réseau neuronal traditionnel

réseau neuronal traditionnel

Passez en revue quelques points de connaissance des réseaux de neurones traditionnels pour l'apprentissage automatique, notamment les fonctions d'activation non linéaires, le concept de gradient, le concept de régression linéaire, les scénarios et limites d'application de la régression linéaire, la structure des réseaux de neurones, etc.

Modifié à 2022-11-23 09:35:21

WSrx009v

Œuvres récentes Afficher plus d'œuvres>>

réseau neuronal traditionnel

WSrx009v

Œuvres récentes Afficher plus d'œuvres>>

Recommandé pour vous
Contour

Explication détaillée du processus de fonctionnement du réseau neuronal
- 10
WSrx009v
Réseau neuronal convolutif (CNN)
- 11
WSrx009v
Types courants et applications des modèles de réseaux neuronaux
- 14
WSrx009v
Réseaux de neurones et réseaux de neurones récurrents d'apprentissage profond
- 10
WSrx009v
Réseaux de neurones et réseaux de neurones convolutifs d'apprentissage profond
- 13
WSrx009v
Le fondement des réseaux de neurones et de l’apprentissage profond
- 10
WSrx009v
Reconnaissance de chiffres manuscrits basée sur un réseau neuronal convolutif sigmoïde amélioré
- 8
WSrx009v
Réseaux de neurones convolutifs avec régularisation dynamique
- 16
WSrx009v
Les réseaux de neurones
- 30
WSrx009v
Générer un modèle
- 7
WSrx009v

réseau neuronal traditionnel

fonction d'activation non linéaire

sigmoïde

avantage

Compressez les valeurs des caractéristiques d'entrée dans une large plage comprise entre 0 et 1, afin que l'amplitude des données puisse être maintenue sans changements majeurs dans les réseaux profonds.

Le plus proche des neurones biologiques au sens physique

En fonction de sa plage de sortie, cette fonction convient aux modèles qui ont des probabilités prédites en sortie

défaut

Lorsque l'entrée est très grande ou très petite, la sortie est fondamentalement constante, c'est-à-dire que le changement est très faible, ce qui fait que le gradient est proche de 0.

Les dégradés peuvent disparaître prématurément, entraînant une convergence plus lente

Les opérations exponentielles prennent relativement du temps

La sortie n'est pas de moyenne 0, ce qui amène les neurones de la couche suivante à recevoir en entrée le signal de moyenne non nulle émis par la couche précédente. À mesure que le réseau s'approfondit, la tendance de distribution des données originales changera.

tanh

avantage

Résoudre le problème selon lequel la sortie de la fonction sigmoïde ci-dessus n'est pas moyenne de 0

La dérivée de la fonction Tanh va de 0 à 1, ce qui est meilleur que le 0 à 0,25 de la fonction sigmoïde, ce qui atténue dans une certaine mesure le problème de la disparition des gradients.

La fonction Tanh est similaire à la fonction y=x près de l'origine. Lorsque la valeur d'activation d'entrée est faible, les opérations matricielles peuvent être effectuées directement et la formation est relativement simple.

défaut

Semblable à la fonction sigmoïde, le problème du gradient de disparition existe toujours

Observez ses deux formes d'expressions, à savoir 2*sigmoid(2x)-1 et (exp(x)-exp(-x))/(exp(x) exp(-x)). le fonctionnement électrique existe toujours

RéLU

avantage

Par rapport à la fonction sigmoïde et à la fonction Tanh, lorsque l'entrée est positive, la fonction Relu n'a pas de problème de saturation, ce qui résout le problème de disparition du gradient et rend le réseau profond entraînable.

La vitesse de calcul est très rapide, il vous suffit de déterminer si l'entrée est supérieure à la valeur 0

La vitesse de convergence est beaucoup plus rapide que les fonctions sigmoïde et Tanh

La sortie Relu amènera certains neurones à avoir une valeur de 0, ce qui non seulement entraîne une parcimonie du réseau, mais réduit également la corrélation entre les paramètres, ce qui atténue dans une certaine mesure le problème du surajustement ;

défaut

La sortie de la fonction Relu n'est pas une fonction avec 0 comme moyenne.

Il existe un problème de Dead Relu, c'est-à-dire que certains neurones peuvent ne jamais être activés, ce qui empêche la mise à jour des paramètres correspondants. Les principales raisons de ce problème incluent des problèmes d'initialisation des paramètres et des paramètres de taux d'apprentissage trop élevés ;

Lorsque l'entrée est une valeur positive et que la dérivée est 1, dans la "réaction en chaîne", le gradient ne disparaîtra pas, mais la force de la descente du gradient dépend entièrement du produit des poids, ce qui peut conduire au problème d'explosion du gradient.

ReLU qui fuit

avantage

En réponse au problème Dead Relu qui existe dans la fonction Relu, la fonction Leaky Relu donne à la valeur d'entrée une très petite pente lorsque l'entrée est une valeur négative. Sur la base de la résolution du problème du gradient 0 dans le cas d'une entrée négative, c'est également bien atténué le problème de Dead Relu.

La sortie de cette fonction va de l'infini négatif à l'infini positif, c'est-à-dire que la fuite étend la plage de la fonction Relu, où la valeur de α est généralement définie sur une valeur plus petite, telle que 0,01.

défaut

Théoriquement, cette fonction a de meilleurs effets que la fonction Relu, mais une grande quantité de pratique a prouvé que son effet est instable, il n'y a donc pas beaucoup d'applications de cette fonction dans la pratique.

Des résultats incohérents dus à des fonctions différentes appliquées à différents intervalles entraîneront l'incapacité de fournir des prédictions de relations cohérentes pour les valeurs d'entrée positives et négatives.

La notion de dégradé

La signification originale du gradient est un vecteur (vecteur), ce qui signifie que la dérivée directionnelle d'une certaine fonction à ce stade atteint la valeur maximale dans cette direction, c'est-à-dire que la fonction change le plus rapidement dans cette direction (la direction de ce gradient) à ce stade, et le changement est Le taux est le plus grand (le module du gradient).

Le concept de régression linéaire

Relation linéaire pour décrire la relation de mappage de l'entrée à la sortie

Scénarios d'application de régression linéaire

Analyse de réseau, analyse des risques, prévision du cours des actions, prévisions météorologiques

Limites de la régression linéaire

La régression linéaire peut clairement décrire la segmentation de données distribuées linéairement, mais est faible pour décrire des données distribuées non linéairement.

La structure du réseau neuronal

couche d'entrée

valeur d'activation

couche du milieu

couche de sortie

Poids : fait référence à la relation étroite avec un neurone dans la couche d'entrée. Plus la connexion est étroite, plus la valeur est élevée.

Valeur d'activation : La valeur d'activation de la couche de sortie est calculée. Le calcul simple consiste à multiplier la valeur d'activation de la couche d'entrée par le poids.

Offset : ne vous inquiétez pas de ce paramètre pour l'instant

Connexion « parallèle » et « série » des neurones

Ici, m représente la largeur de la nième couche du réseau neuronal et n est la profondeur du réseau neuronal actuel.

De la première couche du réseau neuronal à la sortie finale, la valeur de chaque neurone est déterminée par la valeur du neurone de la couche précédente, les paramètres du neurone W, b et la fonction d'excitation. L'équation du k-ième neurone dans le n. -ème couche peut être exprimée par la formule :

Fonction de perte-Perte

L’un des facteurs les plus importants affectant les performances du deep learning. C'est le monde extérieur qui affecte les nerfs Conseils directs pour la formation sur les modèles de réseau

Une fonction de perte appropriée peut assurer la convergence du modèle d'apprentissage profond

La conception d'une fonction de perte appropriée est l'un des principaux contenus des travaux de recherche

Définition de la fonction Softmax et ses avantages

fonction exponentielle normalisée

Convertir les résultats de prédiction en nombres non négatifs

La première étape de softmax consiste à transformer les résultats de prédiction du modèle en fonction exponentielle, garantissant ainsi le caractère non négatif de la probabilité.

La somme des probabilités de divers résultats prédits est égale à 1

La méthode consiste à diviser les résultats convertis par la somme de tous les résultats convertis, ce qui peut être compris comme le pourcentage des résultats convertis dans le total. Cela donne des probabilités approximatives.

Définition de la fonction d'entropie croisée et ses avantages

Pourquoi peut-il être utilisé comme fonction de perte

L'entropie croisée peut être utilisée comme fonction de perte dans les réseaux de neurones (apprentissage automatique). p représente la distribution d'étiquettes réelles et q est la distribution d'étiquettes prédite du modèle formé. La fonction de perte d'entropie croisée peut mesurer la similarité entre p et q. .

Un autre avantage de l'entropie croisée en tant que fonction de perte est que l'utilisation de la fonction sigmoïde pendant la descente de gradient peut éviter le problème du taux d'apprentissage réduit de la fonction de perte d'erreur quadratique moyenne, car le taux d'apprentissage peut être contrôlé par l'erreur de sortie.

Considérons p(i) comme la distribution de probabilité réelle et q(i) comme la distribution de probabilité prédite. Si nous utilisons l'entropie croisée comme fonction de perte, lorsque nous la minimisons, nous pouvons faire en sorte que q(i) s'approche progressivement de p( i), le but du montage est atteint.

Problème de régression avec l'intervalle cible [0, 1] et la génération

Personnaliser

Prendre goût à un certain attribut

Supprimez certaines valeurs prédites individuellement ou attribuez des paramètres de différentes tailles

Fusionner plusieurs pertes

Tâches de formation multi-objectifs, définition de méthodes raisonnables de combinaison de pertes (diverses opérations)

fusion de réseaux neuronaux

Différentes pertes du réseau neuronal sont combinées et la perte commune est utilisée pour entraîner et guider le réseau.

taux d'apprentissage

Plus la valeur est grande, plus la vitesse de convergence est rapide.

Petite valeur numérique, précision de convergence élevée

Comment choisir un taux d'apprentissage approprié

Fixé

Fixe, c'est-à-dire taux d'apprentissage fixe, est la configuration la plus simple et ne nécessite qu'un seul paramètre.

Le taux d'apprentissage reste inchangé pendant tout le processus d'optimisation. Il s'agit d'une stratégie très rarement utilisée, car à mesure qu'elle s'approche du point optimal global, le taux d'apprentissage doit devenir de plus en plus petit pour éviter de sauter le point optimal.

étape

Utilisez une méthode de réduction uniforme, par exemple, chaque réduction correspond à 0,1 fois la valeur d'origine.

Il s'agit d'une stratégie d'itération du taux d'apprentissage très couramment utilisée. Chaque fois que le taux d'apprentissage est réduit à un certain multiple de l'original, il s'agit d'une transformation discontinue qui est simple à utiliser et donne généralement de bons résultats.

Adágrad

taux d'apprentissage adaptatif

L'algorithme AdaGrad montre qu'à mesure que l'algorithme continue d'itérer, r deviendra de plus en plus grand et le taux d'apprentissage global deviendra de plus en plus petit. Par conséquent, d'une manière générale, l'algorithme AdaGrad commence par une convergence d'incitation, puis se transforme lentement en convergence de pénalité, et la vitesse devient de plus en plus lente.

RMSprop

L'algorithme RMSProp n'accumule pas violemment et directement des gradients carrés comme l'algorithme AdaGrad, mais ajoute un coefficient d'atténuation pour contrôler la quantité d'informations historiques obtenues.

Pour faire simple, après avoir fixé le taux d'apprentissage global, pour chaque passage, le taux d'apprentissage global est divisé paramètre par paramètre par la racine carrée de la somme carrée des gradients historiques contrôlés par le coefficient d'atténuation, de sorte que le taux d'apprentissage de chaque Le paramètre est différent.

L'effet est que des progrès plus importants seront réalisés dans la direction la plus plate de l'espace des paramètres (parce qu'il est plus plat, la somme des carrés des gradients historiques est plus petite, correspondant à un déclin d'apprentissage plus faible), et cela peut rendre la direction raide plus fluide, accélérant ainsi la formation.

élan

Suivez la direction d'optimisation qui a été obtenue. Il n'est pas nécessaire de retrouver la direction, il suffit de la peaufiner.

Quelle est la différence entre utiliser l'élan et augmenter directement le taux d'apprentissage ?

La direction est différente et la recherche est plus précise.

surapprentissage

Le surajustement est également appelé surapprentissage. Sa manifestation intuitive est que l'algorithme fonctionne bien sur l'ensemble d'entraînement, mais ne fonctionne pas bien sur l'ensemble de test, ce qui entraîne de mauvaises performances de généralisation.

Le surajustement est dû au fait que les données d'entraînement contiennent des erreurs d'échantillonnage pendant le processus d'ajustement des paramètres du modèle, et que le modèle complexe ajuste également les erreurs d'échantillonnage pendant l'entraînement. L'erreur d'échantillonnage fait référence à l'écart entre l'ensemble d'échantillons obtenu par échantillonnage et l'ensemble de données global.

Le modèle lui-même est si complexe qu'il s'adapte au bruit dans l'ensemble d'échantillons d'apprentissage. À ce stade, vous devez choisir un modèle plus simple ou recadrer le modèle

Les échantillons de formation sont trop peu nombreux ou manquent de représentativité. A ce moment, il est nécessaire d'augmenter le nombre d'échantillons ou d'augmenter la diversité des échantillons

L'interférence du bruit de l'échantillon d'apprentissage amène le modèle à s'adapter à ces bruits. Dans ce cas, il est nécessaire d'éliminer les données bruitées ou de passer à un modèle qui n'est pas sensible au bruit.

solution

Abandonner

La différence entre l'abandon et le pooling

sous-thème

Lors de la propagation vers l'avant, nous laissons la valeur d'activation d'un certain neurone cesser de fonctionner avec une certaine probabilité p, ce qui peut rendre le modèle plus généralisable car il ne s'appuiera pas trop sur certaines caractéristiques locales.

Régularisation

Quel effet la régularisation a-t-elle sur le paramètre w ?

Qu’est-ce que la perte de poids et quel est son lien avec la régularisation ?

Le but de la régularisation L2 est d'atténuer le poids à une valeur plus petite et de réduire dans une certaine mesure le problème du surajustement du modèle. L'atténuation du poids est donc également appelée régularisation L2.

Réglage fin

La plupart des paramètres n'ont pas besoin d'être mis à jour et les paramètres réels sont considérablement réduits.

Gelez une partie des couches convolutives du modèle pré-entraîné (généralement la majorité des couches convolutives proches de l'entrée, car ces couches conservent beaucoup d'informations sous-jacentes) ou même gelez toutes les couches réseau, et entraînez les couches convolutives restantes (généralement les parties proches de la couche convolutive de sortie) et de la couche entièrement connectée.

Le principe du réglage fin est d'utiliser la structure de réseau connue et les paramètres de réseau connus, de modifier la couche de sortie vers notre propre couche et d'affiner les paramètres de plusieurs couches avant la dernière couche, utilisant ainsi efficacement les puissantes capacités de généralisation des profondeurs. réseaux neuronaux.

importance

Tenez-vous sur les épaules de géants : il y a de fortes chances que le modèle formé par vos prédécesseurs soit plus solide que le modèle que vous construisez à partir de zéro. Il n'est pas nécessaire de réinventer la roue.

Le coût de formation peut être très faible : si vous utilisez la méthode de dérivation de vecteurs de caractéristiques pour l'apprentissage par transfert, le coût de formation ultérieur est très faible, il n'y a aucune pression sur le processeur et cela peut être effectué sans machine d'apprentissage en profondeur.

Convient aux petits ensembles de données : pour les situations où l'ensemble de données lui-même est petit (des milliers d'images), il n'est pas réaliste de former un grand réseau neuronal avec des dizaines de millions de paramètres à partir de zéro, car plus le modèle est grand, plus le volume de données est important. exigences, le surapprentissage ne peut être évité. À l'heure actuelle, si vous souhaitez toujours utiliser les capacités d'extraction de super fonctionnalités des grands réseaux de neurones, vous ne pouvez compter que sur l'apprentissage par transfert.

modèle de migration

L'apprentissage par transfert (Transfer learning), comme son nom l'indique, consiste à transférer les paramètres d'un modèle entraîné (modèle pré-entraîné) vers un nouveau modèle pour aider le nouveau modèle à s'entraîner. Étant donné que la plupart des données ou des tâches sont liées, grâce à l'apprentissage par transfert, nous pouvons partager les paramètres du modèle appris (qui peuvent également être compris comme les connaissances apprises par le modèle) avec le nouveau modèle d'une manière ou d'une autre pour accélérer le processus d'optimisation de l'efficacité de l'apprentissage. du modèle ne nécessite pas d’apprendre à partir de zéro comme la plupart des réseaux.