Galerie de cartes mentales Présentation des algorithmes de segmentation d'images
Un examen des algorithmes de segmentation d'images, y compris les méthodes traditionnelles de segmentation d'images, la comparaison et le résumé de l'analyse des performances, les méthodes de segmentation basées sur l'apprentissage profond-les modèles de réseau de segmentation, etc.
Modifié à 2022-04-10 10:44:06Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Un examen des méthodes de segmentation d’images
introduction
Segmentation d'image : divisez l'image en sous-régions disjointes et significatives
Pixels dans la même zone : corrélation
Pixels dans différentes zones : différences
Méthodes traditionnelles de segmentation d'images
utiliser:
Étapes de prétraitement du traitement d'image
Obtenir des informations sur les fonctionnalités clés de l'image
Améliorer l’efficacité de l’analyse d’images
Classification
Basée sur un seuil : méthode de segmentation d'image en niveaux de gris
Essence : définissez différents seuils de niveaux de gris et classez l'histogramme des niveaux de gris de l'image (la même plage de niveaux de gris appartient à la même catégorie et présente une certaine similitude)
processus:
f(i,j) : représente la valeur de gris de (i,j)
T : seuil de niveaux de gris
En comparant la valeur de gris du pixel de l'image avec le seuil, elle est divisée en deux parties : cible et arrière-plan. L'image de sortie g(i,j) change, avec une valeur de 0 ou 1.
1 (cible) : f(i,j)>=T
0 (arrière-plan) : f(i,j)<T
Plus le seuil T est grand, plus les pixels sont divisés en cibles.
Classification:
Méthode de segmentation de seuil global basée sur des points
Méthode de segmentation de seuil global basée sur la région
Méthode de segmentation à seuil local
... ...
Analysé :
Situations applicables :
Le niveau de gris cible est uniformément réparti et change peu
La différence d'échelle de gris entre la cible et l'arrière-plan est évidente
avantage:
Simple et facile à mettre en œuvre
efficace
insuffisant:
Seule la valeur de gris du pixel lui-même est prise en compte, et les informations sur les caractéristiques telles que la sémantique et l'espace de l'image ne sont pas prises en compte.
sensible au bruit
Pas idéal pour les images complexes
Applications pratiques:
Méthode de prétraitement
Utiliser en conjonction avec d'autres méthodes de segmentation
basé sur les bords
Base théorique : La valeur de gris du pixel limite est très différente de la valeur de gris du pixel adjacent.
Processus : Connectez les points (points de bord) présentant de grandes différences de valeur de gris par rapport aux pixels adjacents pour former un contour de limite
Classification:
Méthode de détection de bord en série : détectez d'abord le point de départ du bord, commencez à partir du point de départ et recherchez et connectez les points de bord adjacents via le critère de similarité.
Méthode de détection des bords parallèles : utilisation d'opérateurs différentiels spatiaux pour convoluer des modèles avec des images
Roberts
Sobel
Préwitt
Enregistrer
Prudent
... ...
Résumé : Dans les applications pratiques, la méthode de détection des bords parallèles est simple et rapide, offre des performances relativement bonnes et constitue la méthode la plus couramment utilisée.
Basé sur la région
Principe de l'algorithme : segmenter en fonction des informations spatiales de l'image, classer les pixels et former des régions grâce aux caractéristiques de similarité des pixels.
Classification
méthode de culture régionale
Principe : Collecter des pixels ayant des propriétés similaires pour former une zone indépendante
processus:
1. Sélectionnez un groupe de points de départ comme point de départ de la croissance (soit un seul pixel, soit une petite zone).
2. Selon le critère de croissance, fusionnez le point de départ et les pixels voisins présentant des caractéristiques similaires dans la zone où se trouve le point de départ.
3. Utilisez les nouveaux pixels comme points de départ et répétez à plusieurs reprises jusqu'à ce que toutes les zones soient détectées et cessent de croître.
L'essentiel
point de départ
Méthode de sélection
selection artificielle
L'algorithme sélectionne automatiquement
Critères de croissance (informations sur les caractéristiques de l'image)
couleur
texture
espace
... ...
Analysé
Avantages : calcul simple
insuffisant:
1. Sensible au bruit
2. Menez facilement à des postes vacants régionaux
méthode de division-fusion
L'essence de l'algorithme : fractionnement et fusion continus pour obtenir chaque sous-région de l'image
processus:
1. Divisez l'image en zones régulières
2. Selon le critère de similarité, divisez les zones présentant des caractéristiques différentes et fusionnez les zones adjacentes présentant les mêmes caractéristiques jusqu'à ce qu'aucune scission ni fusion ne se produise.
Points clés/difficultés
partition initiale
Critère de similarité de fusion-fusion
Analysé
Avantages : meilleur effet de segmentation sur les images complexes
insuffisant:
1. Le calcul est complexe
2. Les limites peuvent être franchies lors de la division
Basé sur le clustering
Principe de l'algorithme : rassembler les pixels ayant des caractéristiques similaires dans la même zone, répéter les résultats du regroupement à plusieurs reprises jusqu'à convergence, et enfin rassembler tous les pixels dans plusieurs catégories différentes pour terminer la division de la zone d'image == segmentation de l'image
Exemple d'analyse d'algorithmes typiques
Clustering itératif linéaire simple SLIC (segmentation superpixel) ==>La segmentation d'image se transforme en problème de clustering de pixels
Idée d'algorithme : basé sur le clustering, les pixels de l'image sont divisés en blocs de super-pixels
Étapes de l'algorithme :
1. Convertissez le mappage d'image couleur RVB en image de laboratoire (L'espace du laboratoire conserve une zone de couleur plus large et offre des caractéristiques de couleur plus riches)
L : luminosité
a : va du magenta au vert
b : va du jaune au bleu
2. Combinez les caractéristiques de couleur (L, a, b) et les coordonnées (x, y) de chaque pixel en un vecteur (L, a, b, x, y) pour la mesure de distance.
Distance de couleur entre les pixels i et j
La distance spatiale entre les pixels i et j
La distance finale est mesurée
Distance de couleur maximale : prendre un entier [1,40]
Distance spatiale maximale au sein d'une classe
Taille du bloc de superpixels - distance entre les points de départ adjacents
Le nombre total de pixels dans l'image
Somme des blocs de superpixels pré-segmentés
avantage
Performances stables
Bonne robustesse
Applicable : segmentation d'images, estimation de pose, suivi et reconnaissance de cibles, etc.
Basé sur la théorie des graphes
Idée d'algorithme : convertir le problème de segmentation en partitionnement de graphe, et compléter la segmentation en optimisant la solution de la fonction objectif
Exemples d'algorithmes classiques
Coupe graphique
Idée d'algorithme : le problème de coupe minimale est appliqué au problème de segmentation d'image pour segmenter l'image en premier plan et en arrière-plan.
Introduction à l'algorithme :
1. Mappage de l'image dans un diagramme S-T
Graphique non orienté G=(V,E) avec poids
V : Vertex set == sommet correspondant au point pixel de l'image originale
E : Edge set == Le poids du bord est la similarité entre les pixels
Chaque nœud est connecté aux sommets terminaux S et T pour former une arête pointillée.
Le poids du bord pointillé du sommet connecté à S est la probabilité que le point soit la cible de premier plan.
Le poids du bord de la ligne pointillée du sommet connecté à T est la probabilité que le point soit l'arrière-plan
Un type d'arête : l'arête formée en connectant les nœuds ordinaires représentant les points de pixel les uns aux autres ; l'autre type d'arête : l'arête entre le sommet terminal et le nœud qui le connecte.
2. Résoudre le problème de la minimisation de la fonction de perte d'énergie
cut : toutes les arêtes de l'ensemble d'arêtes sont déconnectées - séparation du graphe S-T
min cut : La somme de toutes les valeurs de ses arêtes correspondantes dans une coupe est la plus petite
3. Trouvez la coupe minimale et itérez continuellement
Évaluation, trouver la valeur minimale de la fonction de perte d'énergie
Avantages : Il utilise les informations en niveaux de gris de l'image et utilise également les informations sur les limites régionales. Grâce à la solution la plus à droite, le meilleur effet de segmentation est obtenu.
insuffisant
Grande quantité de calcul
Préférer segmenter les images ayant la même similarité intra-classe
Saisir la coupe
Une coupe
... ...
basé sur une théorie spécifique
théorie mathématique de la morphologie
Surmontez l’influence du bruit et obtenez des images aux contours clairs
algorithme génétique
Simulez la survie naturelle du plus apte pour obtenir la solution optimale et réaliser une segmentation optimale
Transformation en ondelettes
modèle de contour actif
théorie floue
théorie des ensembles approximatifs
... ...
Méthode de segmentation basée sur un modèle de réseau de segmentation d'apprentissage profond
Réseau de convolution complète FCN (réseau de convolution complète) - segmentation sémantique d'image
Idée d'algorithme :
Après 8 couches de traitement de convolution, la carte de caractéristiques est suréchantillonnée pour implémenter une opération de déconvolution, classée via la couche SoftMax, et enfin le résultat de la segmentation est généré - plusieurs opérations de convolution. La taille de la carte de caractéristiques est beaucoup plus petite que l'image d'entrée d'origine. , et de nombreuses fonctionnalités sous-jacentes sont perdues. Les informations sur les images, directement classées, affectent la précision de la segmentation.
Le processus de suréchantillonnage adopte la stratégie Skip
processus d'algorithme
Combinez des données approfondies avec des informations superficielles, puis restaurez la sortie de l'image d'origine pour obtenir des résultats de segmentation plus précis.
Selon les différentes couches de mutualisation, il est divisé en
Résultats de la segmentation du modèle FCN-32s
Cartes de fonctionnalités à différents niveaux
Convolution : 7 fois
Résultats de segmentation du modèle FCN-16
Pooling : 4 fois - Couche Pool4
Méthode d'interpolation bilinéaire - Conv7
Classification par suréchantillonnage après fusion
Résultats de la segmentation du modèle FCN-8s
Pooling : 3 fois - Couche Pool3
Méthode d'interpolation bilinéaire - Couche Conv7, couche Pool4
Classification par suréchantillonnage après fusion
FCN-8 : intégrez plus de couches d'informations sur les caractéristiques, segmentez pour obtenir des informations de contour plus claires, et l'effet de segmentation est relativement bon.
Évaluation de l'algorithme
Il peut classer les images au niveau des pixels et résoudre efficacement le problème de la segmentation sémantique des images.
Des images de n’importe quelle taille peuvent être saisies
Le premier modèle de réseau de segmentation de bout en bout
insuffisant
Le réseau est relativement vaste – pas assez sensible aux informations détaillées de l'image
La corrélation entre les pixels est faible - la limite cible est floue
Réseau d'analyse de scènes pyramidales PSPNet (réseau d'analyse de scènes pyramidales) - segmentation sémantique d'images
Pensée algorithmique
Intégrez des informations contextuelles, exploitez pleinement les connaissances préalables des caractéristiques globales, analysez différentes scènes et réalisez une segmentation sémantique des cibles de scène.
processus d'algorithme
1. Étant donné une image d'entrée
2.CNN : obtenir la carte des caractéristiques de la couche convolutive
3. Module de pooling pyramidal : collectez les caractéristiques de différents sous-intervalles
4. Suréchantillonnage
5. Concaténer et fusionner les caractéristiques de chaque sous-région
6. Représentations de fonctionnalités de formulaire contenant des informations contextuelles locales et globales
7. Classification par convolution et SoftMax des représentations de fonctionnalités
8. Résultats de prédiction pour chaque pixel
Évaluation de l'algorithme
Pour les tâches d'analyse de scène et de segmentation sémantique - capable d'extraire les caractéristiques globales appropriées
Utilisez le module de pooling pyramidal pour fusionner les informations locales et mondiales
Proposer une stratégie d’optimisation pour une perte de supervision modérée
Inconvénients : La gestion de l'occlusion entre les cibles n'est pas idéale.
Modèles de la série DeepLab - modèle de réseau neuronal profond, segmentation sémantique d'image
Le cœur de l'algorithme : utiliser la convolution atreuse (la méthode de jacking dans le noyau de convolution)
Contrôler explicitement la résolution de la réponse lors du calcul des réponses caractéristiques
Élargir le champ récepteur du noyau de convolution
Intégrez davantage d'informations sur les fonctionnalités sans augmenter la quantité de paramètres et de calculs
chemin de développement
Le premier modèle DeepLab
Description de l'algorithme
image d'entrée
Traité par un réseau neuronal convolutif profond (DCNN) avec des couches convolutives atreuses - carte de notation approximative
suréchantillonnage par interpolation bilinéaire
Présentation des champs aléatoires conditionnels (CRF) entièrement connectés
image de sortie
Évaluation de l'algorithme
Tenir pleinement compte des informations globales pour classer plus précisément les pixels du bord cible
Élimine les interférences sonores et améliore la précision de la segmentation
Modèle DeepLab-v2
Étendre atrous en tant que module de pooling pyramidal spatial poreux (ASPP)
Cascade ; couche de convolution atreuse multi-échelle et fusion de cartes de caractéristiques
Gardez le CRF entièrement connecté en post-traitement
Modèle DeepLab-v3
Pooling par convolution : taille de l'image réduite de 4 fois
Convolution du module 3 blocs : image réduite de 8 fois
Fonction de rectification linéaire (ReLU) : image réduite de 16 fois
Pooling : image réduite de 16 fois
Traitement Block4
Module ASPP : Fusion de différentes convolutions poreuses (taux nombre de jacks=6, 12, 18)
Intégration d'une couche de convolution 1*1 et d'une couche de pooling globale : carte des fonctionnalités réduite de 16 fois
Prédiction de classification : carte de segmentation
Structure d'encodage et de décodage du modèle DeepLad-v3
Description de l'algorithme
Partie codage : modèle DeepLab-v3
Entrée de la partie de décodage
Carte des caractéristiques peu profondes dans DCNN
Carte des fonctionnalités fusionnées ASPP après convolution
module de décodage
Convolution : entrée d'une carte de caractéristiques peu profonde
Fusion : carte des fonctionnalités ASPP suréchantillonnée
Résultat : carte de segmentation de taille d'origine convoluée et suréchantillonnée
Évaluation de l'algorithme
Distinguer clairement les cibles du premier plan et de l'arrière-plan
Les bords cibles sont clairement définis
Ce modèle permet une segmentation fine
Masque R-CNN - segmentation d'instance d'image
Origine : Basé sur Faster R-CNN
Description de l'algorithme
Cadre d'algorithme
La première phase:
Réseaux de proposition de région (RPN) - Proposer un cadre de limites cibles candidats
Le contenu (RoI) dans la zone de délimitation est traité par RoIAlign - le RoI est divisé en m*m sous-régions
Deuxième étape:
Parallèlement aux tâches de classe de prédiction et de régression du cadre englobant : ajoutez une branche pour générer un masque binaire pour chaque RoI. Autrement dit, chaque RoI est segmentée avec FCN et le masque de segmentation est prédit pixel à pixel.
Phase de formation : utilisation de la contrainte de perte multitâche L
L = perte de classification cible, perte de tâche de détection, perte de segmentation d'instance
Évaluation de l'algorithme
Sur la base de la segmentation sémantique, une segmentation d'instance est réalisée - détection et positionnement précis des cibles de premier plan, distinguant différents individus de cibles similaires.
Segmentation sémantique : identifier le contenu et la localisation présents dans l'image
Segmentation d'instance : distinguer différents individus sous la même catégorie sur la base de la segmentation sémantique
Précision de segmentation plus élevée
Les modèles sont plus flexibles
Peut être utilisé pour une variété de tâches de vision par ordinateur
Classement cible
Détection de cible
Fractionnement d'instance
Reconnaissance de la posture humaine
... ...
Comparaison et résumé de l'analyse des performances
Analyse de performance
Ensemble de données de segmentation d'apprentissage profond :
PASCAL COV
MicrosoftCOCO
Paysages urbains
Analyse qualitative
Analyse quantitative
Segmentation sémantique : Le rapport moyen d'intersection et d'union mIoU représente le rapport d'intersection et d'union de deux ensembles. Dans la segmentation sémantique, il fait référence à l'ensemble des valeurs vraies et des valeurs prédites.
Segmentation d'instance : précision des pixels PA, qui représente la proportion de pixels correctement classés par rapport au nombre total de pixels
Résumer
statu quo:
La segmentation d'images est de plus en plus utilisée dans les tâches de vision par ordinateur
La précision et la vitesse ont été considérablement améliorées
problème:
Manque d'ensembles de données de segmentation et travail d'annotation lourd
La segmentation des cibles de petite taille n'est pas assez précise
L'algorithme de segmentation est complexe sur le plan informatique
Incapable de réaliser une segmentation interactive en temps réel, ce qui entrave la mise en œuvre, l'application et la promotion de la technologie de segmentation