Galleria mappe mentale Panoramica degli algoritmi di segmentazione delle immagini
Una revisione degli algoritmi di segmentazione delle immagini, inclusi i metodi tradizionali di segmentazione delle immagini, confronto e riepilogo dell'analisi delle prestazioni, metodi di segmentazione basati sul deep learning, modelli di rete di segmentazione, ecc.
Modificato alle 2022-04-10 10:44:06Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Una revisione dei metodi di segmentazione delle immagini
introduzione
Segmentazione dell'immagine: divide l'immagine in sottoregioni disgiunte e significative
Pixel nella stessa area: correlazione
Pixel in aree diverse: differenze
Metodi tradizionali di segmentazione delle immagini
utilizzo:
Passaggi di pre-elaborazione dell'elaborazione delle immagini
Ottenere informazioni sulle caratteristiche chiave dell'immagine
Migliora l'efficienza dell'analisi delle immagini
Classificazione
Basato su soglia: metodo di segmentazione dell'immagine in scala di grigi
Essenza: imposta soglie diverse in scala di grigi e classifica l'istogramma in scala di grigi dell'immagine (lo stesso intervallo di scala di grigi appartiene alla stessa categoria e presenta una certa somiglianza)
processi:
f(i,j): rappresenta il valore di grigio di (i,j)
T: soglia della scala di grigi
Confrontando il valore del pixel grigio dell'immagine con la soglia, questa viene divisa in due parti: target e sfondo. L'immagine di output g(i,j) cambia, con un valore di 0 o 1.
1 (bersaglio): f(i,j)>=T
0 (sullo sfondo): f(i,j)<T
Maggiore è la soglia T, maggiore è il numero di pixel suddivisi in target.
Classificazione:
Metodo di segmentazione della soglia globale basata su punti
Metodo di segmentazione della soglia globale basato sulla regione
Metodo di segmentazione della soglia locale
... ...
Analizzato:
Situazioni applicabili:
Il livello di grigio target è distribuito uniformemente e cambia poco
La differenza nella scala di grigi tra il target e lo sfondo è evidente
vantaggio:
Semplice e facile da implementare
efficiente
insufficiente:
Viene considerato solo il valore di grigio del pixel stesso e non vengono considerate le informazioni sulle caratteristiche come la semantica dell'immagine e lo spazio.
suscettibile al rumore
Non ideale per immagini complesse
Applicazioni pratiche:
Metodo di preelaborazione
Utilizzare insieme ad altri metodi di segmentazione
basato sui bordi
Base teorica: il valore di grigio del pixel di confine è molto diverso dal valore di grigio del pixel adiacente.
Processo: collega i punti (punti del bordo) con grandi differenze nel valore di grigio rispetto ai pixel adiacenti per formare un contorno di confine
Classificazione:
Metodo di rilevamento del bordo seriale: rileva innanzitutto il punto iniziale del bordo, inizia dal punto iniziale e cerca e collega i punti del bordo adiacenti attraverso il criterio di somiglianza
Metodo di rilevamento dei bordi paralleli: utilizzo di operatori differenziali spaziali per convolgere modelli con immagini
Roberts
Sobel
Prewitt
Tronco d'albero
Astuto
... ...
Riepilogo: nelle applicazioni pratiche, il metodo di rilevamento dei bordi paralleli è semplice e veloce, ha prestazioni relativamente buone ed è il metodo più comunemente utilizzato.
In base alla regione
Principio dell'algoritmo: segmentare in base alle informazioni spaziali dell'immagine, classificare i pixel e formare regioni attraverso le caratteristiche di somiglianza dei pixel
Classificazione
metodo di coltivazione della regione
Principio: raccogli pixel con proprietà simili per formare un'area indipendente
processi:
1. Seleziona un gruppo di punti seed come punto di partenza per la crescita (un singolo pixel o una piccola area)
2. Secondo il criterio di crescita, unisci il punto seed e i pixel vicini con caratteristiche simili nell'area in cui si trova il punto seed.
3. Utilizzare i nuovi pixel come punti seed e ripetere ripetutamente finché tutte le aree non vengono rilevate e smettono di crescere.
L'essenziale
punto seme
Metodo di selezione
selezione artificiale
L'algoritmo seleziona automaticamente
Criteri di crescita (informazioni sulle caratteristiche dell'immagine)
colore
struttura
spazio
... ...
Analizzato
Vantaggi: calcolo semplice
insufficiente:
1. Sensibile al rumore
2. Porta facilmente a posti vacanti regionali
metodo di suddivisione-unione
L'essenza dell'algoritmo: divisione e fusione continue per ottenere ciascuna sottoregione dell'immagine
processi:
1. Dividere l'immagine in aree regolari
2. Secondo il criterio di similarità, le aree con caratteristiche diverse vengono frazionate e le aree adiacenti con le stesse caratteristiche vengono accorpate fino a quando non si verifica alcuna scissione o fusione.
Punti chiave/difficoltà
partizione iniziale
Criterio di similarità suddivisione-unione
Analizzato
Vantaggi: migliore effetto di segmentazione su immagini complesse
insufficiente:
1. Calcolo complesso
2. I confini possono essere violati durante la divisione
Basato sul clustering
Principio dell'algoritmo: raccogliere pixel con caratteristiche simili nella stessa area, ripetere ripetutamente i risultati del clustering fino alla convergenza e infine raccogliere tutti i pixel in diverse categorie per completare la divisione dell'area dell'immagine == segmentazione dell'immagine
Esempio di analisi di algoritmi tipici
Clustering lineare iterativo semplice SLIC (segmentazione superpixel) ==>La segmentazione delle immagini si trasforma in un problema di clustering dei pixel
Idea di algoritmo: in base al clustering, i pixel nell'immagine sono divisi in blocchi di superpixel
Passaggi dell'algoritmo:
1. Converti la mappatura dell'immagine a colori RGB nell'immagine Lab (Lo spazio laboratorio conserva un'area cromatica più ampia e fornisce caratteristiche cromatiche più ricche)
L: luminosità
a: gamma dal magenta al verde
b: gamma dal giallo al blu
2. Combina le caratteristiche del colore (L, a, b) e le coordinate (x, y) di ciascun pixel in un vettore (L, a, b, x, y) per la misurazione della distanza
Distanza di colore tra i pixel i e j
La distanza spaziale tra i pixel i e j
Viene misurata la distanza finale
Distanza massima del colore: prendere intero [1,40]
Distanza spaziale massima all'interno di una classe
Dimensione del blocco superpixel: distanza tra punti seed adiacenti
Il numero totale di pixel nell'immagine
Somma di blocchi superpixel pre-segmentati
vantaggio
Prestazioni stabili
Buona robustezza
Applicabile: segmentazione dell'immagine, stima della posa, tracciamento e riconoscimento del target, ecc.
Basato sulla teoria dei grafi
Idea di algoritmo: convertire il problema della segmentazione in partizionamento del grafico e completare la segmentazione ottimizzando la soluzione della funzione obiettivo
Esempi di algoritmi classici
Taglio del grafico
Idea dell'algoritmo: il problema del taglio minimo viene applicato al problema della segmentazione dell'immagine per segmentare l'immagine in primo piano e sfondo.
Introduzione all'algoritmo:
1. Mappatura dell'immagine in un diagramma S-T
Grafico non orientato G=(V,E) con pesi
V: Vertex set == vertice corrispondente al punto pixel dell'immagine originale
E: Edge set == Il peso del bordo è la somiglianza tra i pixel
Ciascun nodo è collegato ai vertici terminali S e T per formare un bordo tratteggiato.
Il peso del bordo tratteggiato del vertice connesso a S è la probabilità che il punto sia il bersaglio in primo piano.
Il peso del bordo della linea tratteggiata del vertice collegato a T è la probabilità che il punto sia lo sfondo
Un tipo di bordo: il bordo formato collegando tra loro nodi ordinari che rappresentano punti pixel; l'altro tipo di bordo: il bordo tra il vertice terminale e il nodo che lo collega
2. Risolvere il problema di minimizzare la funzione di perdita di energia
taglio: tutti gli spigoli nell'insieme di spigoli sono disconnessi - separazione del grafico S-T
taglio minimo: la somma di tutti i valori dei bordi corrispondenti in un taglio è la più piccola
3. Trova il taglio minimo e ripeti continuamente
Valutazione, trovare il valore minimo della funzione di perdita di energia
Vantaggi: utilizza le informazioni in scala di grigio dell'immagine e utilizza anche le informazioni sui confini regionali. Attraverso la soluzione più a destra, si ottiene il miglior effetto di segmentazione.
insufficiente
Grande quantità di calcoli
Preferisci segmentare le immagini con la stessa somiglianza all'interno della classe
Prendi il taglio
Un taglio
... ...
sulla base di una teoria specifica
teoria matematica della morfologia
Supera l'influenza del rumore e ottieni immagini dai bordi nitidi
algoritmo genetico
Simula la sopravvivenza naturale del più adatto per ottenere la soluzione ottimale e ottenere una segmentazione ottimale
Trasformata wavelet
modello di contorno attivo
teoria confusa
teoria approssimativa degli insiemi
... ...
Metodo di segmentazione basato sul modello di rete di segmentazione del deep learning
Rete di convoluzione completa FCN (rete di convoluzione completa) - segmentazione semantica dell'immagine
Idea dell'algoritmo:
Dopo 8 livelli di elaborazione di convoluzione, la mappa delle caratteristiche viene sovracampionata per implementare un'operazione di deconvoluzione, classificata tramite il livello SoftMax e infine viene prodotto il risultato della segmentazione: operazioni di convoluzione multiple. La dimensione della mappa delle caratteristiche è molto più piccola dell'immagine di input originale e molte caratteristiche sottostanti vengono perse. Le informazioni sull'immagine, classificate direttamente, influiscono sulla precisione della segmentazione
Il processo di sovracampionamento adotta la strategia Skip
processo dell'algoritmo
Combina dati profondi con informazioni superficiali, quindi ripristina l'output dell'immagine originale per ottenere risultati di segmentazione più accurati.
In base ai diversi livelli di pooling, è suddiviso in
Risultati della segmentazione del modello FCN-32
Mappe delle caratteristiche a diversi livelli
Convoluzione: 7 volte
Risultati della segmentazione del modello FCN-16
Pooling: 4 volte - livello Pool4
Metodo di interpolazione bilineare--Conv7
Classificazione del upsampling dopo la fusione
Risultati della segmentazione del modello FCN-8
Pooling: 3 volte - livello Pool3
Metodo di interpolazione bilineare: livello Conv7, livello Pool4
Classificazione del upsampling dopo la fusione
FCN-8: integra più livelli di informazioni sulle caratteristiche, segmenta per ottenere informazioni sui contorni più chiare e l'effetto di segmentazione è relativamente buono.
Valutazione dell'algoritmo
Può classificare le immagini a livello di pixel e risolvere efficacemente il problema della segmentazione semantica delle immagini.
È possibile inserire immagini di qualsiasi dimensione
Il primo modello di rete di segmentazione end-to-end
insufficiente
La rete è relativamente grande e non abbastanza sensibile alle informazioni dettagliate dell'immagine
La correlazione tra i pixel è bassa: il confine del target è sfocato
Rete di analisi delle scene piramidali PSPNet (rete di analisi delle scene piramidali) - segmentazione semantica delle immagini
Pensiero algoritmico
Integra le informazioni contestuali, sfrutta appieno la conoscenza precedente delle caratteristiche globali, analizza scene diverse e ottieni la segmentazione semantica degli obiettivi della scena.
processo dell'algoritmo
1. Data un'immagine di input
2.CNN: ottenere la mappa delle caratteristiche del livello convoluzionale
3. Modulo di pooling piramidale: raccoglie caratteristiche di diversi sottointervalli
4. Sovracampionamento
5. Concatenare e fondere le caratteristiche di ciascuna sottoregione
6. Rappresentazioni di caratteristiche del modulo contenenti informazioni sul contesto locale e globale
7. Convoluzione e classificazione SoftMax delle rappresentazioni di caratteristiche
8. Risultati della previsione per ciascun pixel
Valutazione dell'algoritmo
Per attività di analisi della scena e segmentazione semantica: in grado di estrarre caratteristiche globali appropriate
Utilizza il modulo di pooling piramidale per fondere insieme informazioni locali e globali
Proporre una strategia di ottimizzazione per una moderata perdita di supervisione
Svantaggi: la gestione dell'occlusione tra i target non è l'ideale.
Modelli della serie DeepLab: modello di rete neurale profonda, segmentazione semantica dell'immagine
Il nucleo dell'algoritmo: utilizzare la convoluzione atrous (il metodo per inserire il kernel di convoluzione)
Controllare esplicitamente la risoluzione della risposta durante il calcolo delle risposte caratteristiche
Espandi il campo recettivo del kernel di convoluzione
Integra più informazioni sulle funzionalità senza aumentare la quantità di parametri e calcoli
percorso di sviluppo
Il primo modello DeepLab
Descrizione dell'algoritmo
immagine in ingresso
Elaborato dalla rete neurale convoluzionale profonda (DCNN) con strati convoluzionali atroci - mappa di punteggio approssimativa
sovracampionamento per interpolazione bilineare
Presentazione dei campi casuali condizionali (CRF) completamente connessi
immagine in uscita
Valutazione dell'algoritmo
Considerare pienamente le informazioni globali per classificare in modo più accurato i pixel del bordo target
Elimina le interferenze del rumore e migliora la precisione della segmentazione
Modello DeepLab-v2
Estendere atrous come modulo ASPP (Porous Space Pyramid Pooling).
Cascata; strato di convoluzione atrosa multiscala e fusione di mappe di funzionalità
Mantieni CRF completamente connesso come post-elaborazione
Modello DeepLab-v3
Pooling di convoluzione: dimensione dell'immagine ridotta di 4 volte
Convoluzione del modulo a 3 blocchi: immagine ridotta di 8 volte
Funzione di rettifica lineare (ReLU): immagine ridotta di 16 volte
Pooling: immagine ridotta di 16 volte
Elaborazione Block4
Modulo ASPP: Fusione di diverse circonvoluzioni porose (numero di jack=6, 12, 18)
Integrazione del livello di convoluzione 1*1 e del livello di pooling globale: mappa delle caratteristiche ridotta di 16 volte
Previsione di classificazione: mappa di segmentazione
Struttura di codifica e decodifica del modello DeepLad-v3
Descrizione dell'algoritmo
Parte di codifica: modello DeepLab-v3
Ingresso della parte di decodifica
Mappa delle caratteristiche superficiali in DCNN
Mappa delle caratteristiche fuse ASPP dopo la convoluzione
modulo di decodifica
Convoluzione: input della mappa delle caratteristiche superficiali
Fusione: mappa delle funzionalità ASPP sovracampionata
Output: mappa di segmentazione delle dimensioni originali convoluta e sovracampionata
Valutazione dell'algoritmo
Distinguere chiaramente gli obiettivi in primo piano e lo sfondo
I bordi del bersaglio sono chiaramente definiti
Questo modello consente una segmentazione a grana fine
Maschera R-CNN: segmentazione dell'istanza dell'immagine
Origine: basato su Faster R-CNN
Descrizione dell'algoritmo
Struttura dell'algoritmo
La prima fase:
Reti di proposte regionali (RPN): proporre un quadro di confini target candidati
Il contenuto (RoI) nel riquadro di delimitazione viene elaborato da RoIAlign: il RoI è diviso in m*m sottoregioni
seconda fase:
Parallelamente alle attività di regressione della classe di previsione e del riquadro di delimitazione: aggiungi un ramo per generare una maschera binaria per ogni RoI Cioè, ogni RoI viene segmentata con FCN e la maschera di segmentazione viene prevista pixel per pixel.
Fase di formazione: utilizzo del vincolo di perdita multi-task L
L=perdita di classificazione del target, perdita dell'attività di rilevamento, perdita di segmentazione dell'istanza
Valutazione dell'algoritmo
Sulla base della segmentazione semantica, viene realizzata la segmentazione delle istanze: rilevamento e posizionamento accurati dei bersagli in primo piano, distinguendo individui diversi con bersagli simili.
Segmentazione semantica: identificare il contenuto e la posizione presente nell'immagine
Segmentazione delle istanze: distinzione di individui diversi nella stessa categoria in base alla segmentazione semantica
Maggiore precisione di segmentazione
I modelli sono più flessibili
Può essere utilizzato per una varietà di attività di visione artificiale
Classificazione degli obiettivi
Rilevamento del bersaglio
Suddivisione delle istanze
Riconoscimento della postura umana
... ...
Confronto e sintesi dell'analisi delle prestazioni
Analisi di performance
Set di dati di segmentazione del deep learning:
PASCAL VOC
MicrosoftCOCO
Paesaggi urbani
Analisi qualitativa
Analisi quantitativa
Segmentazione semantica: il rapporto medio di intersezione e unione mIoU rappresenta il rapporto tra l'intersezione e l'unione di due insiemi, si riferisce all'insieme di valori veri e valori previsti.
Segmentazione dell'istanza: Precisione dei pixel PA, che rappresenta la proporzione di pixel correttamente classificati rispetto al totale dei pixel
Riassumere
status quo:
La segmentazione delle immagini è sempre più utilizzata nelle attività di visione artificiale
La precisione e la velocità sono state notevolmente migliorate
problema:
Mancanza di set di dati di segmentazione e pesante lavoro di annotazione
La segmentazione del target di piccole dimensioni non è sufficientemente accurata
L'algoritmo di segmentazione è computazionalmente complesso
Impossibile ottenere una segmentazione interattiva in tempo reale, ostacolando l'implementazione, l'applicazione e la promozione della tecnologia di segmentazione