Galleria mappe mentale elaborazione di immagini digitali per visione artificiale
Introduzione dettagliata ai metodi tradizionali di visione artificiale, inclusa la conoscenza di base dell'elaborazione delle immagini digitali, del restauro delle immagini, La compressione delle immagini, la segmentazione delle immagini, ecc. vengono spesso utilizzate per la preelaborazione delle immagini. Spero che questo ti aiuti!
Modificato alle 2024-02-04 00:54:17Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
elaborazione delle immagini digitali
Conoscenza di base dell'elaborazione digitale delle immagini
introduzione
L'"immagine" è la distribuzione della luce riflessa o trasmessa da un oggetto. L'"immagine" è l'impressione o la comprensione formata nel cervello umano dall'immagine accettata dal sistema visivo umano.
Le immagini sono tutte immagini con effetti visivi e sono un termine generale per vari grafici e immagini.
La quantità di informazioni contenute nelle immagini è enorme, e “vedere vale la pena di sentirlo cento volte” e di “capirlo chiaramente a colpo d'occhio”.
Un’immagine può essere descritta matematicamente come
I=f(x, y, z, λ, t)
Dove x, y, z sono le coordinate spaziali, λ è la lunghezza d'onda, t è il tempo e I è l'intensità della luce.
Per le immagini statiche t è costante. Per le immagini monocromatiche λ è una costante. Per le immagini piane z è costante.
Onde luminose: la percezione umana è limitata alla banda visiva dello spettro elettromagnetico, mentre le macchine per l'immagine possono coprire quasi l'intero spettro elettromagnetico.
Digitalizzazione delle immagini
immagine digitale
L'immagine analogica è rappresentata da numeri e l'immagine rappresentata da numeri è un'immagine digitale.
Il processo di discretizzazione di un'immagine analogica per ottenere un'immagine digitale è chiamato digitalizzazione dell'immagine.
processi
campionamento
Dividere spazialmente l'immagine in piccole aree (pixel), ogni pixel ha una coordinata bidimensionale (intera)
Influenza
Quantificare
La luminosità o il valore di grigio di ciascun pixel viene mappato al livello di grigio corrispondente e ciascun livello di grigio è generalmente rappresentato da un numero intero.
Se il numero di livelli di scala di grigio quantizzati L=256, l'intervallo di valori è un numero intero compreso tra 0 e 255 e è possibile utilizzare 8 bit per rappresentare il valore di scala di grigio del pixel dell'immagine in scala di grigio, operazione denominata quantizzazione a 8 bit.
rappresentazione dell'immagine digitale
rappresentazione matematica
Immagine binaria
Immagine in scala di grigi
Immagine RGB
Formato di archiviazione delle immagini
Formato BMP: file bitmap per sistemi Windows
Formato GIF: può memorizzare più immagini (animazioni)
Formato TIF(F): indipendente da OS e FS, facile da scambiare
Formato JPEG: standard di compressione
Proprietà fondamentali delle immagini
Numero di pixel dell'immagine
Il numero di pixel dell'immagine si riferisce al numero di pixel contenuti nell'immagine bitmap in orizzontale e verticale. Il semplice aumento del numero di pixel non può migliorare l'effetto di visualizzazione dell'immagine. L'effetto di visualizzazione dell'immagine è determinato dal numero di pixel e dalla risoluzione dello schermo.
Risoluzione dell'immagine
La risoluzione dell'immagine si riferisce al numero di pixel distribuiti nell'immagine per unità di lunghezza di stampa. Viene utilizzata principalmente per caratterizzare la densità delle informazioni dell'immagine digitale, che determina la chiarezza dell'immagine. Su un'area di dimensione unitaria, maggiore è la risoluzione dell'immagine, maggiore è il numero di pixel che contiene, più densi sono i pixel e maggiore è la chiarezza dell'immagine digitale.
dimensione dell'immagine
La dimensione dell'immagine determina lo spazio di archiviazione richiesto per archiviare il file immagine, che generalmente viene misurato in byte (B). La formula di calcolo è: numero di byte = (altezza bitmap × larghezza bitmap × profondità immagine) / 8. Dalla formula di calcolo si può vedere che la dimensione di archiviazione del file immagine è direttamente correlata al numero di pixel.
colore dell'immagine
Il colore dell'immagine si riferisce al maggior numero di tipi di colore possibili in un'immagine digitale. Modificando le proporzioni dei tre colori primari rosso, verde e blu, può essere facilmente miscelato con qualsiasi colore.
profondità dell'immagine
La profondità dell'immagine, nota anche come profondità di bit dell'immagine, si riferisce al numero di bit occupati da ciascun pixel nell'immagine. I dati corrispondenti a ciascun pixel dell'immagine possono solitamente essere rappresentati da 1 o più byte Maggiore è la profondità dei dati, maggiore è il numero di bit richiesti e più ricca è la rappresentazione del colore corrispondente.
tono dell'immagine
La tonalità dell'immagine si riferisce alla luminosità e all'oscurità dei vari colori dell'immagine corrispondenti ai colori primari (ad esempio, i colori primari delle immagini digitali in formato RGB includono rosso, verde e blu). la brillantezza dei colori primari. La tonalità varia da 0 a 255, includendo un totale di 256 tonalità. Ad esempio, l'immagine in scala di grigio più semplice divide la tonalità in 256 tonalità dal bianco al nero. Nelle immagini RGB, è necessario caratterizzare la luminosità e l'oscurità dei tre colori rosso, verde e blu. Ad esempio, se il tono rosso è intenso, l'immagine tenderà ad essere rosso scuro, mentre se il tono verde lo è approfondito, l'immagine tenderà ad essere verde scuro.
saturazione dell'immagine
La saturazione dell'immagine indica la purezza dei colori nell'immagine. La saturazione di una foto di una scena naturale dipende dalle proprietà riflettenti o proiettate dell'oggetto. Nell'elaborazione delle immagini digitali, la saturazione viene generalmente misurata dalla proporzione di luce bianca mescolata a un colore solido. Maggiore è la quantità di luce bianca mescolata a un colore solido, minore è la saturazione e, viceversa, maggiore è la saturazione.
Luminosità dell'immagine
La luminosità dell'immagine si riferisce alla luminosità e all'oscurità dei colori contenuti nelle immagini digitali. È la percezione dell'occhio umano della luminosità e dell'oscurità dell'oggetto stesso. L'intervallo di valori è generalmente compreso tra 0% e 100%.
contrasto dell'immagine
Il contrasto dell'immagine si riferisce al contrasto tra diversi colori o al contrasto tra luce e buio in un'immagine. Maggiore è il contrasto, maggiore è la differenza di luminosità tra i colori o maggiore la differenza tra bianco e nero. Ad esempio, aumentando il contrasto di un'immagine in scala di grigi, la differenza tra bianco e nero nell'immagine sarà più netta, facendo apparire l'immagine più nitida. Quando il contrasto viene aumentato al massimo, l'immagine in scala di grigi diventa un'immagine in bianco e nero.
gerarchia delle immagini
Nei sistemi di progettazione computerizzata, per elaborare i materiali immagine in modo più conveniente ed efficace, questi vengono solitamente posizionati in diversi strati e l'immagine può essere considerata composta da diversi strati di immagini sovrapposte. Utilizzando il software di elaborazione delle immagini, ogni livello può essere elaborato in modo indipendente senza influenzare il contenuto dell'immagine degli altri livelli. Quando crei un nuovo file immagine, il sistema creerà automaticamente un livello di sfondo, che equivale a una tela su cui è possibile eseguire altri lavori di elaborazione delle immagini. Se un'immagine ha più livelli, ogni livello avrà lo stesso numero di pixel, canali e formato.
Relazione di base tra i pixel
relazione di base
Un'immagine f(x,y) è composta da unità di base pixel e vi sono alcune connessioni tra i pixel, inclusi i quartieri, le adiacenze e le connessioni dei pixel, nonché la distanza tra i pixel. In genere, quando si specifica un pixel specifico viene utilizzata una lettera minuscola (come p).
La zona
I pixel vicini al pixel p formano l'intorno di questo pixel
4 aree
8 aree
campo diagonale
adiacenza
Per due pixel qualsiasi, se un pixel si trova nelle vicinanze di un altro pixel e i relativi valori in scala di grigio soddisfano specifici criteri di somiglianza (come l'appartenenza a un determinato insieme di valori in scala di grigio), si dice che i due pixel siano adiacenti.
4 adiacenze
8 adiacenze
m adiacente
Se è soddisfatta una delle due condizioni seguenti
q è nel quartiere 4 di p
q è nel dominio diagonale di p e nessun valore di grigio nel pixel all'intersezione tra l'intorno a 4 domini di q e il dominio a 4 domini di p appartiene a V.
Allora i due punti p e q si dicono m adiacenti.
collegato
4-Connesso
8-Connesso
m-connesso
distanza
Distanza euclidea
distanza urbana
distanza dalla tavola
Applicazioni di elaborazione delle immagini digitali
Applicazioni industriali
Controlli non distruttivi su prodotti e componenti realizzati nella linea di produzione, come i test sulle bottiglie di vetro
applicazioni di pubblica sicurezza
L'identificazione delle impronte digitali è sicura, affidabile ed efficiente e ha un'ampia gamma di applicazioni nella pubblica sicurezza, nella sicurezza delle informazioni, nel commercio elettronico e in altri campi.
L'autenticazione dell'identità personale include anche immagini come volto, iride, impronta del palmo e firma.
applicazioni mediche
Emocromo, contenuto principale dell'esame del sangue di routine, dati importanti sulla presenza o assenza di malattia e sulla gravità della malattia.
applicazioni geologiche
La tecnologia delle telecamere del pozzo può ottenere una vista panoramica su larga scala della parete del foro per osservare direttamente la struttura geologica interna.
Applicazioni di test ambientali
Identificazione e localizzazione degli incendi: abbina immagini a luce visibile e immagini a infrarossi per identificare gli incendi e determinarne la posizione.
Applicazioni marine
Enteromorpha Rilevamento di Enteromorpha: utilizzando immagini di telerilevamento come fonte di dati, si ottiene un rilevamento rapido di Enteromorpha Enteromorpha.
Rilevamento e tracciamento dei pesci marini.
applicazioni militari
Posizionamento del bersaglio da ricognizione aerea.
applicazioni di intrattenimento
Cambia volto
Ingegneria dell'immagine
Elaborazione delle immagini
Immagine -> Immagine
Effetti visivi migliorati
Preelaborazione delle immagini per la riduzione del rumore, il miglioramento del contrasto e la nitidezza delle immagini
Raccolta, acquisizione e archiviazione di immagini, miglioramento di immagini, restauro di immagini, compressione (codifica) di immagini (video)
analisi delle immagini
Immagine -> Dati
estrarre informazioni utili
Segmentazione dell'immagine e descrizione del target, l'output sono i dati delle caratteristiche target
Rilevamento dei bordi, segmentazione dell'immagine (separazione dello sfondo del target), espressione del target, descrizione, misurazione, analisi del colore, della forma, della struttura e del movimento del target, rilevamento del target, estrazione, tracciamento, identificazione e classificazione, riconoscimento del volto
Comprensione dell'immagine
Immagine -> Spiegazione
Comprensione degli oggetti target e delle loro relazioni, l'output sono dati più astratti
Registrazione di immagini, abbinamento, fusione, rappresentazione 3D, modellazione, ricostruzione, recupero di scene, comprensione di immagini, ragionamento, recupero di immagini basato sul contenuto
Trasformazione matematica delle immagini
Trasformazione dello spazio coordinato
concetto di base
Le trasformazioni geometriche sono spesso chiamate trasformazioni della pellicola di gomma, presupponendo che un'immagine venga stampata su una pellicola di gomma e quindi la pellicola di gomma venga allungata secondo una serie di regole predeterminate.
Le trasformazioni geometriche modificano le relazioni spaziali tra i pixel in un'immagine. Consiste in due operazioni fondamentali: la trasformazione spaziale delle coordinate (trasformazione delle coordinate) e il valore in scala di grigi del pixel delle coordinate trasformato (interpolazione in scala di grigi).
Trasformazione delle coordinate
Riduci l'immagine originale della metà in entrambe le direzioni
Trasformazione affine
La trasformazione delle coordinate comunemente utilizzata nell'elaborazione delle immagini è la trasformazione affine
trasformazione dell'identità
trasformazione della traduzione
trasformazione della rotazione
trasformazione di scala
trasformazione di taglio
Taglia lungo l'asse x
Taglia lungo l'asse y
Mappatura in avanti e mappatura all'indietro
Mappatura in avanti: se vengono fornite le coordinate di qualsiasi pixel sull'immagine, la posizione delle coordinate dei pixel dopo la trasformazione geometrica viene ottenuta attraverso la corrispondente relazione di mappatura.
Mappatura all'indietro: calcola la posizione delle coordinate del pixel nell'immagine sorgente dalle coordinate dei pixel dell'immagine di output.
Interpolazione in scala di grigi
concetto di base
Per riposizionare i pixel di un'immagine in una nuova posizione, a queste nuove posizioni devono essere assegnati anche valori di scala di grigio, ovvero interpolazione della scala di grigio.
tipo
interpolazione del vicino più vicino
Il valore di grigio del pixel di input più vicino alla posizione su cui è mappato viene selezionato come risultato dell'interpolazione.
Svantaggi: quando il valore di grigio dei pixel adiacenti cambia in modo significativo, la sua struttura fine diventerà ruvida.
interpolazione bilineare
In base al valore di grigio di quattro punti adiacenti, l'interpolazione viene eseguita due volte nelle direzioni xey. La funzione di interpolazione è l'equazione paraboloide iperbolica
Si tratta di un miglioramento rispetto al metodo del vicino più vicino, in base al quale un paraboloide iperbolico è adattato a quattro punti noti adiacenti.
Svantaggi: Il metodo di calcolo dell'interpolazione bilineare può generalmente ottenere risultati soddisfacenti perché è stata considerata l'influenza di quattro punti adiacenti. Tuttavia, questo metodo ha proprietà di filtraggio passa-basso, che causano la perdita di componenti ad alta frequenza e offuscano il contorno dell'immagine. Se desideri ottenere un effetto di interpolazione in scala di grigi più accurato, puoi utilizzare la correzione di interpolazione di ordine superiore.
interpolazione bicubica
Interpolare in base al valore di grigio di 16 punti adiacenti
trasformata di Fourier
Passaggi fondamentali dell'elaborazione delle immagini nel dominio della frequenza
trasformata di Fourier
Trasformata di Fourier dell'immagine. Invece di ottenere un’onda, questo converte l’immagine dal dominio spaziale (cioè la rappresentazione originale dei pixel) al dominio della frequenza. Nel dominio della frequenza, un'immagine è rappresentata come una serie di combinazioni di onde di frequenze diverse. Questa trasformazione ci consente di vedere la distribuzione delle diverse componenti di frequenza nell'immagine, comprese le componenti a bassa frequenza (che rappresentano parti dell'immagine che cambiano lentamente, come aree uniformi) e componenti ad alta frequenza (che rappresentano parti che cambiano rapidamente, come i bordi e dettagli).
Filtraggio nel dominio della frequenza
Nel dominio della frequenza è possibile scegliere di applicare all'immagine un filtro ad alta frequenza o un filtro a bassa frequenza.
Per i dettagli, vedere Filtraggio nel dominio della frequenza per il miglioramento delle immagini
Trasformata inversa di Fourier
I dati filtrati nel dominio della frequenza vengono quindi riconvertiti nel dominio spaziale tramite la trasformata di Fourier inversa. Il risultato di questa trasformazione inversa è un'immagine modificata che riflette l'effetto del filtraggio nel dominio della frequenza.
Serie di Fourier e trasformata di Fourier
Soddisfacendo determinate condizioni matematiche, qualsiasi funzione periodica può essere espressa come somma di sinusoidi di frequenze diverse.
Se vengono soddisfatte determinate condizioni matematiche, la funzione non periodica può anche essere espressa come l'integrale del seno moltiplicato per la funzione ponderata, ovvero la trasformata di Fourier.
Le caratteristiche funzionali rappresentate dalla serie di Fourier o dalla trasformata di Fourier possono essere completamente ricostruite dalla trasformata di Fourier inversa senza perdere alcuna informazione.
Trasformata discreta di Fourier unidimensionale
Trasformata discreta di Fourier bidimensionale
Nello spettrogramma di un'immagine in scala di grigi dopo la trasformazione di Fourier bidimensionale, la parte più luminosa corrisponde alla componente a bassa frequenza dell'immagine originale.
Componenti a bassa frequenza: questi componenti rappresentano parti dell'immagine che cambiano lentamente, come cambiamenti complessivi del livello di grigio o aree uniformi. Negli spettrogrammi di Fourier, le componenti a bassa frequenza sono solitamente concentrate nella regione centrale dell'immagine.
Componenti ad alta frequenza: questi componenti rappresentano parti dell'immagine che cambiano rapidamente, come bordi e dettagli. In uno spettrogramma, i componenti ad alta frequenza si trovano solitamente molto lontano dal punto centrale.
Proprietà fondamentali della trasformata discreta di Fourier
separabilità
traslazionale
ciclico
simmetria coniugata
invarianza di rotazione
Proporzionalità
valore medio
teorema di convoluzione
miglioramento dell'immagine
Concetti base di miglioramento dell'immagine
Proprietà di miglioramento dell'immagine
Senza approfondire le ragioni del degrado dell'immagine, vengono apportate correzioni in base alle caratteristiche dell'immagine e agli scopi dell'elaborazione per ottenere immagini "migliori" o più "utili".
Il miglioramento dell'immagine consiste nel migliorare la qualità dell'immagine per un determinato scopo applicativo e i risultati dell'elaborazione sono più adatti alle caratteristiche visive umane o ai sistemi di riconoscimento automatico.
Metodo di elaborazione che evidenzia determinate informazioni in un'immagine in base a esigenze specifiche e allo stesso tempo indebolisce o rimuove alcune informazioni non necessarie.
L'elaborazione di miglioramento non può aumentare le informazioni dell'immagine originale, ma può solo migliorare la capacità di riconoscimento di determinate informazioni e questa elaborazione potrebbe causare la perdita parziale di altre informazioni.
metodo di base
operare
metodo del dominio spaziale
Il metodo del dominio spaziale si riferisce all'esecuzione diretta di operazioni sui valori della scala di grigi dei pixel nel dominio spaziale dell'immagine. I metodi comunemente utilizzati includono la trasformazione della scala di grigi, la correzione dell'istogramma, la convoluzione del modello, l'elaborazione dello pseudo-colore, ecc.
metodo nel dominio della frequenza
Il metodo del dominio della frequenza consiste nell'aumentare il valore di trasformazione dell'immagine in un determinato dominio di trasformazione dell'immagine e quindi ottenere l'immagine migliorata attraverso la trasformazione inversa. È un metodo di elaborazione indiretta.
Scopo
liscio
L'arrotondamento ha un effetto di sfocatura sull'immagine, rendendo la transizione dell'immagine naturale e morbida e sopprimendo il rumore;
Inteso dal punto di vista della frequenza in base alle caratteristiche di frequenza dell'immagine, lo smussamento consiste nel mantenere o migliorare le componenti a bassa frequenza nell'immagine e indebolire o eliminare le componenti ad alta frequenza nell'immagine.
Affilare
La nitidezza può essere vista come l'operazione inversa dello smussamento. L'effetto e lo scopo è quello di evidenziare i dettagli e rendere il contorno dell'immagine chiaro e contrastante;
Dal punto di vista dell'elaborazione nel dominio della frequenza, la nitidezza è il miglioramento dei componenti ad alta frequenza in un'immagine.
Effetto
Secondo l'analisi delle caratteristiche di frequenza dell'immagine, si ritiene generalmente che il contrasto e la gamma dinamica dell'intera immagine dipendano dalla parte a bassa frequenza delle informazioni dell'immagine (riferita all'immagine complessiva), mentre i contorni dei bordi e i dettagli locali nell'immagine dipendono dalla parte ad alta frequenza.
Pertanto, per l'elaborazione delle immagini vengono utilizzati metodi di filtraggio digitale bidimensionale. Ad esempio, l'utilizzo di un filtro passa alto può aiutare a evidenziare i contorni dei bordi e i dettagli dell'immagine, mentre l'utilizzo di un filtro passa basso può attenuare l'immagine e ridurre il rumore.
Revisioni delle applicazioni
Abbastanza soggettivo
Nelle applicazioni pratiche, è possibile selezionare diversi algoritmi di miglioramento da testare contemporaneamente e può essere selezionato l'algoritmo con migliori effetti visivi, complessità computazionale relativamente piccola e conformità ai requisiti applicativi.
Trasformazione in scala di grigi
Principio della mappatura in scala di grigi
La mappatura in scala di grigi è un'operazione di punti basata sui pixel dell'immagine
Progettare una determinata regola di mappatura in base allo scopo del miglioramento ed esprimerla con la corrispondente funzione di mappatura
La funzione di mappatura può essere utilizzata per mappare la scala di grigi di ciascun pixel nell'immagine originale su una nuova scala di grigi.
t=T(s)
tipo
Inversione dell'immagine
I valori della scala di grigio vengono invertiti, il nero diventa bianco
Le operazioni di inversione dell'immagine vengono spesso utilizzate per migliorare le aree poco grigie di un'immagine, rendendole più luminose o più prominenti.
Se il corpo principale dell'immagine è più chiaro in scala di grigi, l'operazione di inversione potrebbe rendere il corpo principale più scuro.
Per migliorare i soggetti dell'immagine con scale di grigio più chiare, è spesso necessario utilizzare altre tecniche di miglioramento dell'immagine, come l'equalizzazione dell'istogramma o il miglioramento del contrasto. L'operazione di inversione è più adatta per migliorare i dettagli scuri nell'immagine.
Migliora il contrasto
Migliora il contrasto di ogni parte dell'immagine e aumenta effettivamente la gamma dinamica tra due valori di grigio nell'immagine.
compressione della gamma dinamica
Al contrario, a volte la gamma dinamica dell'immagine originale è troppo ampia e supera la gamma dinamica consentita di alcuni dispositivi di visualizzazione. In questo caso, se l'immagine originale viene utilizzata direttamente, alcuni dettagli potrebbero andare persi.
Modifica la distribuzione della scala di grigi attraverso la trasformazione della funzione
Regola il valore della scala di grigi di ciascun pixel dell'immagine applicando una funzione matematica
trasformazione lineare
trasformazione non lineare
s=cr^γ
In alto a sinistra è l'immagine originale: c=1, Y è rispettivamente 3.0, 4.0, 5.0.
Istogramma
Definizione dell'istogramma
Un istogramma in scala di grigi è un grafico statistico che rappresenta la distribuzione in scala di grigi di un'immagine.
L'ascissa è il livello di grigio, generalmente rappresentato da r, e l'ordinata è il numero di pixel con questo livello di grigio o la probabilità che appaia questo livello di grigio.
Proprietà degli istogrammi
Un'immagine corrisponde a un istogramma, ma l'istogramma non corrisponde necessariamente a una sola immagine.
L'istogramma può solo contare la probabilità che si verifichino pixel in scala di grigi e non può riflettere la posizione del pixel nell'immagine.
L'equalizzazione dell'istogramma viene utilizzata principalmente per migliorare il contrasto globale dell'immagine, mentre lo smussamento e la nitidezza vengono utilizzati rispettivamente per ridurre e aumentare il contrasto locale e i dettagli dell'immagine.
In alcuni casi speciali, l'equalizzazione dell'istogramma potrebbe non modificare il contrasto in modo significativo o addirittura ridurlo leggermente.
Istogramma già uniforme: se l'istogramma di un'immagine è già distribuito uniformemente o la distribuzione della luminosità è molto vicina all'uniforme, l'esecuzione dell'equalizzazione dell'istogramma potrebbe non modificarne il contrasto.
Distribuzione speciale della luminosità: in alcune situazioni speciali di distribuzione della luminosità, l'equalizzazione dell'istogramma può causare una perdita di dettaglio in alcune aree, con conseguente riduzione del contrasto in queste aree.
Concentrazioni estreme di valori di luminanza: se una grande percentuale di pixel in un'immagine è concentrata alle estremità estreme dell'intervallo di luminanza (molto luminoso o molto scuro), l'equalizzazione dell'istogramma potrebbe comportare una riduzione del contrasto in queste aree.
Istogramma e distribuzione in scala di grigi dell'immagine
Equalizzazione dell'istogramma
La distribuzione della scala di grigi dell'immagine dovrebbe sfruttare appieno l'intera gamma della scala di grigi e il numero di pixel a ciascun livello della scala di grigi dovrebbe essere distribuito più o meno uniformemente.
Ciò si ottiene regolando l'istogramma dell'immagine in modo che l'istogramma dell'immagine in uscita sia distribuito il più uniformemente possibile, rendendo così più uniforme la distribuzione della luminosità nell'immagine.
Non levigante o affilante
Specifica dell'istogramma
Il grigio equalizza l'istogramma originale
Specificare l'istogramma richiesto e calcolare una trasformazione che uguagli l'istogramma specificato.
Mappa l'istogramma originale sull'istogramma specificato
Rispetto
Operazioni tra immagini
operazioni aritmetiche
operazione di addizione
C(x,y)=A(x,y) B(x,y)
La media delle immagini M è definita come
g(x,y)=1/M(g0(x,y) g1(x,y) … gM(x,y))
applicazione
Rimuovi il rumore casuale "additivo".
Genera effetti di sovrapposizione di immagini
Sottrazione
C(x,y) = A(x,y) - B(x,y)
applicazione
Elimina gli effetti di sfondo
metodo dell'ombra della differenza
Sottrarre le immagini della stessa scena scattate in momenti diversi o le immagini della stessa scena in diverse bande d'onda per rilevare i cambiamenti tra due immagini della stessa scena.
Può essere utilizzato per guidare il monitoraggio dinamico, il rilevamento e il tracciamento del bersaglio in movimento, l'eliminazione dello sfondo dell'immagine e il riconoscimento del bersaglio, ecc.
Moltiplicazione
C(x,y) = A(x,y) * B(x,y)
applicazione
Visualizzazione parziale dell'immagine
operazione di divisione
C(x,y) = A(x,y)/ B(x,y)
applicazione
Comunemente utilizzato nell'elaborazione delle immagini di telerilevamento
operazione logica
Disponibile solo per immagini binarie (0 e 1).
Classificazione
AND (AND): scritto come p AND q (può anche essere scritto come p·q o pq)
Oppure (OR): scritto come p OR q (può anche essere scritto come p q)
COMPLEMENTO (COMPLEMENTO, spesso chiamato anche negazione o no): scritto come NOT q (può anche essere scritto come )
filtraggio spaziale
Il filtraggio nel dominio spaziale opera direttamente sui pixel, mentre il filtraggio nel dominio della frequenza implica operare sulle componenti di frequenza dell'immagine.
Operazioni di vicinato utilizzando modelli nello spazio immagine
Categoria 1
Lineare: metodo della media di quartiere
Fondamentale
L'algoritmo di livellamento delle immagini più elementare
Lo smoothing può essere eseguito nel dominio spaziale o nel dominio della frequenza
Prendi ogni pixel dell'immagine come centro per prendere il suo dominio R e calcola la media ponderata in scala di grigi di tutti i pixel nelle vicinanze come output del pixel centrale
effetto principale
Elimina o riduci il rumore e migliora la qualità dell'immagine
Sfoca le immagini per renderle morbide e naturali
Processo di implementazione
Solitamente implementato con l'aiuto dell'operazione di convoluzione del modello
Passaggi specifici
Fai scorrere il modello da sinistra a destra e dall'alto verso il basso nell'immagine e ogni punto di posizione nel modello coincide con un determinato pixel nell'immagine;
Moltiplicare il coefficiente in ciascuna posizione del modello per il valore di grigio del pixel con cui coincide;
Somma tutti i prodotti;
Assegna il risultato della somma al pixel corrispondente al centro del modello.
modulo modello
Caratteristiche
Il modello di distribuzione dei coefficienti è generalmente ampio al centro e piccolo nelle aree circostanti.
La somma dei coefficienti è pari a 1 per garantire che il livello di grigio complessivo rimanga invariato prima e dopo l'elaborazione dell'immagine.
Per mantenere meglio il bordo, è possibile utilizzare anche modelli a forma di croce, a forma diritta e altri
Nonlinearità: filtraggio mediano
Principio dell'algoritmo
Utilizza una finestra contenente un numero dispari di pixel per scorrere nell'immagine e sostituisci il valore di grigio del punto centrale della finestra con il valore di grigio medio di ciascun punto nella finestra.
Caratteristiche dell'algoritmo
È una tecnologia di elaborazione non lineare
Rispetto al metodo della media dei dintorni, il filtraggio mediano può superare in una certa misura la sfocatura dei dettagli dell'immagine causata dai filtri lineari ed è particolarmente efficace per l'interferenza degli impulsi e il rumore della scansione dell'immagine. Rimuovendo il rumore, è possibile mantenere meglio la nitidezza dei bordi e i dettagli dell'immagine.
Per i bordi dell'immagine, il livello di grigio cambia spesso in gradini o pendenze e il filtro mediano può mantenerlo bene senza sfocature.
In generale, il filtraggio mediano può mantenere bene i bordi dell'immagine mentre filtra il rumore, cosa difficile da ottenere con il filtraggio medio lineare.
Inoltre, l'effetto del filtro è correlato alla dimensione della finestra. Una scelta ragionevole della dimensione della finestra è la chiave per utilizzare al meglio il filtro mediano.
Non migliora il contrasto dell'immagine
Categoria 2
liscio
Metodo della media di quartiere
filtro mediano
Affilare
concetto di base
Scopo: migliorare i bordi e i contorni dettagliati della scena nell'immagine.
Funzione: migliora il contrasto della scala di grigi.
Nozioni di base: poiché i bordi e i contorni si trovano dove si verificano le mutazioni del valore di grigio, l'operazione differenziale consiste nel trovare la velocità di variazione del valore di grigio, quindi l'algoritmo di nitidezza si basa sull'operazione differenziale (differenza).
Operatore: è un concetto ampiamente utilizzato in matematica e fisica per descrivere una regola o una funzione che mappa un elemento (o un insieme di elementi) su un altro elemento (o insieme di elementi). Gli operatori possono essere semplici operazioni matematiche, come addizione o moltiplicazione, o operazioni più complesse, come differenziazione, integrazione o trasformazioni lineari.
Curva differenziale
metodo
metodo del gradiente
Metodo laplaciano
Filtraggio direzionale
Filtro di nitidezza lineare
Appartiene alla trasformazione lineare
Idee per algoritmi
La nitidezza dell'immagine può essere vista come l'operazione inversa dello smussamento. Lo scopo è migliorare i dettagli e i bordi dell'immagine e avere un effetto sfocato sull'immagine.
Per raggiungere lo scopo della nitidezza, puoi provare a estrarre le informazioni dettagliate dell'immagine che deve essere migliorata e quindi migliorarla.
L'essenza del livellamento spaziale è eseguire la media locale sull'immagine, che è un'operazione integrale, di conseguenza, la nitidezza dell'immagine può essere ottenuta utilizzando l'operazione inversa dell'integrale - "differenziale".
L'operazione differenziale consiste nel trovare la velocità di cambiamento del segnale. I punti in cui i cambiamenti sono rapidi sono i dettagli e i bordi dell'immagine. L'aggiunta del risultato differenziale all'immagine originale secondo una determinata proporzione può rendere il contorno dell'immagine chiaro e i dettagli prominenti.
Operatore differenziale del primo ordine
Operatore differenziale del primo ordine
Operatore differenziale bidimensionale del primo ordine
Due operazioni di differenza per trovare i gradienti
differenza verticale orizzontale
differenza incrociata
Algoritmo differenziale del primo ordine unidirezionale
concetto
L'algoritmo differenziale del primo ordine unidirezionale si riferisce al fornire informazioni sui bordi in una direzione specifica.
L'immagine è composta da due direzioni: orizzontale e verticale. Pertanto, l'algoritmo differenziale unidirezionale sta effettivamente affilando nella direzione orizzontale o verticale.
Classificazione
Algoritmo di nitidezza orizzontale
La nitidezza orizzontale è molto semplice e si ottiene tramite un modello in grado di rilevare le variazioni dei valori dei pixel in direzione orizzontale.
Algoritmo di nitidezza verticale
Ciò si ottiene attraverso un modello in grado di rilevare i cambiamenti nei valori dei pixel nella direzione verticale.
Algoritmo di differenziazione incrociata
Nel risultato del calcolo viene visualizzato un valore di pixel inferiore a zero.
Soluzione: è possibile effettuare una semplice mappatura
[gmin,gmax]→[0,255]
operatore differenziale del secondo ordine
formula
operatore
Operatore laplaciano
Operatore di deformazione laplaciana
operatore di registro
operatore cinofilo
Confronto degli effetti di estrazione dei bordi del differenziale del primo ordine e del differenziale del secondo ordine
Il confine ottenuto dall'operatore di Sobel è un confine relativamente approssimativo, con meno informazioni sul confine, ma relativamente chiaro;
Il confine ottenuto dall'operatore laplaciano è un confine relativamente dettagliato. I confini includono molti dettagli, ma non sono troppo chiari.
Filtraggio nel dominio della frequenza
filtro passa basso
principio
alta frequenza e bassa frequenza
Componenti a bassa frequenza: i componenti a bassa frequenza rappresentano cambiamenti spaziali lenti nell'immagine, ovvero in quelle aree dell'immagine, i valori dei pixel (luminosità o colore) cambiano lentamente. Ciò di solito corrisponde ad aree ampie e uniformi nell'immagine, come cieli calmi, muri o altre parti senza molta consistenza e bordi. La componente a bassa frequenza è correlata alle informazioni globali presenti nell'immagine, come la luminosità dello sfondo, la sfumatura di colore, ecc.
Componenti ad alta frequenza: i componenti ad alta frequenza rappresentano rapidi cambiamenti spaziali nell'immagine, ovvero in queste aree dell'immagine i valori dei pixel cambiano rapidamente. Questo di solito corrisponde a parti dettagliate dell'immagine come bordi, trame, motivi e rumore. Le componenti ad alta frequenza rivelano le caratteristiche locali dell'immagine, come i contorni degli oggetti, i dettagli delle trame, ecc.
Il filtraggio nel dominio della frequenza può essere utilizzato per migliorare o eliminare selettivamente determinati contenuti di un'immagine. È possibile utilizzare il filtraggio passa-basso per ridurre i componenti ad alta frequenza e ottenere un'immagine più uniforme.
appartiene a liscio
filtro passa basso
Filtro passa basso ideale (ILPF)
D0 è la frequenza di taglio del filtro, che è una quantità non negativa
D(u,v) è la distanza dal punto (u,v) sul piano della frequenza all'origine
Il filtraggio passa-basso riduce i componenti ad alta frequenza, il rumore e i bordi dell'immagine vengono indeboliti e l'immagine risulta sfocata.
Il filtro passa-basso ideale ha un effetto squillante
Filtro passa basso Butterworth (BLPF)
Rispetto al filtro passa-basso ideale, non vi è alcun salto evidente tra la banda passante e la banda stop del filtro Butterworth e la transizione tra le frequenze alte e basse è relativamente fluida, quindi l'immagine in uscita ottenuta non presenta squilli evidenti.
Dalla curva caratteristica della funzione di trasferimento si può vedere che una certa alta frequenza viene mantenuta in coda, quindi l'effetto di filtraggio del rumore non è buono come quello del filtro passa-basso ideale.
Filtro passa basso esponenziale (ELPF)
Filtro passa basso ladder (TLPF)
Confronto degli effetti del filtro
I risultati del filtraggio passa basso presentano vari gradi di sfocatura All'aumentare della frequenza di taglio, la sfocatura dell'immagine diventa più chiara.
Alla stessa frequenza di taglio, il risultato dell'elaborazione ELPF ha la sfocatura più leggera, seguito da BLPF e ILPF ha la sfocatura più pesante.
Quando la frequenza di taglio è bassa, gli effetti di filtraggio di diversi filtri sono piuttosto diversi. All'aumentare della frequenza di taglio, i risultati del filtraggio convergono gradualmente.
ILPF e TLPF presentano evidenti fenomeni di "ringing" e la frequenza di oscillazione aumenta con l'aumento della frequenza di taglio BLPF ed ELPF non presentano evidenti fenomeni di "ringing".
filtro passa alto
principio
I bordi dell'immagine corrispondono ai componenti ad alta frequenza nello spettro, quindi è possibile utilizzare filtri passa-alto per estrarre i bordi dell'immagine.
Sovrapponendolo all'immagine originale è possibile rendere i bordi più chiari, rendendo così più nitida l'immagine.
Appartiene all'affilatura
algoritmo
Per il filtro passa basso corrispondente alla parte liscia dell'immagine, è possibile ottenere il corrispondente filtro passa alto.
Un filtro passa-alto può essere espresso come (1 filtro passa-basso)
Filtraggio omomorfico
Il filtro omomorfico è una speciale tecnologia di elaborazione delle immagini che contiene sia proprietà di smussamento che di nitidezza delle immagini, ma il suo scopo principale non è solo quello di smussare o rendere più nitide le immagini. Il filtraggio omomorfico viene utilizzato principalmente per migliorare le condizioni di illuminazione dell'immagine e migliorare la qualità dell'immagine aumentando contemporaneamente il contrasto dell'immagine e comprimendo la gamma dinamica dell'immagine.
Modello di riflessione dell'illuminazione
La tecnologia di filtraggio omomorfico è un metodo di filtraggio basato sul principio dell'imaging con riflessione dell'illuminazione dell'immagine.
Nel dominio della frequenza è possibile comprimere contemporaneamente la gamma di luminosità dell'immagine e aumentare il contrasto, il che è particolarmente adatto per immagini causate da un'illuminazione non uniforme.
L'immagine ottenuta dall'osservatore o dal sistema di imaging dipende generalmente dalla luce riflessa sul bersaglio, che è divisa in ① la quantità di luce visibile incidente sulla scena; ② la quantità di luce riflessa dal bersaglio nella scena
La quantità di luce incidente è legata all'illuminazione esterna, mentre il coefficiente di riflessione dipende dalle caratteristiche dell'oggetto.
Le superfici lisce e di colore chiaro hanno coefficienti di riflessione elevati
Le superfici ruvide e di colore scuro hanno coefficienti di riflessione piccoli
Principio dell'algoritmo
L'immagine è rappresentata come il prodotto della componente di illuminazione e della componente di riflessione
La componente luminosa cambia lentamente nello spazio ed è dominata da componenti a bassa frequenza.
La componente di riflessione cambia drasticamente all'intersezione di diversi oggetti nello spazio, riflettendo i cambiamenti e i dettagli della superficie e contiene molti componenti ad alta frequenza.
La componente di illuminazione e la componente di riflessione si trovano in bande di frequenza diverse. È possibile utilizzare il metodo logaritmico per modificare la loro moltiplicazione in addizione, quindi utilizzare trattamenti diversi per queste due parti.
La componente di illuminazione è a bassa frequenza e la bassa frequenza può essere soppressa per eliminare un'illuminazione non uniforme. Allo stesso tempo, i componenti ad alta frequenza possono essere migliorati per evidenziare i dettagli dell'immagine.
Gestire l'istanza
Allo stesso tempo riduce le basse frequenze ed esalta le alte frequenze, comprime la gamma dinamica dell'immagine e migliora il contrasto tra le varie parti.
Restauro dell'immagine
Recupero immagini senza vincoli
Il processo di degrado dell'immagine può essere considerato una trasformazione
Trovare f(x,y) da g(x,y) è il processo per trovare la sua trasformazione inversa
In pratica, T(-1) ha molte situazioni
T(-1) non esiste, cioè è singolare
T(-1) esiste, ma non è unico
T(-1) esiste ed è unico, ma piccole perturbazioni in g(x, y) causeranno grandi cambiamenti in f(x, y)
T(-1) esiste ed è unico, ma la sua soluzione è troppo complicata o quasi irrisolvibile
T(-1) esiste, è unico, non presenta problemi mal posti e può essere risolto
Nel caso di sistemi invarianti a spostamento lineare, a partire dall'espressione matriciale del modello degenere
Il rumore qui è generalizzato. In assenza di conoscenze preliminari, dobbiamo trovare una stima di f e minimizzare la seguente formula nel senso dei minimi quadrati.
Metodo di filtraggio inverso per ripristinare l'immagine
Metodo del filtro Wiener
Compressione delle immagini
codifica senza perdita
codifica a lunghezza variabile
Codifica di Huffman
codifica aritmetica
Codifica a lunghezza fissa
codifica della lunghezza di esecuzione
codifica del piano di bit
Codifica LZW
codifica con perdita
Codifica predittiva
trasformare la codifica
Segmentazione delle immagini
Panoramica sulla segmentazione delle immagini
Perché dividersi
La segmentazione consiste nel dividere l'immagine in aree non sovrapposte ed estrarre le aree di interesse.
stato
La segmentazione delle immagini è un passaggio chiave nella transizione dall'elaborazione delle immagini all'analisi e comprensione delle immagini ed è anche una tecnologia di visione artificiale di base.
concetto
La somma (unione) di tutte le sottoregioni dovrebbe includere tutti i pixel dell'immagine, oppure la segmentazione dovrebbe dividere ciascun pixel dell'immagine in una determinata sottoregione.
Ciascuna sottoregione non si sovrappone all'altra oppure un pixel non può appartenere a due regioni contemporaneamente.
I pixel appartenenti alla stessa area dovrebbero avere le stesse caratteristiche e i confini dell'area dovrebbero essere chiari.
I pixel appartenenti a regioni diverse dovrebbero avere caratteristiche diverse.
È necessario che i pixel nella stessa sottoregione siano collegati.
natura
All'interno di una regione: somiglianza
Metodo: in base alla somiglianza del valore di grigio dei pixel dell'immagine, selezionando una soglia, trovare l'area con valore di grigio simile. Il contorno esterno dell'area è il bordo dell'oggetto target.
Tra regioni: discontinuità
Metodo: in base alla discontinuità del valore di grigio del pixel dell'immagine, trovare prima i punti, le linee e i bordi, quindi determinare l'area.
Idee
1) Da semplice a difficile, dividere gradualmente:
2) Controllare l'ambiente di fondo e ridurre la difficoltà di segmentazione;
3) Concentrarsi sulla valorizzazione dell'oggetto di interesse e sulla riduzione dell'interferenza di parti irrilevanti.
metodo
Una classe di metodi di segmentazione basati sulla somiglianza dei valori di grigio all'interno della regione. Determina l'area a cui appartiene ciascun pixel per formare una mappa dell'area
metodo di segmentazione della soglia
crescita regionale
unione divisa
Segmentazione morfologica
Una classe di metodi di segmentazione basati sulla discontinuità del valore di grigio tra le regioni. Il metodo di segmentazione basato sui bordi estrae innanzitutto il confine dell'area e quindi determina l'area delimitata dal confine.
metodo di segmentazione del rilevamento dei bordi
Hough trasforma
Richiedere
efficacia
integrità
Precisione
stabilità
segmentazione della soglia
Panoramica sulla segmentazione delle soglie
principio
L'immagine contiene: target e sfondo; ci sono differenze nelle caratteristiche della scala di grigi tra i due; selezione di una soglia appropriata; determinazione della proprietà di ciascun pixel nell'immagine e infine segmentazione per generare un'immagine binaria.
fare un passo
Determinare le soglie di segmentazione appropriate
Confronta ciascun valore di pixel con una soglia per assegnare la proprietà del pixel
Classificazione delle soglie
Caratteristiche
Il calcolo è semplice
Particolarmente efficace per la segmentazione delle immagini con forte contrasto tra target e sfondo.
Le regioni non sovrapposte possono sempre essere definite con confini chiusi e connessi
Può essere generalizzato ad altre caratteristiche, come struttura, colore, ecc.
Soglia dell'istogramma
Idea base
I valori della scala di grigio dei pixel all'interno del target e dello sfondo sono molto simili, mentre i valori della scala di grigio dei pixel su entrambi i lati della loro giunzione sono molto diversi. L'istogramma dell'immagine può essere sostanzialmente considerato come la sovrapposizione di due istogrammi unimodali del target e lo sfondo. Se la differenza nella scala di grigi tra il target e lo sfondo è relativamente ampia, l'istogramma dell'immagine dovrebbe essere bimodale.
Selezione della soglia
Prendi il valore grigio nella parte inferiore (valore minimo) dell'istogramma come soglia T.
Problemi esistenti e miglioramenti
Suscettibile alle interferenze del rumore, il valore minimo non è la soglia desiderata.
Migliorare
Prendi una posizione fissa tra i due picchi, come la posizione centrale. Poiché il valore di picco rappresenta il valore tipico all'interno e all'esterno dell'area, è generalmente più affidabile della selezione della valle e può eliminare l'interferenza del rumore.
Rafforzare l'elaborazione del rumore, ad esempio smussando gli istogrammi, ecc.
soglia ottimale
domanda
L'istogramma dell'immagine non presenta un doppio picco e un fenomeno di valle, o anche se la soglia ha un doppio picco e un fenomeno di valle, il punto di valle non è un punto di soglia accurato;
Pensiero
Ridurre al minimo la probabilità di errore di segmentazione, nota anche come soglia di probabilità di errore minimo.
metodi specifici
Impostare la probabilità del bersaglio e dello sfondo e la relativa funzione di densità di probabilità della distribuzione del grigio;
Data una soglia t, trovare la probabilità di errore di segmentazione di ciascuna classe;
Trovare la probabilità totale dell'errore di segmentazione e(t) sotto questa soglia;
La soglia ottimale T è calcolata dal valore minimo della probabilità totale di errore di segmentazione e(t).
Soglia massima di scostamento interclasse
Idea base
La soglia selezionata, ecc., massimizza la differenza complessiva tra l'obiettivo della segmentazione e l'area dello sfondo. In una certa misura, si può considerare che il risultato della segmentazione abbia raggiunto il livello ottimale. Questa differenza tra le regioni è spesso descritta dalla varianza.
La varianza è una funzione della soglia k. Quando k cambia, cambia anche la varianza tra le regioni Selezionare il k che massimizza la varianza, chiamata anche soglia massima della varianza interclasse.
Il processo di risoluzione della soglia massima di varianza interclasse non richiede l'impostazione manuale di altri parametri ed è selezionato in modo completamente automatico dal computer. Non è applicabile solo alla segmentazione di due regioni, ma può essere esteso anche alla situazione di più regioni.
metodi specifici
passaggio
segmentazione del rilevamento dei bordi
Il principio della segmentazione del rilevamento dei bordi
definizione dei bordi
La raccolta di quei pixel in un'immagine che presentano un gradino o un cambiamento del tetto in scala di grigi.
Classificazione dei bordi
Il principio della segmentazione del rilevamento dei bordi
La segmentazione dell'immagine si ottiene trovando i confini di diverse aree nell'immagine. Si tratta di una vasta classe di metodi di segmentazione delle immagini basati sui confini.
Operatore di rilevamento dei bordi del primo ordine
Un buon operatore di rilevamento deve soddisfare tre indicatori:
Elevata precisione: contiene più bordi veri e meno bordi falsi;
Elevata precisione: i bordi rilevati dovrebbero trovarsi sui confini effettivi;
Larghezza singolo pixel: altamente selettivo, reattivo in modo univoco ai bordi.
Di solito per rilevare i fronti viene utilizzato il valore massimo del differenziale del primo ordine.
operatore gradiente
Uguale a "Algoritmo di differenziazione incrociata"
Altri operatori di direzione
Operatori come Roberts, Prewitt e Sobel contengono solo modelli in due direzioni e possono rilevare poche direzioni dei bordi. Più direzioni ha il modello differenziale, più bordi in più direzioni possono essere rilevati.
Operatore Kirsch
8 direzioni formano un angolo compreso di 45°
Come usare: 8 modelli vengono contorti rispettivamente con l'immagine per rilevare i cambiamenti della scala di grigi in 8 direzioni. La direzione con il cambiamento maggiore è la direzione del bordo. I primi quattro modelli di direzione dell'operatore Kirsch 5×5 sono i seguenti:
Operatore astuto
Caratteristiche
Ci sono problemi: posizione imprecisa; larghezza non di un singolo pixel, ecc.
Passaggi per l'operatore per rilevare i bordi
Leviga l'immagine con un modello di filtro gaussiano;
Calcola l'entità e la direzione del gradiente dell'immagine levigata;
Applicare la soppressione massima all'ampiezza del gradiente;
Assicurati che sia il valore massimo nella direzione del gradiente.
Rilevamento e collegamento dei bordi con un algoritmo a doppia soglia.
Usa il gradiente di quartiere per giudicare le parti incerte.
Operatore di rilevamento dei bordi del secondo ordine
Di solito il punto di passaggio per lo zero del differenziale del secondo ordine viene utilizzato per il preposizionamento dei bordi.
Laplaciano
Caratteristiche
È la derivata seconda ed è molto sensibile al rumore.
La grandezza del Laplaciano produce doppi bordi (minimo negativo e massimo positivo);
Impossibile rilevare la direzione dei bordi (nessun modello di direzione);
effetto
Utilizza le sue proprietà di passaggio per lo zero per il preposizionamento dei bordi;
Determina se un pixel si trova sul lato scuro o sul lato chiaro di un bordo.
modello
Operatore LOG
L'immagine viene prima smussata, quindi i bordi vengono rilevati utilizzando l'operatore di Laplace per superare il problema relativo alla sensibilità dell'operatore differenziale del secondo ordine al rumore.
Continuazione e chiusura del bordo
Lo scopo della continuazione del bordo
Lo scopo dell'unione dei bordi è collegare i bordi discontinui per formare un confine chiuso.
Il principio del trattamento parziale continuato
Analizzare le caratteristiche di ciascun punto (x, y) nei risultati del rilevamento dei bordi; collegare tutti i punti simili in un piccolo quartiere (3x3 o 5x5) per formare il confine di una regione con caratteristiche comuni.
Hough trasforma
dichiarazione del problema
principio
Utilizzando la relazione duale tra uno spazio e un altro spazio, il problema nello spazio originale viene convertito nel suo spazio duale da risolvere e il problema diventa relativamente semplice nello spazio duale.
Rileva linee rette
fare un passo
Fase di preparazione
Fase operativa
fase di ricerca del picco
Problemi esistenti e miglioramenti
domanda
Quando la linea retta è prossima alla verticale, la pendenza q è prossima all'infinito, l'intervallo di ricerca è molto ampio e la quantità di calcoli è elevata.
Migliorare
Lo spazio XY dell'immagine viene trasformato nello spazio delle coordinate polari.
Caratteristiche
Ha una forte capacità anti-interferenza e il conteggio cumulativo nello spazio dei parametri è un processo integrale.
Ha una buona robustezza e presenta un picco molto evidente nel punto del parametro che è davvero riscontrabile.
Chiusura automatica: L'intera curva può essere ottenuta dai parametri della curva di contorno.
Pertanto, la trasformata di Hough può essere utilizzata per eliminare le interferenze e completare l'integrazione e la connessione della curva.
Sviluppo di applicazioni
Per il rilevamento del cerchio
Per il rilevamento delle ellissi
Segmentazione regionale
crescita regionale
Introduzione del problema
Alcuni metodi di segmentazione non tengono conto di determinate condizioni.
L’idea di base della crescita regionale
La crescita regionale è un metodo di segmentazione dal basso verso l'alto.
Determinare innanzitutto il numero di regioni e le relative caratteristiche; quindi trovare un seme rappresentativo per ciascuna regione; utilizzare il seme come centro di clustering per unire continuamente i pixel adiacenti con le stesse caratteristiche nell'immagine nella regione. Ripetere il processo di fusione fino a quando non è possibile essere accorpati, e infine formano regioni con caratteristiche diverse. Questo metodo di segmentazione è anche chiamato espansione della regione.
Fasi e processi dell'algoritmo
Per prima cosa trova un pixel seme per l'area da segmentare come punto di partenza per la crescita;
Determinare un criterio di somiglianza (per determinare se le condizioni per la fusione sono soddisfatte);
Secondo il criterio di somiglianza, i pixel nelle vicinanze del pixel seme che hanno proprietà uguali o simili al seme vengono fusi nell'area seme;
Trattare il nuovo pixel come un nuovo pixel seme e continuare il processo di cui sopra finché non è possibile includere più pixel che soddisfano le condizioni, completando così la crescita di una regione;
Segui questo metodo per completare la crescita di altre aree finché l'intera immagine non sarà completamente segmentata.
La questione chiave
Selezione del punto di semina
il pixel più luminoso;
Valore massimo dell'istogramma;
Pixel al centro del cluster;
Determinazione del criterio di somiglianza (criterio di crescita)
Differenza regionale nella scala di grigi;
Caratteristiche della distribuzione della scala di grigi all'interno della regione;
Colore, consistenza, dimensione e forma, ecc.;
Determinazione delle condizioni di arresto della crescita
Criterio di crescita della regione: la differenza assoluta nel valore di grigio tra qualsiasi pixel e il seme è inferiore a 65.
unione divisa
dichiarazione del problema
La crescita regionale è fortemente influenzata dai semi, dai criteri di somiglianza, ecc.
L’idea di dividersi e fondersi
L'unione divisa è un metodo di segmentazione dall'alto verso il basso.
Partendo dall'immagine intera, essa viene continuamente frazionata passo dopo passo, e contemporaneamente si uniscono zone adiacenti con le stesse caratteristiche fino a quando non è più possibile dividerla, ed infine si ottiene ciascuna sottoregione.
approccio split-merge
approccio divisivo
Quad passo dopo passo finché l'area da dividere non viene divisa in singoli pixel.
La pratica della fusione
Unisci aree adiacenti con le stesse caratteristiche in un'unica area.
Operazioni specifiche
eseguire una divisione;
Controlla se tutte le aree adiacenti possono essere unite e, in tal caso, uniscile una per una;
Ripetere i primi due passaggi finché non è più possibile eseguire la divisione e l'unione;
Nota: durante l'unione, le quattro aree sotto lo stesso nodo principale vengono generalmente considerate per prime e poi espanse in aree allo stesso livello sotto altri nodi principali.
descrizione dell'immagine
Concetti base di descrizione delle immagini
Le principali caratteristiche che caratterizzano l'immagine
L'immagine viene segmentata per ottenere diverse regioni e confini Affinché il computer possa identificare efficacemente il bersaglio, gli attributi principali del bersaglio e la relazione tra il bersaglio e il bersaglio e lo sfondo devono essere espressi in valori numerici più concisi e chiari. , simboli, ecc.
Questi valori, simboli, ecc. generati dall'immagine originale o dall'immagine segmentata sono chiamati caratteristiche dell'immagine. Le caratteristiche dell'immagine contengono informazioni importanti sul target e riflettono le caratteristiche principali del target.
Caratteristiche interne: caratteristiche della scala di grigi, caratteristiche del colore, caratteristiche della trama,...
Caratteristiche esterne: area, perimetro, circolarità, ecc...
Definizione della descrizione dell'immagine
L'uso delle caratteristiche dell'immagine per rappresentare un'immagine è chiamato descrizione dell'immagine, ovvero l'uso di numeri o simboli per rappresentare le caratteristiche rilevanti di ciascun target nell'immagine o nella scena, o anche la relazione tra i target. Il risultato finale è un'espressione astratta dell'immagine caratteristiche dell'obiettivo e la relazione tra di loro.
Scopo della descrizione dell'immagine
Ottieni informazioni utili sul target, descrivi e misura accuratamente il target e getta le basi per l'analisi e la comprensione del target.
Metodi di base della descrizione delle immagini
Il metodo di descrizione semplice si riferisce a un metodo di descrizione basato sulle caratteristiche della forma geometrica dell'immagine. I metodi comunemente utilizzati includono perimetro, area, posizione, direzione, rettangolarità, ecc.
Metodo di descrizione del confine: dopo che l'immagine è stata segmentata o l'algoritmo di rilevamento dei bordi è stato utilizzato per ottenere l'insieme di punti di confine dell'area target, questi punti di confine devono essere organizzati per formare una linea di confine e descritti. Questo metodo include principalmente il metodo del codice a catena e il metodo di descrizione di Fourier aspetta.
Il metodo di descrizione regionale è un metodo per descrivere un'immagine basato sulla scala di grigi, sul colore, sulla trama e su altre caratteristiche dell'immagine, come il metodo di descrizione del momento invariante.
descrizione semplice
descrizione della circonferenza
Definizione del perimetro: la lunghezza del confine di una regione.
Il ruolo del perimetro: un oggetto con una forma semplice può utilizzare un perimetro relativamente breve per circondare l'area che occupa, quindi il perimetro può essere utilizzato per distinguere oggetti con forme semplici o complesse.
Modi comunemente usati per descrivere il perimetro
La lunghezza della linea di confine (spazio) tra l'area e lo sfondo
I pixel sono considerati piccoli quadrati per unità di area e sia l'area che lo sfondo sono composti da piccoli quadrati. Il perimetro è la lunghezza dello spazio vuoto (linea di giunzione) tra l'area e lo sfondo
Cioè: perimetro p = lunghezza della linea di intersezione
numero di punti di confine
Espresso dal numero di pixel di confine, ovvero dal numero di punti di confine
Cioè: perimetro p = numero di punti di confine
Descrizione della zona
Definizione della descrizione dell'area: il numero di pixel nell'area.
Il ruolo dell'area: è la caratteristica più basilare dell'area, che descrive la dimensione dell'area.
Supponiamo che la dimensione dell'immagine f(x,y) sia M×N Per un'immagine binaria, 1 rappresenta il target e 0 rappresenta lo sfondo. Per trovare l'area target è contare il numero di pixel con f(x,y )=1, allora l'area è:
Descrizione della posizione di destinazione
Poiché il target ha una determinata area, è necessario definire la posizione del target nell'immagine. Generalmente, il punto centrale dell'area viene definito come posizione del target.
Il centro dell'area si riferisce al baricentro dell'immagine. Se la qualità dell'immagine è distribuita uniformemente, il baricentro è il baricentro.
Per un'immagine binaria f(x,y) di dimensione M×N, se 1 rappresenta il target e 0 rappresenta lo sfondo, le coordinate del baricentro del target sono:
Descrizione della direzione del target
Dopo aver determinato la posizione del bersaglio nell'immagine, è necessario determinare anche la direzione del bersaglio.
La direzione del target può essere determinata trovando la più piccola somma dei quadrati delle distanze da tutti i punti sul target a una linea retta, che è la direzione del target.
Descrizione della rettangolarità del target
La rettangolarità riflette il grado in cui il bersaglio riempie il suo rettangolo circoscritto e può essere descritta dal rapporto tra l'area del bersaglio e l'area del suo rettangolo circoscritto più piccolo.
Ao è l'area del bersaglio e AMER è l'area del rettangolo più piccolo. Il valore R è compreso tra 0 e 1.
Quando il bersaglio è un rettangolo, R assume un valore massimo pari a 1; quando il bersaglio è un cerchio, il valore di R è; per bersagli sottili e curvi, il valore R diminuisce e si avvicina a 0.
Metodo di descrizione del codice catena
Definizione del codice catena
Il codice a catena è un metodo di rappresentazione della codifica dei confini, che utilizza la direzione del confine come base per la codifica. Per semplicità, viene generalmente descritto un insieme di punti di confine.
Metodo del codice a catena
Esistono due metodi di codifica, codice a 4 catene e codice a 8 catene. Metodo specifico: iniziare dal punto di partenza, codificare lungo il confine, fino a tornare al punto di partenza, terminare la codifica.
Assegnare a ciascun segmento di confine un codice di direzione
Seleziona il punto iniziale, inizia dal punto iniziale e codifica lungo il confine fino a tornare al punto iniziale e terminare la codifica.
Punto di partenza: punto rosso
Direzione: in senso orario
Codice 4 catene: 000033333322222211110011
Esempio 2
Lascia che le coordinate del punto iniziale siano (5,5) e utilizza i codici a catena a 4 direzioni e i codici a catena a 8 direzioni in senso antiorario per rappresentare i confini dell'area.
Codice catena 4 vie: (5,5)111232323000
Codice catena 8 direzioni: (5,5)2224556000
C'è un problema
Punti di partenza diversi portano a codifiche diverse
La rotazione provoca differenze di codifica
modi per migliorare
La normalizzazione risolve il problema del punto di partenza: se il chain code è collegato dall'inizio alla fine, si può vedere che il chain code è in realtà una sequenza ciclica di codifica della direzione. Pertanto, il punto iniziale può essere selezionato per ridurre al minimo il valore intero della sequenza di codifica risultante per ottenere la normalizzazione del codice di catena.
La differenza del primo ordine risolve il problema della rotazione: utilizzando la differenza del primo ordine del codice catena per sostituire il codice originale, si ha invarianza di rotazione. Vale a dire, per aree della stessa forma ruotate ad angoli diversi, i loro codici di catena sono diversi, ma i codici di differenza del primo ordine di ciascun codice di catena sono gli stessi. Questa proprietà è particolarmente efficace per il riconoscimento delle immagini.
La differenza del primo ordine e la normalizzazione del codice catena possono avere invarianza del punto iniziale e della rotazione.
Metodo della descrizione di Fourier
Idea base
Dopo aver confermato il confine composto da insiemi di punti, è possibile identificare la forma del target utilizzando il confine.
processi
La relazione tra la selezione di M e il descrittore
Usa valore
Con meno descrittori di Fourier è possibile ottenere il quadro generale dell'essenza del confine.
Questi descrittori con informazioni sui confini possono essere utilizzati per distinguere confini significativamente diversi.
Caratteristiche
Il problema bidimensionale diventa unidimensionale
Migliorato e adattato per essere invariante alle trasformazioni geometriche
Dalla definizione si può vedere che la selezione del punto iniziale, la traslazione, la rotazione e il ridimensionamento influenzeranno tutti la sequenza dei confini originale, influenzando così il risultato dopo la trasformata di Fourier.
Il descrittore di Fourier può essere migliorato e adattato per renderlo invariante alle trasformazioni geometriche. I metodi specifici sono i seguenti: 1) Il cambiamento e la rotazione del punto iniziale influenza solo la fase di F(u), non l'ampiezza, e può essere ignorato; 2) La traslazione influenzerà la componente continua di F(u), che può essere eliminata rimuovendo la continua; 3) I cambiamenti di scala causeranno l'allargamento o la riduzione complessiva di F(u), che può essere eliminato normalizzando dividendo per il coefficiente massimo. Dopo l'elaborazione di cui sopra, la foglia finale di Fourier presenta l'invarianza della trasformazione geometrica.
metodo di descrizione del momento
Idea base
In alcuni casi, quando è nota la distribuzione dei grigi dell'area target nell'immagine, è possibile utilizzare la descrizione del momento per caratterizzare il target.
Caratteristiche della descrizione del momento
Non è necessario conoscere i confini, ma solo le condizioni in scala di grigio dei pixel all'interno delle aree segmentate.
momento
Distanza dal centro
momento invariante