Galeria de mapas mentais Algoritmo de segmentação de imagem
Um mapa mental de revisão dos métodos de segmentação de imagens, incluindo métodos tradicionais de segmentação de imagens, comparação e resumo de análise de desempenho, modelos de rede de segmentação, etc.
Editado em 2023-03-06 12:25:07Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Uma revisão dos métodos de segmentação de imagens
introdução
Segmentação de imagem: divida a imagem em sub-regiões disjuntas e significativas
Pixels na mesma área: correlação
Pixels em diferentes áreas: diferenças
Métodos tradicionais de segmentação de imagens
usar:
Etapas de pré-processamento de processamento de imagem
Obtenha informações importantes sobre os recursos da imagem
Melhore a eficiência da análise de imagens
Classificação
Baseado em limites: método de segmentação de imagens em tons de cinza
Essência: Defina diferentes limites de escala de cinza e classifique o histograma de escala de cinza da imagem (a mesma faixa de escala de cinza pertence à mesma categoria e tem uma certa semelhança)
processo:
f(i,j): representa o valor cinza de (i,j)
T: Limite da escala de cinza
Ao comparar o valor de cinza do pixel da imagem com o limite, ele é dividido em duas partes: alvo e fundo. A imagem de saída g(i,j) muda, com valor 0 ou 1.
1 (alvo): f(i,j)>=T
0 (plano de fundo): f(i,j)<T
Quanto maior o limite T, mais pixels são divididos em alvos.
Classificação:
Método de segmentação de limite global baseado em pontos
Método de segmentação de limite global baseado em região
Método de segmentação de limite local
... ...
Analisado:
Situações aplicáveis:
O nível de cinza alvo é distribuído uniformemente e muda pouco
A diferença na escala de cinza entre o alvo e o fundo é óbvia
vantagem:
Simples e fácil de implementar
eficiente
insuficiente:
Apenas o valor de cinza do pixel em si é considerado, e informações de recursos como semântica da imagem e espaço não são consideradas.
suscetível ao ruído
Não é ideal para imagens complexas
Aplicações práticas:
Método de pré-processamento
Use em conjunto com outros métodos de segmentação
baseado em borda
Base teórica: O valor de cinza do pixel limite é muito diferente do valor de cinza do pixel adjacente.
Processo: Conecte pontos (pontos de borda) com grandes diferenças no valor de cinza dos pixels adjacentes para formar um contorno de limite
Classificação:
Método de detecção de borda serial: primeiro detecte o ponto inicial da borda, comece a partir do ponto inicial e pesquise e conecte pontos de borda adjacentes por meio do critério de similaridade
Método de detecção de bordas paralelas: usando operadores diferenciais espaciais para convolver modelos com imagens
Roberto
Sobel
Prewitt
Registro
Astuto
... ...
Resumo: Em aplicações práticas, o método de detecção paralela de bordas é simples e rápido, tem desempenho relativamente bom e é o método mais comumente usado.
Com base na região
Princípio do algoritmo: segmentar de acordo com as informações espaciais da imagem, classificar pixels e formar regiões através dos recursos de similaridade dos pixels
Classificação
método de cultivo regional
Princípio: Colete pixels com propriedades semelhantes para formar uma área independente
processo:
1. Selecione um grupo de pontos iniciais como ponto inicial para o crescimento (um único pixel ou uma pequena área)
2. De acordo com o critério de crescimento, mescle o ponto semente e os pixels próximos com características semelhantes na área onde o ponto semente está localizado.
3. Use os novos pixels como pontos iniciais e repita repetidamente até que todas as áreas sejam detectadas e parem de crescer.
O essencial
ponto semente
Método de seleção
seleção artificial
O algoritmo seleciona automaticamente
Critérios de crescimento (informações sobre recursos da imagem)
cor
textura
espaço
... ...
Analisado
Vantagens: cálculo simples
insuficiente:
1. Sensível ao ruído
2. Leve facilmente a vagas regionais
método de mesclagem dividida
A essência do algoritmo: divisão e fusão contínua para obter cada sub-região da imagem
processo:
1. Divida a imagem em áreas regulares
2. De acordo com o critério de similaridade, as áreas com características diferentes são divididas e as áreas adjacentes com as mesmas características são mescladas até que não ocorra nenhuma divisão ou fusão.
Pontos-chave/dificuldades
partição inicial
Critério de similaridade de divisão e mesclagem
Analisado
Vantagens: melhor efeito de segmentação em imagens complexas
insuficiente:
1. Cálculo complexo
2. Os limites podem ser violados durante a divisão
Baseado em cluster
Princípio do algoritmo: reúna pixels com características semelhantes na mesma área, itere os resultados do agrupamento repetidamente até a convergência e, finalmente, reúna todos os pixels em várias categorias diferentes para completar a divisão da área da imagem == segmentação da imagem
Análise de exemplo de algoritmos típicos
SLIC de clustering iterativo linear simples (segmentação de superpixel) ==>A segmentação de imagens é transformada em um problema de agrupamento de pixels
Ideia de algoritmo: com base no agrupamento, os pixels da imagem são divididos em blocos de superpixels
Etapas do algoritmo:
1. Converta o mapeamento de imagem colorida RGB em imagem de laboratório (O espaço do laboratório mantém uma área de cores mais ampla e fornece características de cores mais ricas)
L: brilho
a: variam de magenta a verde
b: variam do amarelo ao azul
2. Combine os recursos de cor (L, a, b) e coordenadas (x, y) de cada pixel em um vetor (L, a, b, x, y) para medição de distância
Distância de cor entre pixels i e j
A distância espacial entre os pixels i e j
A distância final é medida
Distância máxima da cor: pegue o número inteiro [1,40]
Distância espacial máxima dentro de uma classe
Tamanho do bloco de superpixel - distância entre pontos iniciais adjacentes
O número total de pixels na imagem
Soma de blocos de superpixels pré-segmentados
vantagem
Desempenho estável
Boa robustez
Aplicável: segmentação de imagens, estimativa de pose, rastreamento e reconhecimento de alvos, etc.
Baseado na teoria dos grafos
Ideia de algoritmo: converter o problema de segmentação em particionamento de gráfico e completar a segmentação otimizando a solução da função objetivo
Exemplos de algoritmos clássicos
Corte de gráfico
Ideia de algoritmo: O problema de corte mínimo é aplicado ao problema de segmentação de imagens para segmentar a imagem em primeiro e segundo plano.
Introdução ao algoritmo:
1. Mapeando a imagem em um diagrama ST
Gráfico não direcionado G=(V,E) com pesos
V: Conjunto de vértices == vértice correspondente ao ponto de pixel da imagem original
E: Conjunto de arestas == O peso da aresta é a semelhança entre os pixels
Cada nó é conectado aos vértices terminais S e T para formar uma aresta pontilhada.
O peso da aresta pontilhada do vértice conectado a S é a probabilidade de o ponto ser o alvo em primeiro plano.
O peso da borda da linha pontilhada do vértice conectado a T é a probabilidade de o ponto ser o fundo
Um tipo de aresta: a aresta formada pela conexão de nós comuns que representam pontos de pixel entre si; o outro tipo de aresta: a aresta entre o vértice terminal e o nó que o conecta;
2. Resolva o problema de minimizar a função de perda de energia
corte: todas as arestas no conjunto de arestas estão desconectadas - separação do gráfico ST
corte mínimo: A soma de todos os valores de suas arestas correspondentes em um corte é a menor
3. Encontre o corte mínimo e itere continuamente
Avaliação, encontre o valor mínimo da função de perda de energia
Vantagens: Utiliza as informações da escala de cinza da imagem e também utiliza as informações dos limites regionais. Através da solução mais à direita, é obtido o melhor efeito de segmentação.
insuficiente
Grande quantidade de cálculo
Prefira segmentar imagens com a mesma similaridade intraclasse
Agarrar Corte
Um corte
... ...
baseado em uma teoria específica
teoria da morfologia matemática
Supere a influência do ruído e obtenha imagens nítidas
algoritmo genético
Simule a sobrevivência natural do mais apto para obter a solução ideal e alcançar a segmentação ideal
Transformada wavelet
modelo de contorno ativo
teoria difusa
teoria aproximada dos conjuntos
... ...
Método de segmentação baseado no modelo de rede de segmentação de aprendizagem profunda
Rede de convolução completa FCN (rede de convolução completa) - segmentação semântica de imagem
Ideia de algoritmo:
Após 8 camadas de processamento de convolução, o mapa de recursos é ampliado para implementar uma operação de deconvolução, classificado por meio da camada SoftMax e, finalmente, o resultado da segmentação é gerado - múltiplas operações de convolução. O tamanho do mapa de recursos é muito menor do que a imagem de entrada original. , e muitos recursos subjacentes são perdidos. As informações da imagem, classificadas diretamente, afetam a precisão da segmentação.
O processo de upsampling adota a estratégia Skip
processo de algoritmo
Combine dados profundos com informações superficiais e, em seguida, restaure a saída da imagem original para obter resultados de segmentação mais precisos.
De acordo com diferentes camadas de pooling, é dividido em
Resultados de segmentação do modelo FCN-32s
Mapas de recursos em diferentes níveis
Convolução: 7 vezes
Resultados da segmentação do modelo FCN-16
Pooling: 4 vezes - camada Pool4
Método de interpolação bilinear - Conv7
Classificação de upsampling após fusão
Resultados de segmentação do modelo FCN-8s
Pooling: 3 vezes - camada Pool3
Método de interpolação bilinear - camada Conv7, camada Pool4
Classificação de upsampling após fusão
FCN-8s: Integra mais camadas de informações de recursos, segmenta para obter informações de contorno mais claras e o efeito de segmentação é relativamente bom.
Avaliação de algoritmo
Ele pode classificar imagens em nível de pixel e resolver efetivamente o problema de segmentação semântica de imagens.
Imagens de qualquer tamanho podem ser inseridas
O primeiro modelo de rede de segmentação ponta a ponta
insuficiente
A rede é relativamente grande – não é suficientemente sensível às informações detalhadas da imagem
A correlação entre pixels é baixa - o limite do alvo está desfocado
Rede de análise de cena em pirâmide PSPNet (rede de análise de cena em pirâmide) - segmentação semântica de imagem
Pensamento algorítmico
Integre informações contextuais, aproveite ao máximo o conhecimento prévio dos recursos globais, analise diferentes cenas e obtenha segmentação semântica dos alvos da cena.
processo de algoritmo
1. Dada uma imagem de entrada
2.CNN: Obtenha o mapa de características da camada convolucional
3. Módulo de agrupamento em pirâmide: colete recursos de diferentes subintervalos
4. Aumento da resolução
5. Concatenar e fundir as características de cada sub-região
6. Forme representações de recursos contendo informações de contexto local e global
7. Classificação de convolução e SoftMax de representações de recursos
8. Resultados de previsão para cada pixel
Avaliação de algoritmo
Para tarefas de análise de cena e segmentação semântica - capaz de extrair recursos globais apropriados
Use o módulo de agrupamento em pirâmide para fundir informações locais e globais
Propor uma estratégia de otimização para perda moderada de supervisão
Desvantagens: O tratamento da oclusão entre alvos não é ideal.
Modelos da série DeepLab - modelo de rede neural profunda, segmentação semântica de imagem
O núcleo do algoritmo: usando convolução atrous (o método de jacking no kernel de convolução)
Controlar explicitamente a resolução da resposta ao calcular respostas características
Expanda o campo receptivo do kernel de convolução
Integre mais informações de recursos sem aumentar a quantidade de parâmetros e cálculos
caminho de desenvolvimento
O primeiro modelo DeepLab
Descrição do algoritmo
imagem de entrada
Processado por rede neural convolucional profunda (DCNN) com camadas convolucionais atrosas - mapa de pontuação aproximada
upsampling de interpolação bilinear
Apresentando campos aleatórios condicionais (CRF) totalmente conectados
imagem de saída
Avaliação de algoritmo
Considere totalmente as informações globais para classificar com mais precisão os pixels de borda alvo
Elimine a interferência de ruído e melhore a precisão da segmentação
Modelo DeepLab-v2
Estenda atrous como um módulo poroso de pooling de pirâmide espacial (ASPP)
Cascata; camada de convolução atrosa multiescala e fusão de mapas de características;
Mantenha o CRF totalmente conectado como pós-processamento
Modelo DeepLab-v3
Pool de convolução: tamanho da imagem reduzido em 4 vezes
Convolução do módulo de 3 blocos: imagem reduzida em 8 vezes
Função de retificação linear (ReLU): imagem reduzida em 16 vezes
Pooling: imagem reduzida em 16 vezes
Processamento Block4
Módulo ASPP: Fusão de diferentes convoluções porosas (taxa de número de tomadas = 6, 12, 18)
Integração da camada de convolução 1*1 e da camada de pooling global: mapa de recursos reduzido em 16 vezes
Previsão de classificação: mapa de segmentação
Estrutura de codificação e decodificação do modelo DeepLad-v3
Descrição do algoritmo
Parte de codificação: modelo DeepLab-v3
Entrada da parte de decodificação
Mapa de recursos rasos em DCNN
Mapa de recursos fundidos ASPP após convolução
módulo de decodificação
Convolução: mapa de recursos rasos de entrada
Fusion: mapa de recursos ASPP ampliado
Saída: mapa de segmentação de tamanho original convolvido e ampliado
Avaliação de algoritmo
Distinguir claramente os alvos em primeiro plano e o plano de fundo
As bordas do alvo estão claramente definidas
Este modelo permite segmentação refinada
Máscara R-CNN - segmentação de instância de imagem
Origem: Baseado em Faster R-CNN
Descrição do algoritmo
Estrutura de algoritmo
O primeiro estágio:
Redes de propostas regionais (RPN) - Propor estrutura de limite alvo candidato
O conteúdo (RoI) na caixa delimitadora é processado pelo RoIAlign - o RoI é dividido em sub-regiões m*m
segundo estágio:
Paralelamente às tarefas de classe de previsão e regressão de caixa delimitadora - adicione uma ramificação para gerar uma máscara binária para cada RoI Ou seja, use FCN para segmentar cada RoI e prever a máscara de segmentação pixel por pixel.
Fase de treinamento: usando restrição de perda multitarefa L
L = perda de classificação de destino, perda de tarefa de detecção, perda de segmentação de instância
Avaliação de algoritmo
Com base na segmentação semântica, a segmentação de instâncias é realizada - detecção e posicionamento precisos de alvos em primeiro plano, distinguindo diferentes indivíduos de alvos semelhantes.
Segmentação Semântica: Identificando o conteúdo e a localização presentes em uma imagem
Segmentação de instâncias: distinguir diferentes indivíduos na mesma categoria com base na segmentação semântica
Maior precisão de segmentação
Os modelos são mais flexíveis
Pode ser usado para uma variedade de tarefas de visão computacional
Classificação alvo
Detecção de alvo
Divisão de instância
Reconhecimento de postura humana
... ...
Comparação e resumo da análise de desempenho
Análise de desempenho
Conjunto de dados de segmentação de aprendizagem profunda:
PASCAL VOC
MicrosoftCOCO
Paisagens urbanas
Análise qualitativa
Análise quantitativa
Segmentação semântica: A razão média de interseção e união mIoU representa a razão entre a interseção e a união de dois conjuntos. Na segmentação semântica, refere-se ao conjunto de valores verdadeiros e valores previstos.
Segmentação de instância: Precisão de pixel PA, que representa a proporção de pixels classificados corretamente em relação ao total de pixels
Resumir
status quo:
A segmentação de imagens é cada vez mais utilizada em tarefas de visão computacional
A precisão e a velocidade foram significativamente melhoradas
problema:
Falta de conjuntos de dados de segmentação e trabalho pesado de anotação
A segmentação de alvos de pequeno porte não é precisa o suficiente
O algoritmo de segmentação é computacionalmente complexo
Incapaz de alcançar a segmentação interativa em tempo real, dificultando a implementação, aplicação e promoção da tecnologia de segmentação