Galeria de mapas mentais processamento digital de imagens de visão computacional
Introdução detalhada aos métodos tradicionais de visão computacional, incluindo conhecimentos básicos de processamento digital de imagens, restauração de imagens, Compressão de imagem, segmentação de imagem, etc. são frequentemente usadas para pré-processamento de imagem. Espero que isto ajude!
Editado em 2024-02-04 00:54:17이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
processamento digital de imagens
Conhecimento básico de processamento digital de imagens
Introdução
“Imagem” é a distribuição da luz refletida ou transmitida por um objeto. “Imagem” é a impressão ou compreensão formada no cérebro humano pela imagem aceita pelo sistema visual humano.
Imagens são todas imagens com efeitos visuais e são um termo geral para vários gráficos e imagens.
A quantidade de informação contida nas imagens é enorme, e “vale a pena ver cem vezes” e “compreender claramente à primeira vista”.
Uma imagem pode ser descrita matematicamente como
Eu=f(x, y, z, λ, t)
Onde x, y, z são coordenadas espaciais, λ é o comprimento de onda, t é o tempo e I é a intensidade da luz.
Para imagens estáticas t é constante. Para imagens monocromáticas λ é uma constante. Para imagens planas z é constante.
Ondas de luz: A percepção humana é limitada à faixa visual do espectro eletromagnético, enquanto as máquinas de imagem podem cobrir quase todo o espectro eletromagnético.
Digitalização de imagens
imagem digital
A imagem analógica é representada por números e a imagem representada por números é uma imagem digital.
O processo de discretização de uma imagem analógica para obter uma imagem digital é denominado digitalização de imagem.
processo
amostragem
Divida espacialmente a imagem em pequenas áreas (pixels), cada pixel possui uma coordenada bidimensional (inteiro)
Influência
Quantificar
O brilho ou valor de cinza de cada pixel é mapeado para o nível de cinza correspondente, e cada nível de cinza é geralmente representado por um número inteiro.
Se o número de níveis de escala de cinza quantizados L=256, o intervalo de valores é um número inteiro de 0 a 255, e 8 bits podem ser usados para representar o valor da escala de cinza do pixel da imagem em escala de cinza, que é chamado de quantização de 8 bits.
representação de imagem digital
representação matemática
Imagem binária
Imagem em tons de cinza
Imagem RGB
Formato de armazenamento de imagens
Formato BMP: arquivo bitmap para sistemas Windows
Formato GIF: pode armazenar várias imagens (animações)
Formato TIF(F): independente de SO e FS, fácil de trocar
Formato JPEG: padrão de compactação
Propriedades básicas de imagens
Número de pixels da imagem
O número de pixels da imagem refere-se ao número de pixels contidos na imagem bitmap horizontal e verticalmente. Simplesmente aumentar o número de pixels não pode melhorar o efeito de exibição da imagem. O efeito de exibição da imagem é determinado pelo número de pixels e pela resolução da tela.
Resolução de imagem
A resolução da imagem refere-se ao número de pixels distribuídos na imagem por unidade de comprimento de impressão. É usada principalmente para caracterizar a densidade da informação da imagem digital, que determina a clareza da imagem. Numa área de tamanho unitário, quanto maior for a resolução da imagem, maior será o número de pixels que ela contém, mais densos serão os pixels e maior será a clareza da imagem digital.
tamanho da imagem
O tamanho da imagem determina o espaço de armazenamento necessário para armazenar o arquivo de imagem, que geralmente é medido em bytes (B). A fórmula de cálculo é: número de bytes = (altura do bitmap × largura do bitmap × profundidade da imagem) / 8. Pode-se observar pela fórmula de cálculo que o tamanho de armazenamento do arquivo de imagem está diretamente relacionado ao número de pixels.
cor da imagem
A cor da imagem refere-se ao maior número de tipos de cores possíveis em uma imagem digital. Ao alterar as proporções das três cores primárias: vermelho, verde e azul, ela pode ser facilmente misturada em qualquer cor.
profundidade da imagem
A profundidade da imagem, também conhecida como profundidade de bits da imagem, refere-se ao número de bits ocupados por cada pixel da imagem. Os dados correspondentes a cada pixel da imagem geralmente podem ser representados por 1 ou mais bytes. Quanto mais profunda a profundidade dos dados, mais bits serão necessários e mais rica será a representação de cores correspondente.
tom da imagem
O matiz da imagem refere-se ao brilho e à escuridão de várias cores da imagem correspondentes às cores primárias (por exemplo, as cores primárias das imagens digitais no formato RGB incluem vermelho, verde e azul. O ajuste do matiz na vida diária é o ajuste de). o brilho das cores primárias. A tonalidade varia de 0 a 255, incluindo um total de 256 tonalidades. Por exemplo, a imagem mais simples em tons de cinza divide a tonalidade em 256 tonalidades, do branco ao preto. Nas imagens RGB é necessário caracterizar o brilho e a escuridão das três cores vermelho, verde e azul. Por exemplo, se o tom vermelho for mais profundo, a imagem tenderá a ser vermelho escuro, e se o tom verde for mais profundo. aprofundado, a imagem tenderá a ser verde escura.
saturação da imagem
A saturação da imagem indica a pureza das cores da imagem. A saturação de uma foto de cena natural depende das propriedades refletivas ou projetadas do objeto. No processamento digital de imagens, a saturação é geralmente medida pela proporção de luz branca misturada em uma cor sólida. Quanto mais luz branca misturada em uma cor sólida, menor será a saturação e, inversamente, maior será a saturação.
Brilho da imagem
O brilho da imagem refere-se ao brilho e à escuridão das cores contidas nas imagens digitais. É a percepção do olho humano do brilho e da escuridão do próprio objeto. A faixa de valores geralmente é de 0% a 100%.
contraste da imagem
O contraste da imagem refere-se ao contraste entre cores diferentes ou ao contraste entre claro e escuro em uma imagem. Quanto maior o contraste, maior será a diferença de brilho entre as cores ou maior será a diferença entre preto e branco. Por exemplo, aumentar o contraste de uma imagem em tons de cinza tornará a diferença entre preto e branco na imagem mais distinta, fazendo com que a imagem pareça mais nítida. Quando o contraste é aumentado ao extremo, a imagem em tons de cinza torna-se uma imagem em preto e branco.
hierarquia de imagens
Em sistemas de design de computador, para processar materiais de imagem de forma mais conveniente e eficaz, eles geralmente são colocados em diferentes camadas, e a imagem pode ser considerada composta por várias camadas de imagens sobrepostas. Usando software de processamento de imagem, cada camada pode ser processada de forma independente, sem afetar o conteúdo da imagem de outras camadas. Ao criar um novo arquivo de imagem, o sistema criará automaticamente uma camada de fundo para ele, que equivale a uma tela na qual outros trabalhos de processamento de imagem podem ser realizados. Se uma imagem tiver múltiplas camadas, cada camada terá o mesmo número de pixels, canais e formato.
Relação básica entre pixels
relacionamento básico
Uma imagem f(x,y) é composta de pixels unitários básicos, e existem certas conexões entre pixels, incluindo vizinhanças de pixels, adjacências e conexões, bem como a distância entre pixels. Normalmente, uma letra minúscula (como p) é usada ao especificar um pixel específico.
Área
Os pixels vizinhos do pixel p formam a vizinhança deste pixel
4 áreas
8 áreas
campo diagonal
adjacência
Para quaisquer dois pixels, se um pixel estiver na vizinhança de outro pixel e seus valores de escala de cinza atenderem a critérios específicos de similaridade (como pertencer a um determinado conjunto de valores de escala de cinza), então os dois pixels serão considerados adjacentes.
4 adjacências
8 adjacências
m adjacente
Se uma das duas condições a seguir for atendida
q está na vizinhança 4 de p
q está no domínio diagonal de p, e nenhum valor de cinza no pixel na interseção da vizinhança de 4 domínios de q e o domínio de 4 domínios de p pertence a V.
Então dizemos que os dois pontos p e q são m adjacentes.
conectado
4-Conectado
8-Conectado
m-conectado
distância
Distância euclidiana
distância urbana
distância da placa
Aplicações de processamento digital de imagens
Aplicações industriais
Testes não destrutivos de produtos e componentes produzidos na linha de produção, como testes de garrafas de vidro
aplicações de segurança pública
A identificação de impressões digitais é segura, confiável e eficiente e tem uma ampla gama de aplicações em segurança pública, segurança da informação, comércio eletrônico e outras áreas.
A autenticação de identidade pessoal também inclui imagens como rosto, íris, impressão palmar e assinatura.
aplicações médicas
Contagem de células sanguíneas, principal conteúdo do exame de sangue de rotina, dados importantes sobre a presença ou ausência de doença e a gravidade da doença.
aplicações geológicas
A tecnologia de câmera de poço pode obter uma visão panorâmica em grande escala da parede do furo para observar diretamente a estrutura geológica interna.
Aplicações de testes ambientais
Identificação e localização de incêndios: combine imagens de luz visível e imagens infravermelhas para identificar incêndios e determinar sua localização.
Aplicações marítimas
Detecção de Enteromorpha Enteromorpha: Usando imagens de sensoriamento remoto como fonte de dados, a detecção rápida de Enteromorpha Enteromorpha é alcançada.
Detecção e rastreamento de peixes marinhos.
aplicações militares
Posicionamento de alvo de reconhecimento aéreo.
aplicações de entretenimento
Mudar de rosto
Engenharia de imagem
Processamento de imagem
Imagem -> Imagem
Efeitos visuais aprimorados
Pré-processamento de imagem para redução de ruído, aprimoramento de contraste e nitidez de imagem
Coleta, aquisição e armazenamento de imagens, aprimoramento de imagens, restauração de imagens, compressão (codificação) de imagens (vídeo)
análise de imagem
Imagem -> Dados
extrair informações úteis
Segmentação de imagem e descrição do alvo, a saída são dados do recurso alvo
Detecção de bordas, segmentação de imagens (separação do fundo do alvo), expressão do alvo, descrição, medição, análise da cor, forma, textura e movimento do alvo, detecção do alvo, extração, rastreamento, identificação e classificação, reconhecimento facial
Compreensão da imagem
Imagem -> Explicação
Compreensão dos objetos de destino e seus relacionamentos, a saída são dados mais abstratos
Registro de imagens, correspondência, fusão, representação 3D, modelagem, reconstrução, recuperação de cena, compreensão de imagens, raciocínio, recuperação de imagens baseada em conteúdo
Transformação matemática de imagens
Coordenar a transformação do espaço
conceito básico
As transformações geométricas são frequentemente chamadas de transformações de filme de borracha, assumindo que uma imagem é impressa em um filme de borracha e então o filme de borracha é esticado de acordo com um conjunto predeterminado de regras.
As transformações geométricas alteram as relações espaciais entre os pixels de uma imagem. Consiste em duas operações básicas: a transformação espacial das coordenadas (transformação de coordenadas) e o valor da escala de cinza do pixel de coordenadas transformado (interpolação da escala de cinza).
Transformação de coordenadas
Reduza a imagem original pela metade em ambas as direções
Transformação afim
A transformação de coordenadas comumente usada no processamento de imagens é a transformação afim
transformação de identidade
transformação de tradução
transformação de rotação
transformação de escala
transformação de cisalhamento
Corte ao longo do eixo x
Corte ao longo do eixo y
Mapeamento direto e mapeamento reverso
Mapeamento direto: Se as coordenadas de qualquer pixel da imagem forem fornecidas, a posição das coordenadas do pixel após a transformação geométrica é obtida através da relação de mapeamento correspondente.
Mapeamento reverso: calcule a posição das coordenadas do pixel na imagem de origem a partir das coordenadas do pixel da imagem de saída.
Interpolação em tons de cinza
conceito básico
Para reposicionar os pixels de uma imagem para uma nova posição, essas novas posições também devem receber valores de escala de cinza, ou seja, interpolação de escala de cinza.
tipo
interpolação do vizinho mais próximo
O valor de cinza do pixel de entrada mais próximo da posição para a qual ele está mapeado é selecionado como resultado da interpolação.
Desvantagens: Quando o valor de cinza dos pixels adjacentes muda significativamente, sua estrutura fina se torna áspera.
interpolação bilinear
De acordo com o valor de cinza de quatro pontos adjacentes, a interpolação é realizada duas vezes nas direções x e y. A função de interpolação é a equação parabolóide hiperbólica
É uma melhoria no método do vizinho mais próximo, pelo qual um parabolóide hiperbólico é ajustado a quatro pontos conhecidos adjacentes.
Desvantagens: O método de cálculo de interpolação bilinear geralmente pode obter resultados satisfatórios porque foi considerada a influência de quatro pontos adjacentes. No entanto, este método possui propriedades de filtragem passa-baixa, o que causa a perda de componentes de alta frequência e desfoca o contorno da imagem. Se quiser obter um efeito de interpolação em escala de cinza mais preciso, você pode usar a correção de interpolação de ordem superior.
interpolação bicúbica
Interpolar com base no valor de cinza de 16 pontos adjacentes
transformada de Fourier
Etapas básicas do processamento de imagens no domínio da frequência
transformada de Fourier
Transformação de Fourier da imagem. Em vez de obter uma onda, isto converte a imagem do domínio espacial (ou seja, a representação original do pixel) para o domínio da frequência. No domínio da frequência, uma imagem é representada como uma série de combinações de ondas de diferentes frequências. Essa transformação nos permite ver a distribuição de diferentes componentes de frequência na imagem, incluindo componentes de baixa frequência (representando partes da imagem que mudam lentamente, como áreas suaves) e componentes de alta frequência (representando partes que mudam rapidamente, como bordas e detalhes).
Filtragem no domínio da frequência
No domínio da frequência, você pode optar por aplicar um filtro de alta frequência ou um filtro de baixa frequência à imagem.
Para obter detalhes, consulte Filtragem no domínio de frequência para aprimoramento de imagem
Transformada Inversa de Fourier
Os dados filtrados no domínio da frequência são então convertidos de volta para o domínio espacial através da transformada inversa de Fourier. O resultado desta transformação inversa é uma imagem modificada que reflete o efeito da filtragem no domínio da frequência.
Série de Fourier e transformada de Fourier
Atendendo a certas condições matemáticas, qualquer função periódica pode ser expressa como uma soma de senoides de diferentes frequências.
Se certas condições matemáticas forem satisfeitas, a função não periódica também pode ser expressa como a integral do seno multiplicada pela função ponderada, ou seja, a transformada de Fourier.
As características funcionais representadas pela série de Fourier ou transformada de Fourier podem ser completamente reconstruídas pela transformada inversa de Fourier sem perder nenhuma informação.
Transformada discreta de Fourier unidimensional
Transformada discreta de Fourier bidimensional
No espectrograma de uma imagem em tons de cinza após a transformação bidimensional de Fourier, a parte mais brilhante corresponde ao componente de baixa frequência da imagem original.
Componentes de baixa frequência: Esses componentes representam partes da imagem que mudam lentamente, como mudanças gerais no nível de cinza ou áreas suaves. Nos espectrogramas de Fourier, os componentes de baixa frequência geralmente estão concentrados na região central da imagem.
Componentes de alta frequência: Esses componentes representam partes da imagem que mudam rapidamente, como bordas e detalhes. Em um espectrograma, os componentes de alta frequência geralmente estão localizados longe do ponto central.
Propriedades básicas da transformada discreta de Fourier
separabilidade
translacional
cíclico
simetria conjugada
invariância de rotação
Proporcionalidade
valor médio
teorema da convolução
melhoria de imagem
Conceitos básicos de aprimoramento de imagem
Propriedades de aprimoramento de imagem
Sem se aprofundar nas razões da degradação da imagem, as correções são feitas com base nas características da imagem e nas finalidades de processamento para obter imagens melhores, “melhores” ou mais “úteis”.
O aprimoramento de imagem visa melhorar a qualidade da imagem para uma determinada finalidade de aplicação, e os resultados do processamento são mais adequados para características visuais humanas ou sistemas de reconhecimento de máquina.
Método de processamento que destaca certas informações em uma imagem de acordo com necessidades específicas e, ao mesmo tempo, enfraquece ou remove certas informações desnecessárias.
O processamento de aprimoramento não pode aumentar as informações da imagem original, mas apenas melhorar a capacidade de reconhecimento de certas informações, e esse processamento pode causar perda parcial de outras informações.
método básico
operar
método de domínio espacial
O método de domínio espacial refere-se à execução direta de operações em valores de escala de cinza de pixel no domínio espacial da imagem. Os métodos comumente usados incluem transformação de escala de cinza, correção de histograma, convolução de modelo, processamento de pseudo-cor, etc.
método de domínio de frequência
O método no domínio da frequência visa aumentar o valor de transformação da imagem em um determinado domínio de transformação da imagem e, em seguida, obter a imagem aprimorada por meio da transformação inversa.
Propósito
suave
A suavização tem um efeito de desfoque na imagem, tornando a transição da imagem natural e suave e suprimindo o ruído;
Entendida da perspectiva da frequência com base nas características de frequência da imagem, a suavização consiste em manter ou aprimorar os componentes de baixa frequência na imagem e enfraquecer ou eliminar os componentes de alta frequência na imagem.
afiado
A nitidez pode ser vista como a operação inversa da suavização. O efeito e o objetivo é destacar detalhes e tornar o contorno da imagem claro e contrastante;
Do ponto de vista do processamento no domínio da frequência, a nitidez é o aprimoramento dos componentes de alta frequência em uma imagem.
Efeito
De acordo com a análise das características de frequência da imagem, acredita-se geralmente que o contraste e a faixa dinâmica de toda a imagem dependem da parte de baixa frequência das informações da imagem (referindo-se à imagem geral), enquanto os contornos das bordas e detalhes locais na imagem dependem da parte de alta frequência.
Portanto, métodos de filtragem digital bidimensional são usados para processamento de imagem. Por exemplo, o uso de um filtro passa-alta pode ajudar a destacar os contornos das bordas e os detalhes da imagem, enquanto o uso de um filtro passa-baixa pode suavizar a imagem e reduzir o ruído.
Avaliações de aplicativos
Bastante subjetivo
Em aplicações práticas, vários algoritmos de aprimoramento podem ser selecionados para teste ao mesmo tempo, e o algoritmo com melhores efeitos visuais, complexidade computacional relativamente pequena e conformidade com os requisitos da aplicação pode ser selecionado.
Transformação em tons de cinza
Princípio de mapeamento em escala de cinza
O mapeamento em escala de cinza é uma operação pontual baseada em pixels da imagem
Projete uma determinada regra de mapeamento de acordo com o propósito de aprimoramento e expresse-a com a função de mapeamento correspondente
A função de mapeamento pode ser usada para mapear a escala de cinza de cada pixel da imagem original para uma nova escala de cinza.
t=T(s)
tipo
Inversão de imagem
Os valores da escala de cinza são invertidos, o preto fica branco
As operações de inversão de imagem são frequentemente usadas para aprimorar áreas com pouco cinza em uma imagem, tornando-as mais brilhantes ou mais proeminentes.
Se o corpo principal da imagem estiver mais claro em tons de cinza, a operação de inversão poderá tornar o corpo principal mais escuro.
Para aprimorar assuntos de imagem com tons de cinza mais claros, muitas vezes é necessário usar outras técnicas de aprimoramento de imagem, como equalização de histograma ou aprimoramento de contraste. A operação de inversão é mais adequada para realçar detalhes escuros na imagem.
Melhorar o contraste
Aumente o contraste de cada parte da imagem e aumente realmente a faixa dinâmica entre dois valores de cinza na imagem.
compressão de faixa dinâmica
Pelo contrário, por vezes a gama dinâmica da imagem original é demasiado grande e excede a gama dinâmica permitida de alguns dispositivos de visualização. Neste caso, se a imagem original for utilizada directamente, alguns detalhes podem ser perdidos.
Modifique a distribuição em tons de cinza por meio da transformação de funções
Ajusta o valor da escala de cinza de cada pixel da imagem aplicando uma função matemática
transformação linear
transformação não linear
s=cr^γ
O canto superior esquerdo é a imagem original: c = 1, Y é 3,0, 4,0, 5,0 respectivamente.
Histograma
Definição do histograma
Um histograma em tons de cinza é um gráfico estatístico que representa a distribuição em tons de cinza de uma imagem.
A abscissa é o nível de cinza, geralmente representado por r, e a ordenada é o número de pixels com esse nível de cinza ou a probabilidade desse nível de cinza aparecer.
Propriedades dos histogramas
Uma imagem corresponde a um histograma, mas o histograma não corresponde necessariamente a apenas uma imagem.
O histograma só pode contar a probabilidade de ocorrência de pixels em tons de cinza e não pode refletir a posição do pixel na imagem.
A equalização do histograma é usada principalmente para melhorar o contraste global da imagem, enquanto a suavização e a nitidez são usadas para reduzir e aumentar o contraste local e os detalhes da imagem, respectivamente.
Em alguns casos especiais, a equalização do histograma pode não alterar significativamente o contraste ou pode até diminuir ligeiramente o contraste.
Histograma já uniforme: se o histograma de uma imagem já estiver distribuído uniformemente ou se a distribuição do brilho estiver muito próxima do uniforme, a realização da equalização do histograma poderá não alterar seu contraste.
Distribuição especial de brilho: Em algumas situações especiais de distribuição de brilho, a equalização do histograma pode causar perda de detalhes em algumas áreas, o que pode reduzir o contraste nessas áreas.
Concentrações extremas de valores de luminância: Se uma grande proporção de pixels em uma imagem estiver concentrada nas extremidades da faixa de luminância (muito claro ou muito escuro), a equalização do histograma poderá resultar na redução do contraste nessas áreas.
Histograma e distribuição em tons de cinza da imagem
Equalização do histograma
A distribuição da escala de cinza da imagem deve aproveitar ao máximo toda a faixa da escala de cinza, e o número de pixels em cada nível da escala de cinza deve ser distribuído de maneira aproximadamente uniforme.
Isto é conseguido ajustando o histograma da imagem para que o histograma da imagem de saída seja distribuído tão uniformemente quanto possível, tornando assim a distribuição do brilho na imagem mais uniforme.
Não suaviza ou afia
Especificação do histograma
Cinza equaliza o histograma original
Especifique o histograma necessário e calcule uma transformação que equalize o histograma especificado.
Mapeie o histograma original para o histograma especificado
Comparado
Operações entre imagens
operaçoes aritimeticas
operação de adição
C(x,y)=A(x,y) B(x,y)
A média de imagens M é definida como
g(x,y)=1/M(g0(x,y) g1(x,y) … gM(x,y))
aplicativo
Remova o ruído aleatório "aditivo"
Gere efeitos de sobreposição de imagem
Subtração
C(x,y) = A(x,y) - B(x,y)
aplicativo
Elimine efeitos de fundo
método de sombra de diferença
Subtraia imagens da mesma cena tiradas em momentos diferentes ou imagens da mesma cena em bandas de onda diferentes para detectar alterações entre duas imagens da mesma cena.
Ele pode ser usado para orientar o monitoramento dinâmico, detecção e rastreamento de alvos móveis, eliminação de fundo de imagem e reconhecimento de alvos, etc.
Multiplicação
C(x,y) = A(x,y) * B(x,y)
aplicativo
Exibição parcial da imagem
operação de divisão
C(x,y) = A(x,y)/ B(x,y)
aplicativo
Comumente usado no processamento de imagens de sensoriamento remoto
operação lógica
Disponível apenas para imagens binárias (0 e 1)
Classificação
AND (AND): escrito como p AND q (também pode ser escrito como p·q ou pq)
Ou (OR): escrito como p OR q (também pode ser escrito como p q)
COMPLEMENTO (COMPLEMENTO, também frequentemente chamado de negação ou não): escrito como NOT q (também pode ser escrito como )
filtragem espacial
A filtragem no domínio espacial opera diretamente nos pixels, enquanto a filtragem no domínio da frequência envolve a operação nos componentes de frequência da imagem.
Operações de vizinhança usando modelos no espaço de imagem
Categoria 1
Linear: Método da Média da Vizinhança
Fundamental
O algoritmo de suavização de imagem mais básico
A suavização pode ser realizada no domínio espacial ou no domínio da frequência
Tome cada pixel da imagem como o centro para obter seu domínio R e calcule a média ponderada da escala de cinza de todos os pixels na vizinhança como a saída do pixel central
efeito principal
Elimine ou reduza o ruído e melhore a qualidade da imagem
Desfoque as imagens para torná-las suaves e naturais
Processo de implementação
Geralmente implementado com a ajuda da operação de convolução de modelo
Etapas específicas
Deslize o modelo da esquerda para a direita e de cima para baixo na imagem, e cada ponto de posição no modelo coincide com um determinado pixel da imagem;
Multiplique o coeficiente em cada posição do modelo pelo valor de cinza do pixel com o qual ele coincide;
Somar todos os produtos;
Atribua o resultado da soma ao pixel correspondente ao centro do modelo.
formulário de modelo
Características
O padrão de distribuição dos coeficientes é geralmente grande no centro e pequeno nas áreas circundantes.
A soma dos coeficientes é igual a 1 para garantir que o nível geral de cinza permaneça inalterado antes e depois do processamento da imagem.
Para melhor manter a borda, você também pode usar modelos em formato de cruz, reto e outros
Não linearidade: filtragem de mediana
Princípio do algoritmo
Use uma janela contendo um número ímpar de pixels para deslizar na imagem e substitua o valor de cinza do ponto central da janela pelo valor médio de cinza de cada ponto na janela.
Características do algoritmo
É uma tecnologia de processamento não linear
Em comparação com o método da média da vizinhança, a filtragem mediana pode superar o desfoque dos detalhes da imagem causado pelos filtros lineares até certo ponto e é especialmente eficaz para interferência de pulso e ruído de varredura de imagem. Ao remover o ruído, a nitidez das bordas e dos detalhes da imagem pode ser melhor mantida.
Para as bordas da imagem, o nível de cinza geralmente muda em degraus ou inclinações, e o filtro mediano pode mantê-lo bem sem desfocar.
De modo geral, a filtragem mediana pode manter bem as bordas da imagem enquanto filtra o ruído, o que é difícil de conseguir com a filtragem média linear.
Além disso, o efeito de filtragem está relacionado ao tamanho da janela. A seleção razoável do tamanho da janela é a chave para fazer bom uso da filtragem mediana.
Não melhora o contraste da imagem
Categoria 2
suave
Método médio de vizinhança
filtro mediano
afiado
conceito básico
Objetivo: Aprimorar as bordas e contornos detalhados da cena na imagem.
Função: Melhora o contraste da escala de cinza.
Noções básicas: Como as arestas e os contornos estão localizados onde ocorrem as mutações do valor de cinza, a operação diferencial consiste em encontrar a taxa de alteração do valor de cinza, de modo que o algoritmo de nitidez é baseado na operação diferencial (diferença).
Operador: é um conceito amplamente utilizado em matemática e física para descrever uma regra ou função que mapeia um elemento (ou conjunto de elementos) para outro elemento (ou conjunto de elementos). Os operadores podem ser operações matemáticas simples, como adição ou multiplicação, ou operações mais complexas, como diferenciação, integração ou transformações lineares.
Curva diferencial
método
método gradiente
Método Laplaciano
Filtragem direcional
Filtro de nitidez linear
Pertence à transformação linear
Ideias de algoritmo
A nitidez da imagem pode ser vista como a operação inversa da suavização. O objetivo é aprimorar os detalhes e bordas da imagem e ter um efeito de desfoque na imagem.
Para atingir o objetivo de nitidez, você pode tentar extrair as informações detalhadas da imagem que precisa ser aprimorada e depois aprimorá-la.
A essência da suavização espacial é realizar a média local na imagem, que é uma operação integral; portanto, a nitidez da imagem pode ser obtida usando a operação inversa da integral - "diferencial".
A operação diferencial consiste em encontrar a taxa de mudança do sinal. Os locais onde as mudanças são rápidas são os detalhes e as bordas da imagem. Adicionar o resultado diferencial à imagem original de acordo com uma determinada proporção pode tornar o contorno da imagem claro e os detalhes proeminentes.
Operador diferencial de primeira ordem
Operador diferencial de primeira ordem
Operador diferencial bidimensional de primeira ordem
Duas operações de diferença para encontrar gradientes
diferença vertical horizontal
diferença cruzada
Algoritmo diferencial de primeira ordem unidirecional
conceito
O algoritmo diferencial unidirecional de primeira ordem refere-se a fornecer informações de borda em uma direção específica.
A imagem é composta por duas direções: horizontal e vertical. Portanto, o algoritmo diferencial unidirecional está, na verdade, aumentando a nitidez na direção horizontal ou vertical.
Classificação
Algoritmo de nitidez horizontal
A nitidez horizontal é muito simples e é obtida por meio de um modelo que pode detectar alterações nos valores dos pixels na direção horizontal.
Algoritmo de nitidez vertical
Isto é conseguido através de um modelo que pode detectar alterações nos valores dos pixels na direção vertical.
Algoritmo de Diferenciação Cruzada
Um valor de pixel menor que zero aparece no resultado do cálculo.
Solução: você pode fazer um mapeamento simples
[gmín,gmáx]→[0,255]
operador diferencial de segunda ordem
Fórmula
operador
Operador Laplaciano
Operador de deformação laplaciana
operador de registro
operador de cachorro
Comparação dos efeitos de extração de bordas do diferencial de primeira ordem e diferencial de segunda ordem
A fronteira obtida pelo operador Sobel é uma fronteira relativamente aproximada, com menos informações de fronteira, mas relativamente clara;
A fronteira obtida pelo operador Laplaciano é uma fronteira relativamente detalhada. Os limites incluem muitos detalhes, mas não são muito claros.
Filtragem no domínio da frequência
filtro passa-baixo
princípio
alta frequência e baixa frequência
Componentes de baixa frequência: Os componentes de baixa frequência representam mudanças espaciais lentas na imagem, ou seja, nessas áreas da imagem, os valores dos pixels (brilho ou cor) mudam lentamente. Geralmente corresponde a áreas grandes e uniformes na imagem, como céus calmos, paredes ou outras partes sem muita textura e bordas. O componente de baixa frequência está relacionado às informações globais da imagem, como brilho do fundo, gradiente de cor, etc.
Componentes de alta frequência: Os componentes de alta frequência representam rápidas mudanças espaciais na imagem, ou seja, nessas áreas da imagem, os valores dos pixels mudam rapidamente. Geralmente corresponde a partes detalhadas da imagem, como bordas, texturas, padrões e ruído. Os componentes de alta frequência revelam características locais na imagem, como contornos de objetos, detalhes de texturas, etc.
A filtragem no domínio da frequência pode ser usada para aprimorar ou suprimir seletivamente certos conteúdos de uma imagem. A filtragem passa-baixa pode ser usada para reduzir componentes de alta frequência para obter suavização da imagem.
pertence a suave
filtro passa-baixo
Filtro passa-baixo ideal (ILPF)
D0 é a frequência de corte do filtro, que é uma quantidade não negativa
D(u,v) é a distância do ponto (u,v) no plano de frequência até a origem
A filtragem passa-baixa reduz os componentes de alta frequência, o ruído e as bordas da imagem são enfraquecidos e a imagem fica desfocada.
O filtro passa-baixo ideal tem efeito de toque
Filtro passa-baixa Butterworth (BLPF)
Comparado com o filtro passa-baixa ideal, não há salto óbvio entre a banda passante e a banda de parada do filtro Butterworth, e a transição entre altas e baixas frequências é relativamente suave, de modo que a imagem de saída obtida não possui toque óbvio.
Pode-se observar pela curva característica da função de transferência que uma certa frequência alta é retida na cauda, de modo que o efeito de filtragem de ruído não é tão bom quanto o do filtro passa-baixa ideal.
Filtro passa-baixo exponencial (ELPF)
Filtro passa-baixa escada (TLPF)
Comparação de efeito de filtro
Os resultados da filtragem passa-baixa apresentam vários graus de desfoque. À medida que a frequência de corte aumenta, o desfoque da imagem fica mais claro.
Na mesma frequência de corte, o resultado do processamento ELPF apresenta o desfoque mais leve, seguido pelo BLPF, e o ILPF apresenta o desfoque mais intenso.
Quando a frequência de corte é baixa, os efeitos de filtragem de vários filtros são bastante diferentes. À medida que a frequência de corte aumenta, os resultados da filtragem convergem gradualmente.
ILPF e TLPF apresentam fenômenos de "toque" óbvios, e a frequência de oscilação aumenta com o aumento da frequência de corte. BLPF e ELPF não apresentam fenômenos de "toque" óbvios.
filtro passa-alta
princípio
As bordas da imagem correspondem a componentes de alta frequência no espectro, portanto filtros passa-alta podem ser usados para extrair bordas da imagem.
Sobrepô-la à imagem original pode tornar as bordas mais nítidas, tornando a imagem mais nítida.
Pertence à afiação
algoritmo
Para o filtro passa-baixa correspondente à parte lisa da imagem, pode-se obter o filtro passa-alta correspondente.
Um filtro passa-alta pode ser expresso como (1 filtro passa-baixa)
Filtragem homomórfica
A filtragem homomórfica é uma tecnologia especial de processamento de imagem que contém propriedades de suavização e nitidez de imagem, mas seu objetivo principal não é apenas suavizar ou aumentar a nitidez das imagens. A filtragem homomórfica é usada principalmente para melhorar as condições de iluminação da imagem e melhorar a qualidade da imagem, aumentando simultaneamente o contraste da imagem e comprimindo a faixa dinâmica da imagem.
Modelo de reflexão de iluminação
A tecnologia de filtragem homomórfica é um método de filtragem baseado no princípio de imagem por reflexão de iluminação da imagem.
No domínio da frequência, é possível comprimir simultaneamente a faixa de brilho da imagem e aumentar o contraste, o que é especialmente adequado para imagens causadas por iluminação irregular.
A imagem obtida pelo observador ou sistema de imagem geralmente depende da luz refletida no alvo, que é dividida em ① a quantidade de luz visível incidente na cena ② a quantidade de luz refletida do alvo na cena;
A quantidade de luz incidente está relacionada à iluminação externa, enquanto o coeficiente de reflexão depende das características do objeto.
Superfícies lisas e de cor clara têm grandes coeficientes de reflexão
Superfícies ásperas e de cor escura têm pequenos coeficientes de reflexão
Princípio do algoritmo
A imagem é representada como o produto do componente de iluminação e do componente de reflexão
A componente de iluminação muda lentamente no espaço e é dominada por componentes de baixa frequência.
O componente de reflexão muda drasticamente na intersecção de diferentes objetos no espaço, refletindo mudanças e detalhes da superfície, e contém muitos componentes de alta frequência.
O componente de iluminação e o componente de reflexão estão em bandas de frequência diferentes. Você pode usar o método logarítmico para transformar sua multiplicação em adição e, em seguida, usar tratamentos diferentes para essas duas partes.
O componente de iluminação está em baixa frequência e a baixa frequência pode ser suprimida para eliminar iluminação irregular. Ao mesmo tempo, os componentes de alta frequência podem ser aprimorados para realçar os detalhes da imagem.
Lidar com instância
Ao mesmo tempo, reduz as frequências baixas e aumenta as frequências altas, comprime a faixa dinâmica da imagem e melhora o contraste entre várias partes.
Restauração de imagem
Recuperação de imagem irrestrita
O processo de degradação da imagem pode ser considerado como uma transformação
Encontrar f(x,y) a partir de g(x,y) é o processo de encontrar sua transformação inversa
Na prática, T(-1) tem muitas situações
T(-1) não existe, ou seja, singular
T(-1) existe, mas não é único
T(-1) existe e é único, mas pequenas perturbações em g(x, y) causarão grandes mudanças em f(x, y)
T(-1) existe e é único, mas sua solução é muito complicada ou quase insolúvel
T(-1) existe, é único, não tem problemas mal colocados e pode ser resolvido
No caso de sistemas invariantes de deslocamento linear, partindo da expressão matricial do modelo degenerado
O ruído aqui é generalizado. Na ausência de conhecimento prévio, precisamos encontrar uma estimativa de f e minimizar a seguinte fórmula no sentido dos mínimos quadrados.
Método de filtragem inversa para restaurar imagem
Método de filtro Wiener
Compressão de imagem
codificação sem perdas
codificação de comprimento variável
Codificação de Huffman
codificação aritmética
Codificação de comprimento fixo
codificação de comprimento de execução
codificação de plano de bits
Codificação LZW
codificação com perdas
Codificação preditiva
transformar codificação
Segmentação de imagens
Visão geral da segmentação de imagens
Por que dividir
A segmentação consiste em dividir a imagem em áreas não sobrepostas e extrair as áreas de interesse.
status
A segmentação de imagens é uma etapa fundamental na transição do processamento de imagens para a análise e compreensão de imagens, e também é uma tecnologia básica de visão computacional.
conceito
A soma (união) de todas as sub-regiões deve incluir todos os pixels da imagem, ou a segmentação deve dividir cada pixel da imagem em uma determinada sub-região.
Cada sub-região não se sobrepõe ou um pixel não pode pertencer a duas regiões ao mesmo tempo.
Pixels pertencentes à mesma área devem ter as mesmas características e os limites da área devem ser claros.
Pixels pertencentes a regiões diferentes devem ter algumas características diferentes.
É necessário que os pixels da mesma sub-região estejam conectados.
natureza
Dentro de uma região: semelhança
Método: Com base na similaridade do valor de cinza dos pixels da imagem, selecionando um limite, encontre a área com valor de cinza semelhante. O contorno externo da área é a borda do objeto alvo.
Entre regiões: descontinuidades
Método: De acordo com a descontinuidade do valor de cinza do pixel da imagem, primeiro encontre os pontos, linhas e bordas e depois determine a área.
Ideias
1) Do simples ao difícil, divida gradualmente:
2) Controlar o ambiente de fundo e reduzir a dificuldade de segmentação;
3) Foco em valorizar o objeto de interesse e reduzir a interferência de partes irrelevantes.
método
Uma classe de métodos de segmentação baseada na similaridade dos valores de cinza dentro da região. Determine a área à qual cada pixel pertence para formar um mapa de área
método de segmentação de limite
crescimento regional
mesclagem dividida
Segmentação morfológica
Uma classe de métodos de segmentação baseados na descontinuidade do valor de cinza entre regiões. O método de segmentação baseado em arestas primeiro extrai o limite da área e depois determina a área delimitada pelo limite.
método de segmentação por detecção de borda
Transformação de Hough
Exigir
eficácia
integridade
Precisão
estabilidade
segmentação de limite
Visão geral da segmentação de limite
princípio
A imagem contém: alvo e fundo; existem diferenças nas características da escala de cinza entre os dois;
etapa
Determine limites de segmentação apropriados
Compare cada valor de pixel com um limite para atribuir a propriedade do pixel
Classificação de limites
Características
O cálculo é simples
Particularmente eficaz para segmentação de imagens com forte contraste entre o alvo e o fundo.
Regiões não sobrepostas sempre podem ser definidas com limites fechados e conectados
Pode ser generalizado para outros recursos, como textura, cor, etc.
Limite do histograma
Ideia básica
Os valores da escala de cinza dos pixels dentro do alvo e do fundo são altamente semelhantes, enquanto as escalas de cinza dos pixels em ambos os lados de sua junção são muito diferentes. O histograma da imagem pode ser basicamente considerado como a superposição de dois histogramas unimodais do alvo e. o fundo. Se a diferença na escala de cinza entre o alvo e o fundo for relativamente grande, o histograma da imagem deverá ser bimodal.
Seleção de limite
Tome o valor cinza na parte inferior (valor mínimo) do histograma como o limite T.
Problemas existentes e melhorias
Suscetível à interferência de ruído, o valor mínimo não é o limite desejado.
Melhorar
Tome uma posição fixa entre os dois picos, como a posição intermediária. Como o valor de pico representa o valor típico dentro e fora da área, geralmente é mais confiável do que selecionar o vale e pode eliminar a interferência de ruído.
Fortaleça o processamento de ruído, como suavização de histogramas, etc.
limite ideal
pergunta
O histograma da imagem não possui pico duplo e fenômeno de vale, ou mesmo se o limiar tiver pico duplo e fenômeno de vale, o ponto de vale não é um ponto limite preciso;
Pensamento
Minimize a probabilidade de erro de segmentação, também conhecido como limite mínimo de probabilidade de erro.
métodos específicos
Defina a probabilidade do alvo e do fundo e sua função de densidade de probabilidade de distribuição cinza;
Dado um limite t, encontre a probabilidade de erro de segmentação de cada classe;
Encontre a probabilidade total de erro de segmentação e(t) abaixo deste limite;
O limite ideal T é calculado a partir do valor mínimo da probabilidade total de erro de segmentação e(t).
Limite máximo de variação entre classes
Ideia básica
O limite selecionado, etc., maximiza a diferença geral entre o alvo da segmentação e a área de fundo. Até certo ponto, o resultado da segmentação pode ser considerado como tendo atingido o nível ideal. Esta diferença entre regiões é frequentemente descrita pela variância.
A variância é uma função do limite k. Quando k muda, a variância entre regiões também muda. Selecione o k que maximiza a variância, que também é chamado de limite máximo de variância entre classes.
O processo de resolução do limite máximo de variância entre classes não requer configuração manual de outros parâmetros e é selecionado de forma totalmente automática pelo computador. Não é aplicável apenas à segmentação de duas regiões, mas também pode ser estendido à situação de múltiplas regiões.
métodos específicos
passar
segmentação de detecção de borda
O princípio da segmentação por detecção de borda
definição de borda
A coleção desses pixels em uma imagem que possui uma mudança de degrau ou telhado em escala de cinza.
Classificação de arestas
O princípio da segmentação por detecção de borda
A segmentação de imagens é obtida encontrando os limites de diferentes áreas da imagem. É uma grande classe de métodos de segmentação de imagens baseados em limites.
Operador de detecção de borda de primeira ordem
Um bom operador de detecção precisa atender a três indicadores:
Alta precisão: contém mais arestas verdadeiras e menos arestas falsas;
Alta precisão: as bordas detectadas devem estar nos limites verdadeiros;
Largura de pixel único: Altamente seletivo, com resposta única às bordas.
Normalmente o valor máximo do diferencial de primeira ordem é usado para detectar arestas.
operador gradiente
O mesmo que "Algoritmo de Diferenciação Cruzada"
Outros operadores de direção
Operadores como Roberts, Prewitt e Sobel contêm apenas modelos em duas direções e podem detectar poucas direções de arestas. Quanto mais direções o modelo diferencial tiver, mais arestas em mais direções poderão ser detectadas.
Operador Kirsch
8 direções formam um ângulo incluído de 45°
Como usar: 8 modelos são convolvidos com a imagem respectivamente para detectar mudanças na escala de cinza em 8 direções. A direção com a maior mudança é a direção da borda. Os primeiros quatro modelos de direção do operador Kirsch 5×5 são os seguintes:
Operador astuto
Características
Existem problemas: posição imprecisa; largura de pixel não única, etc.
Etapas para o operador detectar bordas
Suavize a imagem com um modelo de filtro gaussiano;
Calcule a magnitude e direção do gradiente da imagem suavizada;
Aplique supressão máxima à amplitude do gradiente;
Certifique-se de que seja o valor máximo na direção do gradiente.
Detectando e vinculando bordas com um algoritmo de limite duplo.
Use o gradiente de vizinhança para julgar as partes incertas.
Operador de detecção de borda de segunda ordem
Normalmente, o ponto de cruzamento zero do diferencial de segunda ordem é usado para pré-posicionamento da borda.
Laplaciano
Características
É a segunda derivada e é muito sensível ao ruído.
A magnitude do Laplaciano produz arestas duplas (mínimo negativo e máximo positivo);
Incapaz de detectar a direção das arestas (sem modelo de direção);
efeito
Utilize suas propriedades de cruzamento zero para pré-posicionamento de bordas;
Determina se um pixel está no lado escuro ou no lado claro de uma borda.
modelo
Operador LOG
A imagem é suavizada primeiro e depois as bordas são detectadas usando o operador Laplace para superar o problema de que o operador diferencial de segunda ordem é sensível ao ruído.
Continuação e fechamento de borda
O propósito da continuação da borda
O objetivo da união de arestas é conectar arestas descontínuas para formar um limite fechado.
O princípio do processamento de continuação parcial
Analise as características de cada ponto (x, y) nos resultados da detecção de borda conecte todos os pontos semelhantes em uma pequena vizinhança (3x3 ou 5x5) para formar o limite de uma região com características comuns;
Transformação de Hough
declaração do problema
princípio
Usando a relação dual entre um espaço e outro espaço, o problema no espaço original é convertido em seu espaço dual para ser resolvido, e o problema se torna relativamente simples no espaço dual.
Detectar linhas retas
etapa
Fase de Preparação
Estágio de operação
estágio de busca de pico
Problemas existentes e melhorias
pergunta
Quando a linha reta está próxima da vertical, a inclinação q está próxima do infinito, o intervalo de pesquisa é muito amplo e a quantidade de cálculo é grande.
Melhorar
O espaço XY da imagem é transformado em espaço de coordenadas polares.
Características
Possui forte capacidade anti-interferência e a contagem cumulativa no espaço de parâmetros é um processo integral.
Possui boa robustez e um pico muito óbvio no ponto do parâmetro que realmente pode ser encontrado.
Fechamento automático: Toda a curva pode ser obtida a partir dos parâmetros da curva limite.
Portanto, a transformada de Hough pode ser usada para eliminar interferências e completar a complementação e conexão da curva.
Desenvolvimento de aplicações
Para detecção de círculo
Para detecção de elipses
Segmentação de região
crescimento regional
Introdução do problema
Alguns métodos de segmentação não levam em consideração determinadas condições.
A ideia básica do crescimento regional
O crescimento regional é um método de segmentação de baixo para cima.
Primeiro determine o número de regiões e suas características; em seguida, encontre uma semente representativa para cada região, use a semente como centro de agrupamento para mesclar continuamente pixels adjacentes com as mesmas características na região. Repita o processo de fusão; se fundem e finalmente formam regiões com características diferentes. Este método de segmentação também é chamado de expansão de região.
Etapas e processos do algoritmo
Primeiro encontre um pixel inicial para a área a ser segmentada como ponto de partida para o crescimento;
Determinar um critério de similaridade (para determinar se estão reunidas as condições para a fusão);
De acordo com o critério de similaridade, os pixels na vizinhança do pixel semente que possuem propriedades iguais ou semelhantes às da semente são mesclados na área semente;
Trate o novo pixel como um novo pixel inicial e continue o processo acima até que nenhum outro pixel que atenda às condições possa ser incluído, completando assim o crescimento de uma região;
Siga este método para completar o crescimento de outras áreas até que toda a imagem esteja completamente segmentada.
A questão chave
Seleção do ponto inicial
o pixel mais brilhante;
Valor máximo do histograma;
Pixel no centro do cluster;
Determinação do critério de similaridade (critério de crescimento)
Diferença regional em tons de cinza;
Características de distribuição em tons de cinza na região;
Cor, textura, tamanho e forma, etc.;
Determinação das condições de parada de crescimento
Critério de crescimento da região: A diferença absoluta no valor de cinza entre qualquer pixel e a semente é menor que 65.
mesclagem dividida
declaração do problema
O crescimento da região é altamente influenciado por sementes, critérios de similaridade, etc.
A ideia de dividir e fundir
Split-merge é um método de segmentação de cima para baixo.
A partir de toda a imagem, ela é continuamente dividida passo a passo e, ao mesmo tempo, áreas adjacentes com as mesmas características são mescladas até que não possam mais ser divididas e, finalmente, cada sub-região é obtida.
abordagem de mesclagem dividida
abordagem divisiva
Quad passo a passo até que a área a ser dividida seja dividida em pixels individuais.
A prática da fusão
Mesclar áreas adjacentes com as mesmas características em uma única área.
Operações específicas
realizar uma divisão;
Verifique se todas as áreas adjacentes podem ser mescladas e, em caso afirmativo, mescle-as uma por uma;
Repita as duas primeiras etapas até que a divisão e a fusão não possam mais ser realizadas;
Nota: Ao mesclar, as quatro áreas sob o mesmo nó pai são geralmente consideradas primeiro e depois expandidas para áreas no mesmo nível sob outros nós pai.
Descrição da imagem
Conceitos básicos de descrição de imagem
As principais características que caracterizam a imagem
A imagem é segmentada para obter diversas regiões e limites Para que o computador identifique efetivamente o alvo, os principais atributos do alvo e a relação entre o alvo e o alvo e o fundo devem ser expressos em valores numéricos mais concisos e claros. , símbolos, etc.
Esses valores, símbolos, etc. gerados a partir da imagem original ou imagem segmentada são chamados de recursos de imagem. Os recursos de imagem contêm informações importantes sobre o alvo e refletem as principais características do alvo.
Recursos internos: recursos de escala de cinza, recursos de cores, recursos de textura,...
Características externas: área, perímetro, circularidade, etc...
Definição da descrição da imagem
O uso de recursos de imagem para representar uma imagem é chamado de descrição de imagem, ou seja, o uso de números ou símbolos para representar os recursos relevantes de cada alvo na imagem ou cena, ou mesmo a relação entre os alvos. características alvo e o relacionamento entre elas.
Finalidade da descrição da imagem
Obtenha informações úteis sobre o alvo, descreva e meça com precisão o alvo e estabeleça as bases para a análise e compreensão do alvo.
Métodos básicos de descrição de imagem
O método de descrição simples refere-se a um método de descrição baseado nas características da forma geométrica da imagem. Os métodos comumente usados incluem perímetro, área, posição, direção, retangularidade, etc.
Método de descrição de limite: Depois que a imagem é segmentada ou o algoritmo de detecção de borda é usado para obter o conjunto de pontos de limite da área alvo, esses pontos de limite precisam ser organizados para formar uma linha de limite e descritos. Este método inclui principalmente o método de código de cadeia. e o método de descrição de Fourier espera.
O método de descrição regional é um método de descrição de uma imagem com base na escala de cinza, cor, textura e outras características da imagem, como o método de descrição de momento invariante.
descrição simples
descrição da circunferência
Definição de perímetro: o comprimento do limite de uma região.
O papel do perímetro: Um objeto com forma simples pode usar um perímetro relativamente curto para circundar a área que ocupa, portanto o perímetro pode ser usado para distinguir objetos com formas simples ou complexas.
Maneiras comumente usadas para descrever o perímetro
O comprimento da linha limite (lacuna) entre a área e o fundo
Os pixels são considerados pequenos quadrados por unidade de área, e tanto a área quanto o fundo são compostos de pequenos quadrados. O perímetro é o comprimento da lacuna (linha de junção) entre a área e o fundo
Ou seja: perímetro p = comprimento da linha de intersecção
número de pontos de limite
Expresso pelo número de pixels de limite, ou seja, o número de pontos de limite
Ou seja: perímetro p = número de pontos limite
Descrição da área
Definição da descrição da área: o número de pixels na área.
O papel da área: É a característica mais básica da área, que descreve o tamanho da área.
Suponha que o tamanho da imagem f(x,y) seja M×N. Para uma imagem binária, 1 representa o alvo e 0 representa o fundo. Encontrar a área alvo é contar o número de pixels com f(x,y. )=1, então a área é:
Descrição do local de destino
Como o alvo possui uma determinada área, é necessário definir a posição do alvo na imagem. Geralmente, o ponto central da área é definido como a posição do alvo.
O centro da área refere-se ao centróide do gráfico. Se a qualidade da imagem for distribuída uniformemente, o centróide será o centróide.
Para uma imagem binária f(x,y) de tamanho M×N, se 1 representa o alvo e 0 representa o fundo, então as coordenadas centróides do alvo são:
Descrição da direção alvo
Depois de determinar a localização do alvo na imagem, você também precisa determinar a direção do alvo.
A direção do alvo pode ser determinada encontrando a menor soma dos quadrados das distâncias de todos os pontos do alvo até uma linha reta, que é a direção do alvo.
Descrição da retangularidade alvo
A retangularidade reflete o grau em que o alvo preenche seu retângulo circunscrito e pode ser descrita pela razão entre a área do alvo e a área de seu menor retângulo circunscrito.
Ao é a área do alvo e AMER é a área do menor retângulo envolvente. O valor R está entre 0 e 1.
Quando o alvo é um retângulo, R assume o valor máximo de 1; quando o alvo é um círculo, o valor de R é para alvos delgados e curvos, o valor de R torna-se menor e fica próximo de 0.
Método de descrição de código de cadeia
Definição de código de cadeia
O código em cadeia é um método de representação de codificação de limite, que usa a direção do limite como base para a codificação. Para simplificar, um conjunto de pontos limites é geralmente descrito.
Método Chaincode
Existem dois métodos de codificação, código de 4 cadeias e código de 8 cadeias. Método específico: comece do ponto inicial, codifique ao longo do limite, até retornar ao ponto inicial, finalize a codificação.
Dê a cada segmento limite um código de direção
Selecione o ponto inicial, comece a partir do ponto inicial e codifique ao longo do limite até retornar ao ponto inicial e terminar a codificação.
Ponto de partida: ponto vermelho
Direção: sentido horário
Código de 4 cadeias: 000033333322222211110011
Exemplo 2
Sejam as coordenadas do ponto inicial s (5,5) e use códigos de cadeia de 4 direções e códigos de cadeia de 8 direções no sentido anti-horário para representar os limites da área.
Código de cadeia de 4 vias: (5,5)111232323000
Código de cadeia de 8 direções: (5,5)2224556000
Há um problema
Diferentes pontos de partida levam a diferentes codificações
A rotação causa diferenças de codificação
formas de melhorar
A normalização resolve o problema do ponto de partida: se o código da cadeia estiver conectado do início ao fim, pode-se ver que o código da cadeia é na verdade uma sequência cíclica de codificação de direção. Portanto, o ponto de partida pode ser selecionado para minimizar o valor inteiro da sequência de codificação resultante para alcançar a normalização do código em cadeia.
A diferença de primeira ordem resolve o problema de rotação: usando a diferença de primeira ordem do código da cadeia para substituir o código original, tem invariância de rotação. Ou seja, para áreas da mesma forma giradas em ângulos diferentes, seus códigos de cadeia são diferentes, mas os códigos de diferença de primeira ordem de cada código de cadeia são os mesmos. Esta propriedade é particularmente eficaz para o reconhecimento de imagens.
A diferença de primeira ordem e a normalização do código da cadeia podem ter ponto de partida e invariância de rotação.
Método de descrição de Fourier
Ideia básica
Após a confirmação do limite composto por conjuntos de pontos, a forma do alvo pode ser identificada usando o limite.
processo
A relação entre a seleção de M e o descritor
Usar valor
Com menos descritores de Fourier, o esboço geral da essência do limite pode ser obtido.
Esses descritores com informações de limites podem ser usados para distinguir limites significativamente diferentes.
Características
O problema bidimensional torna-se unidimensional
Melhorado e ajustado para ser invariante às transformações geométricas
Pode-se ver pela definição que a seleção do ponto inicial, translação, rotação e escala afetarão a sequência limite original, afetando assim o resultado após a transformada de Fourier.
O descritor de Fourier pode ser melhorado e ajustado para torná-lo invariante às transformações geométricas. Os métodos específicos são os seguintes: 1) A mudança e rotação do ponto inicial afeta apenas a fase de F(u), não a amplitude, e pode ser ignorada; 2) A tradução afetará o componente DC de F(u), que pode ser eliminado removendo DC; 3) As mudanças de escala causarão o aumento ou redução geral de F(u), que pode ser eliminado pela normalização pela divisão pelo coeficiente máximo. Após o processamento acima, a folha de Fourier final apresenta a invariância da transformação geométrica.
método de descrição de momento
Ideia básica
Em alguns casos, quando a distribuição de cinza da área alvo na imagem é conhecida, a descrição do momento pode ser usada para caracterizar o alvo.
Características de descrição do momento
Não há necessidade de conhecer os limites, apenas as condições da escala de cinza dos pixels dentro das áreas segmentadas.
momento
Distância do centro
momento invariante