Galeria de mapas mentais reconhecimento de padrões
Também chamado de aprendizado de máquina ou mineração de dados. Inclui principalmente introdução, pré-processamento de dados, análise de cluster, classificação bayesiana, método do vizinho mais próximo, etc.
Editado em 2024-02-04 00:51:57이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
이것은 (III) 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제에 대한 마인드 맵이며, 주요 함량은 다음을 포함한다 : 저산소증-유도 인자 프롤릴 하이드 록 실라 제 억제제 (HIF-PHI)는 신장 빈혈의 치료를위한 새로운 소형 분자 경구 약물이다. 1. HIF-PHI 복용량 선택 및 조정. Rosalasstat의 초기 용량, 2. HIF-PHI 사용 중 모니터링, 3. 부작용 및 예방 조치.
이것은 Kuka Industrial Robots의 개발 및 Kuka Industrial Robot의 모션 제어 지침에 대한 마인드 맵입니다. 주요 내용에는 쿠카 산업 로봇의 역사, 쿠카 산업 로봇의 특성, 쿠카 산업 로봇의 응용 분야, 2. 포장 프로세스에서 쿠카 로봇은 빠르고 일관된 포장 작업을 달성하고 포장 효율성을 높이며 인건비를 줄입니다. 2. 인건비 감소 : 자동화는 운영자에 대한 의존성을 줄입니다. 3. 조립 품질 향상 : 정확한 제어는 인간 오류를 줄입니다.
408 컴퓨터 네트워크가 너무 어렵습니까? 두려워하지 마세요! 나는 피를 구토하고 지식 맥락을 명확히하는 데 도움이되는 매우 실용적인 마인드 맵을 분류했습니다. 컨텐츠는 매우 완전합니다. 네트워크 아키텍처에서 응용 프로그램 계층, TCP/IP 프로토콜, 서브넷 디비전 및 기타 핵심 포인트에 이르기까지 원칙을 철저히 이해하는 데 도움이 될 수 있습니다. 📈 명확한 논리 : Mindmas 보물, 당신은 드문 기회가 있습니다. 서둘러! 이 마인드 맵을 사용하여 408 컴퓨터 네트워크의 학습 경로에서 바람과 파도를 타고 성공적으로 해변을 얻으십시오! 도움이 필요한 친구들과 공유해야합니다!
reconhecimento de padrões
introdução
Conceitos básicos de reconhecimento de padrões
reconhecimento de padrões
Usar computadores para realizar a capacidade de reconhecimento de padrões das pessoas é uma tecnologia que usa computadores para realizar a análise, descrição, julgamento e identificação de várias coisas ou fenômenos pelas pessoas, e atribui as coisas a serem reconhecidas a várias categorias de padrões.
O reconhecimento de padrões pode ser visto como o mapeamento de padrões para categorias
modelo
Informações sobre uma substância ou fenômeno
Em termos gerais, objetos observáveis que existem no tempo e no espaço podem ser chamados de padrões se puderem ser distinguidos como iguais ou semelhantes.
Um padrão é uma descrição de um objeto formado por meio da coleta de informações. Essa descrição deve ser padronizada, compreensível e identificável.
ilustrar
Um padrão não é a coisa em si, mas a informação obtida a partir da coisa. Por exemplo, fotos e informações pessoais de pessoas
Consegue distinguir se os padrões são semelhantes (relevante para a questão)
Os padrões são geralmente representados por vetores e os subscritos podem refletir características de tempo, características espaciais ou outros identificadores.
vetor padrão
Informações com distribuição de tempo e espaço obtidas pela observação de coisas individuais específicas (referidas como amostras ou vetores de amostra)
Classe padrão
A categoria à qual um padrão pertence ou a população de padrões na mesma categoria (categoria abreviada)
sistema de reconhecimento de padrões
Consiste em dois processos: design e implementação
A categoria à qual um padrão pertence ou a população de padrões na mesma categoria (categoria abreviada)
Design (treinamento, aprendizagem)
Refere-se ao uso de um certo número de amostras (chamado conjunto de treinamento ou conjunto de aprendizagem) para projetar um classificador
Realização (tomada de decisão, classificação, julgamento)
Refere-se ao uso do classificador projetado para tomar decisões de classificação das amostras a serem identificadas.
Composição do sistema
Coleta de dados (aquisição de dados)
Caminho
Através de vários sensores, informações como luz ou som são convertidas em informações elétricas, ou informações de texto são inseridas no computador
Classificação
Formas de onda unidimensionais: ondas sonoras, eletrocardiograma, eletroencefalograma, etc.
Imagens bidimensionais: texto, imagens, etc.
Imagens 3D: rostos, etc.
Quantidades físicas: altura da pessoa, peso, peso do produto, nível de qualidade, etc.
Quantidade lógica (0/1): presença ou ausência, masculino e feminino, etc.
pré-processando
Propósito
Remova o ruído e aprimore informações úteis
Técnicas comumente usadas
Filtragem e remoção de ruído de sinal unidimensional, suavização de imagem, aprimoramento, restauração, filtragem, etc.
Extração e seleção de recursos
Propósito
A partir dos dados originais, obtenha as características que melhor refletem a natureza da classificação
Formação de recursos
Vários recursos que refletem problemas de classificação são obtidos dos dados originais por vários meios (às vezes é necessária a padronização dos dados)
Seleção de recursos
Selecione vários recursos que são mais benéficos para a classificação dos recursos
Extração de recursos
Reduza o número de recursos por meio de certas transformações matemáticas
Decisão de classificação ou correspondência de modelo
Use regras de decisão no espaço de recursos para atribuir o objeto reconhecido a uma determinada categoria
ilustrar
Esta estrutura de sistema é adequada para reconhecimento estatístico de padrões, reconhecimento de padrões difusos e métodos supervisionados em redes neurais artificiais.
Para métodos de reconhecimento de padrões estruturais, apenas a extração primitiva é usada para substituir a extração e seleção de recursos.
Para análise de cluster, o projeto do classificador e a tomada de decisão são integrados em uma única etapa.
Recursos de imagem
cor
textura
forma
Relações espaciais
quatro espaços
Três tarefas principais
Coleção de padrões
Extração e seleção de recursos
Discriminação de tipo
Perguntas relacionadas
Avaliação de desempenho
Taxa de erro de teste ou taxa de erro
complexidade computacional
dividir
Base de classificação
Natureza da pergunta ou amostra
Reconhecimento de padrões supervisionados
Primeiro, tenha um lote de amostras com rótulos de categoria, projete um classificador com base no conjunto de amostras e, em seguida, determine a nova categoria de amostra
Reconhecimento de padrões não supervisionados
Existe apenas um lote de amostras e o conjunto de amostras é diretamente dividido em várias categorias com base nas semelhanças entre as amostras.
método principal
reconhecimento estatístico de padrões
Classificação
classificação não supervisionada
Análise de cluster
Classificação supervisionada
Classificação da coleção
Classificação probabilística
Descrever método
Vetor de recurso
Determinação do modo
Expressado pela distribuição de probabilidade condicional P (X/i), existem m distribuições em m categorias e, em seguida, determine a qual distribuição o padrão desconhecido pertence.
Base teórica
teoria da probabilidade
estatística matemática
vantagem
Mais maduro
Capaz de considerar o impacto do ruído interferente
Forte capacidade de reconhecer padrões primitivos
deficiência
É difícil extrair características de padrões com estruturas complexas
Não pode refletir as características estruturais do padrão e é difícil descrever a natureza do padrão.
Dificuldade em considerar questões de identificação de uma perspectiva holística
Reconhecimento de padrões estruturais
reconhecimento de padrão difuso
método de rede neural
Base teórica
Neurofisiologia
psicologia
Método de descrição de padrão
Um conjunto de nós de entrada representados por diferentes níveis de atividade
Determinação do modo
sistema dinâmico não linear
método principal
Modelo BP, modelo HOPField
vantagem
Resolva com eficácia problemas não lineares complexos
Permitir que as amostras tenham defeitos e distorções maiores
deficiência
Falta de teoria de aprendizagem eficaz
muito tempo
Áreas de aplicação
Imagens, rostos, textos, números, impressões digitais, vozes...
questão fundamental
Método de representação de padrão (amostra)
vetor de coluna n-dimensional
x= (x1, x2,…, xn)T
Compacidade das classes de padrões
ponto crítico (amostra)
Em um conjunto de amostras multicategorias, quando os valores característicos de algumas amostras mudam ligeiramente, elas se tornam outra categoria de amostras. Essas amostras são chamadas de amostras críticas (pontos).
conjunto firme
definição
A distribuição de amostras da mesma classe de padrões é relativamente concentrada, com nenhuma ou muito poucas amostras críticas. Essas classes de padrões são chamadas de conjuntos compactos.
natureza
Muito poucos pontos críticos
Uma linha que conecta dois pontos quaisquer em um conjunto Os pontos da linha pertencem ao mesmo conjunto.
Cada ponto do conjunto possui uma vizinhança grande o suficiente, e a vizinhança contém apenas pontos do mesmo conjunto.
Exigir
satisfaz a estanqueidade
semelhança
Expresse similaridade usando várias distâncias
Distância comum
Distância de Minkowski
Distância de valor absoluto ou distância urbana ou distância de Manhattan (q=1)
Distância euclidiana (q=2)
Distância do tabuleiro de damas ou distância de Chebyshev (q = ∞)
Distância Mahalanobis
onde a matriz de covariância e a média são
Padronização de dados
Propósito
Elimine o impacto do intervalo numérico entre cada componente no algoritmo
método
Padronize para [0,1] ou [-1, 1], padronização de variação
Fórmula
Normalização de recursos
Normalização de variância
Pré-processamento de dados
Por que fazer pré-processamento de dados?
não é bom
incompleto
Falta de valores apropriados durante a coleta de dados
Diferentes considerações durante a coleta e análise de dados
Problemas humanos/hardware/software
barulhento
Problemas com ferramentas de coleta de dados
Erro humano/computador durante a entrada de dados
Erros na transmissão de dados
Tipos de dados inconsistentes
diferentes fontes de dados
dependência funcional violada
bom
Correção: como se está correto, preciso ou não, etc.
Integralidade: se algum dado estiver faltando ou não puder ser obtido
Consistência: se alguns dados foram modificados, mas outros não
Confiabilidade: descreve o grau de confiança de que os dados estão corretos
Tarefa
Limpeza de dados
Preencha valores ausentes, suavize dados com ruído, identifique e remova valores discrepantes e resolva inconsistências
integração de dados
Integre vários bancos de dados, cubos de dados ou arquivos
Transformação e discretização de dados
Padronizar
Geração hierárquica de conceito
redução de dados
Redução de dimensão
Redução de quantidade
compressão de dados
Extração e seleção de recursos
Limpeza de dados
❑ Preencha os valores ausentes
razão
❑ Anormalidade no equipamento
❑ Excluído devido a inconsistência com outros dados existentes
❑ Dados que não foram inseridos devido a mal-entendidos
❑ Alguns dados não foram inseridos porque não foram levados a sério durante a inserção.
❑ Sem registro de alterações de dados
tratar
◼ Ignorar tuplas: Isso geralmente é feito quando o rótulo da classe está faltando (assumindo que a tarefa de mineração foi projetada para classificar ou descrever), quando a porcentagem de valores ausentes para cada atributo muda (a tarefa é projetada para classificar ou descrever), quando a porcentagem de valores faltantes para cada atributo varia muito, seu efeito é muito fraco.
"Class Label" (Class Label ou Target Label) geralmente se refere ao "rótulo usado para representar a classe ou grupo ao qual a amostra pertence" no conjunto de dados.
◼ Preenchimento manual de valores faltantes: carga de trabalho pesada e baixa viabilidade
◼ Preencha automaticamente os valores ausentes
❑ Use uma variável global: como desconhecido ou -∞
❑ Use médias de atributos
❑ Use a média ou mediana de todas as amostras pertencentes à mesma classe da tupla fornecida
❑ Preencha os valores ausentes com os valores mais prováveis: usando métodos baseados em inferência, como fórmula Bayesiana ou árvores de decisão
❑ Dados de ruído suave
razão
❑ Problemas com ferramentas de coleta de dados
❑ Erros de entrada de dados
❑ Erro de transmissão de dados
❑ Limitações técnicas
❑ Inconsistência nas regras de nomenclatura
tratar
descarte
Primeiro, classifique os dados e divida-os em caixas de igual profundidade. Em seguida, você pode suavizar pela média da caixa, suavizar pela mediana da caixa, suavizar pelo limite da caixa, etc.
operar
Compartimentação de profundidade igual
Suavização de valor limite: transforme todos os valores em valores máximos ou mínimos
Compartimento de largura igual
[110.155), esquerda fechada e direita aberta
agrupamento
Detecte e remova valores discrepantes por meio de clustering
retornar
Suavize os dados ajustando-os a uma função de regressão
❑ Identifique ou exclua valores discrepantes
❑ Resolver inconsistências nos dados
integração de dados
◼ Integração de dados:
❑ Consolide dados de diversas fontes de dados em um armazenamento consistente
◼ Integração de padrões:
❑ Integre metadados de diferentes fontes de dados
◼ por exemplo, A.cust_id = B.customer_no
◼ Problema de reconhecimento de entidade:
❑ Combine entidades do mundo real de diferentes fontes de dados
◼ por exemplo, Bill Clinton = William Clinton
◼ Detecte e resolva conflitos de valor de dados
❑ Para a mesma entidade no mundo real, os valores dos atributos de diferentes fontes de dados podem ser diferentes
❑ Possíveis razões: representação de dados diferente, medições diferentes, etc.
redução de dados
Propósito
◆A análise complexa de dados de conteúdo de banco de dados em grande escala geralmente leva muito tempo, tornando a análise de dados originais irrealista e inviável;
◆Redução de dados: A redução ou redução de dados visa reduzir o tamanho dos dados extraídos sem afetar os resultados finais da mineração.
◆ Técnicas de redução de dados podem ser utilizadas para obter uma representação reduzida do conjunto de dados, que é muito menor, mas ainda próximo de manter a integridade dos dados originais.
◆A mineração do conjunto de dados reduzido pode aumentar a eficiência da mineração e produzir os mesmos (ou quase os mesmos) resultados.
padrão
◆O tempo gasto na redução de dados não deve exceder ou “compensar” o tempo economizado na mineração do conjunto de dados reduzido.
◆Os dados obtidos por redução são muito menores que os dados originais, mas podem produzir resultados de análise iguais ou quase iguais.
método
◆Agregação de cubo de dados;
Agregue cubos de dados n-dimensionais em cubos de dados n-1-dimensionais.
◆Redução de dimensão (redução de atributos);
Encontre o conjunto mínimo de atributos para garantir que a distribuição de probabilidade do novo conjunto de dados seja o mais próximo possível da distribuição de probabilidade do conjunto de dados original.
PCA
◆Compressão de dados;
compressão sem perdas
Compressão com perda
◆Redução numérica;
Reduza o volume de dados escolhendo representações de dados menores e alternativas.
tipo
Histograma
agrupamento
amostragem
◆Discretização e geração hierárquica de conceitos.
Padronizar
normalização min-max
Deve estar correto
normalização de pontuação z (normalização de média zero)
Pode ser negativo
discretização
Propósito
A discretização de dados é o processo de dividir os valores dos dados contínuos em vários intervalos para simplificar a complexidade do conjunto de dados original.
tipo
Valores em um conjunto não ordenado, por exemplo, cor, ocupação;
Valores em um conjunto ordenado, por exemplo.
Valores contínuos; por exemplo, números reais
camadas de conceito
Análise de cluster
conceito
Pensamento
Classifique cada modelo classificado com base em uma determinada medida de similaridade.
Agrupe os semelhantes em uma categoria
algoritmo
Método de agrupamento simples baseado no limite de similaridade e no princípio da distância mínima
Um método de fusão contínua de duas categorias de acordo com o princípio da distância mínima
Método de agrupamento dinâmico baseado na função de critério
aplicativo
A análise de cluster pode ser usada como uma etapa de pré-processamento para outros algoritmos
Pode ser usado como uma ferramenta independente para obter a distribuição de dados
A análise de cluster pode completar a mineração de pontos isolados
Métodos de cluster baseados em partição
O método de particionamento consiste em dividir os objetos de dados em subconjuntos (clusters) não sobrepostos, de modo que cada objeto de dados esteja em exatamente um subconjunto.
Classificação
tipo de distância
Distância euclidiana
distância de Manhattan
Distância de Minkowski
A distância de Min não é uma distância, mas uma definição de um conjunto de distâncias.
Tipo de algoritmo
Algoritmo k-means (K-means)
Entrada: o número de clusters k e o banco de dados D contendo n objetos
Saída: k clusters minimizando o critério de erro quadrático.
Etapas do algoritmo
1. Determine um centro de cluster inicial para cada cluster, de modo que haja K centros de cluster iniciais. 2. As amostras no conjunto de amostras são atribuídas aos clusters vizinhos mais próximos de acordo com o princípio da distância mínima. 3. Use a média amostral em cada cluster como o novo centro do cluster. 4. Repita as etapas 2 e 3 até que o centro do cluster não seja mais alterado. 5. Ao final, são obtidos K clusters.
Características
vantagem
Simples e rápido
Escalável e eficiente
O efeito é melhor quando o conjunto de resultados é denso
deficiência
Só pode ser usado se a média do cluster estiver definida
k deve ser dado antecipadamente
É muito sensível ao valor inicial e afeta diretamente o número de iterações.
Não é adequado para encontrar clusters com formas não convexas ou clusters com tamanhos muito variados.
É sensível a "ruído" e dados atípicos
Melhorar
Algoritmo de modo k: realiza agrupamento rápido de dados discretos, mantém a eficiência do algoritmo k-means e expande o escopo de aplicação de k-means para dados discretos.
Algoritmo do protótipo k: pode agrupar dados que são uma mistura de atributos discretos e numéricos. No protótipo k, é definida uma métrica de dissimilaridade que calcula atributos numéricos e discretos.
Algoritmo k-Mediods (K-Mediods): O algoritmo k-means é sensível a pontos isolados. Para resolver este problema, ao invés de usar o valor médio do cluster como ponto de referência, pode-se escolher o objeto mais central do cluster, ou seja, o ponto central como ponto de referência. Este método de divisão ainda se baseia no princípio de minimizar a soma das dissimilaridades entre todos os objetos e seus pontos de referência.
Algoritmo k-medóides (ponto central K)
Entrada: o número de clusters k e um banco de dados contendo n objetos.
Saída: k clusters
Etapas do algoritmo
1. Determine um centro de agrupamento inicial para cada cluster, de modo que existam k centros de agrupamento iniciais. 2. Calcule as distâncias de todos os outros pontos aos k pontos centrais e considere o cluster mais curto de cada ponto aos k pontos centrais como o cluster ao qual ele pertence. 3. Selecione os pontos em ordem em cada cluster, calcule a soma das distâncias deste ponto a todos os pontos do cluster atual, e o ponto com a menor soma final da distância é considerado o novo ponto central. 4. Repita as etapas 2 e 3 até que os pontos centrais de cada cluster não mudem mais. 5. Finalizando, k clusters são obtidos.
Características
vantagem
O algoritmo K-medoids calcula o ponto com a menor soma de distâncias de um determinado ponto a todos os outros pontos. A influência de alguns dados isolados no processo de agrupamento pode ser reduzida calculando a menor soma de distâncias. Isto torna o efeito final mais próximo da divisão real.
deficiência
Comparado com o algoritmo K-means, ele aumentará o valor do cálculo em cerca de O(n). Portanto, em geral, o algoritmo K-medoids é mais adequado para operações de dados em pequena escala.
Algoritmo de cluster baseado em hierarquia
definição
Crie uma árvore agrupada de objetos de dados. Dependendo se a decomposição hierárquica é formada de baixo para cima ou de cima para baixo, ela pode ser dividida em agrupamento hierárquico aglomerativo e agrupamento hierárquico divisivo.
essencial
Como medir a distância entre dois clusters, onde cada cluster geralmente é um conjunto de objetos.
Classificação
Tipo de distância (método de medição de distância entre clusters)
Tipo de algoritmo
AGNES (agrupamento hierárquico aglomerativo)
definição
AGNES (agrupamento hierárquico aglomerativo) é uma estratégia bottom-up que primeiro trata cada objeto como um cluster e depois funde esses clusters atômicos em clusters cada vez maiores até que uma determinada condição terminal seja atendida.
Semelhança
A similaridade entre dois clusters é determinada pela similaridade dos pares mais próximos de pontos de dados nos dois clusters diferentes.
etapa
1. Trate cada objeto como um cluster inicial; 2. REPETIR; 3. Encontre os dois clusters mais próximos com base nos pontos de dados mais próximos nos dois clusters; 4. Mesclar dois clusters para gerar um novo conjunto de clusters; 5. UNTIL atinge o número de clusters definidos;
DIANA (cluster hierárquico dividido)
BIRCH (redução iterativa balanceada e agrupamento usando métodos hierárquicos)
método de agrupamento de densidade
essencial
Contanto que a densidade de pontos em uma área seja maior que um determinado valor limite, ela é adicionada a um cluster semelhante a ela.
Classificação
DBSCAN
essencial
Diferente dos métodos de particionamento e agrupamento hierárquico, ele define clusters como o maior conjunto de pontos conectados por densidade, pode dividir áreas com densidade suficientemente alta em clusters e pode encontrar clusters de formas arbitrárias em bancos de dados espaciais "ruidosos".
definição
ε-vizinhança de um objeto: A área dentro de um raio ε de um determinado objeto.
Objeto central (ponto central): Se a vizinhança ε de um objeto contém pelo menos o número mínimo de objetos MinPts, o objeto é chamado de objeto central.
Atingibilidade de densidade direta: Dado um conjunto de objetos D, se p está dentro da vizinhança ε de q, e q é um objeto central, dizemos que o objeto p é diretamente alcançável por densidade a partir do objeto q.
Acessibilidade de densidade: Se houver pontos centrais P2, P3,..., Pn, e a densidade de P1 a P2 for direta, e a densidade de P2 a P3 for direta,..., a densidade de P(n-1 ) para Pn é direto, e a densidade de Pn para Q é direta, então a densidade de P1 para Q é alcançável. A densidade atingível também não tem simetria.
Densidade conectada: Se houver um ponto central S tal que S a P e Q sejam ambos alcançáveis por densidade, então P e Q serão conectados por densidade. A conexão de densidade tem simetria. Se P e Q são conectados por densidade, então Q e P também devem ser conectados por densidade. Dois pontos densamente conectados pertencem ao mesmo cluster.
Ruído: Um cluster baseado em densidade é o maior conjunto de objetos conectados por densidade com base na alcançabilidade de densidade. Objetos que não estão incluídos em nenhum cluster são considerados “ruído”.
etapa
1) Se a vizinhança do ponto contém mais de pontos MinPts, é um ponto central, caso contrário, o ponto é temporariamente registrado como um ponto de ruído 2) Encontre todos os objetos com densidade alcançável a partir deste ponto para formar um cluster
Características
vantagem
O clustering é rápido e pode lidar com pontos de ruído com eficácia e descobrir clusters espaciais de formas arbitrárias.
deficiência
(1) Quando a quantidade de dados aumenta, é necessária mais memória para suportar o consumo de E/S, que também consome muitos dados; (2) Quando a densidade do agrupamento espacial é desigual e o espaçamento do agrupamento difere muito, a qualidade do agrupamento é ruim. (3) Existem dois parâmetros iniciais ε (raio da vizinhança) e minPts (número mínimo de pontos na vizinhança ε) que exigem que o usuário defina manualmente a entrada, e os resultados do agrupamento são muito sensíveis aos valores desses dois parâmetros Valores diferentes produzirão resultados de agrupamento diferentes.
ÓPTICA
DENCLUIR
Classificação Bayesiana
Baías ingénuas
O método Bayes é um método de classificação de padrões quando a probabilidade anterior e a probabilidade condicional de classe são conhecidas. O resultado da classificação da amostra a ser dividida depende do número total de amostras em vários campos.
Naive Bayes assume que todos os atributos de recursos são independentes uns dos outros, e é por isso que a palavra "ingênuo" no nome do algoritmo vem de
Na realidade, muitas vezes existem dependências entre atributos, mas o que é interessante é que mesmo quando a suposição de independência do algoritmo Naive Bayes obviamente não é verdadeira, ele ainda pode obter resultados de classificação muito bons.
Fórmula Bayesiana
taxa de erro mínima
Recursos são informações fornecidas
Categoria é o requisito final
Quando há vários atributos de recursos
significado
Probabilidade posterior P(cj |x)
Ou seja, a probabilidade de que cj seja verdadeiro quando dada uma amostra de dados x, e é nisso que estamos interessados (a ser calculado)
Cada P(xk|Ci) pode ser obtido através de conhecimento prévio Ou realize estatísticas por meio de conjuntos de amostras
Probabilidade anterior P(cj)
A probabilidade anterior P(Ci) pode ser obtida através do conhecimento prévio Ou realize estatísticas por meio de conjuntos de amostras
P(x) pode ser eliminado ou formulado
Simplificação
risco mínimo
tabela de decisão
Método de cálculo
Para cada decisão α, calcule separadamente
Tome a decisão com o menor risco condicional
método do vizinho mais próximo
Método do vizinho mais próximo/Método K do vizinho mais próximo
Propósito
Determinar a classificação de um ponto
Ideias
Encontre as k instâncias de treinamento mais próximas da nova instância no conjunto de dados de treinamento e, em seguida, conte a classe com o maior número de classes entre as k instâncias de treinamento recentes, que é a classe da nova instância.
processo
Calcule a distância entre cada ponto de amostra na amostra de treinamento e na amostra de teste (medidas de distância comuns incluem distância euclidiana, distância de Mahalanobis, etc.)
Classifique todos os valores de distância acima
Selecione as primeiras k amostras com a menor distância
Vote com base nos rótulos dessas k amostras para obter a categoria de classificação final
Escolha do valor k
Quanto menor o valor de k, mais complexo é o modelo e mais fácil é superajustá-lo. No entanto, quanto maior o valor de k, mais simples é o modelo. Se k = N, significa que não importa o ponto, é a classe. com o maior número de categorias no conjunto de treinamento. Portanto, k geralmente assumirá um valor menor e então usará a validação cruzada para determinar A chamada validação cruzada aqui é dividir uma parte da amostra em amostras de predição, como 95% de treinamento e 5% de predição, e então k leva 1, 2, 3, 4, 5 e similares, respectivamente, para prever e calcule o erro de classificação final. Escolha k com o menor erro.
a diferença
K-médias
O objetivo é dividir uma série de conjuntos de pontos em k categorias
K-Means é um algoritmo de agrupamento
Aprendizagem não supervisionada, agrupamento de dados semelhantes para obter classificação, sem classificação externa
O conjunto de dados de treinamento não tem rótulo e é confuso. Após o agrupamento, ele fica um tanto ordenado no início e depois ordenado.
Método do vizinho mais próximo/Método K do vizinho mais próximo
O objetivo é determinar a classificação de um ponto
KNN é um algoritmo de classificação
Aprendizagem supervisionada, a meta de classificação é conhecida antecipadamente
O conjunto de dados de treinamento possui rótulos e já contém dados completamente corretos.
Regras de associação
definição
conceito básico
Item: Por exemplo, cola, batata frita, pão, cerveja e fraldas são todos chamados de itens.
Seja I={i1, i2,…,im} o conjunto de todos os itens (Item).
A transação T é um registro de compra, e cada transação T possui um identificador único, registrado como Tid.
D é o conjunto de todas as transações.
Itemset é o conjunto que queremos estudar
O número de itens em um conjunto de itens é chamado de comprimento do conjunto de itens, e um conjunto de itens contendo k itens é chamado de K-itemset.
Regras de associação
Uma implicação lógica da forma A->B, onde nem A nem B estão vazios, e A⸦I, B⸦I e (A cruza B=vazio).
SuporteSuporte
Descreva a probabilidade de que os conjuntos de itens A e B apareçam simultaneamente em todas as transações D
S(A->B)=P(AB)=|AB|/|D|
O apoio é uma medida da importância das regras de associação
ConfiançaConfiança
Na coisa T em que o conjunto de itens A aparece, a probabilidade de que o conjunto de itens B também apareça ao mesmo tempo.
C(A->B)=P(B|A)=|AB|/|A|
A confiança é uma medida da precisão das regras de associação
Regras de associação fortes
As regras de associação segundo as quais D satisfaz o suporte mínimo e a credibilidade mínima em I são chamadas de regras de associação fortes.
Elevador
O grau de elevação indica quanta influência a aparência do conjunto de itens A tem na aparência do conjunto de itens B.
L(A->B)=P(AB)/(P(A)*P(B))
Maior que 1
Correlação positiva
igual a 1
Independente
Menos de 1
Correlação negativa
conjuntos de itens frequentes
Conjuntos de itens que satisfazem o suporte mínimo são chamados conjuntos de itens frequentes. O conjunto de k-itemsets frequentes é geralmente denotado Lk
Propósito
Encontre regras de associação fortes com base no suporte mínimo especificado pelo usuário e na confiança mínima
etapa
Encontre todos os conjuntos de itens frequentes ou os maiores conjuntos de itens frequentes, considerando o suporte mínimo do usuário
Encontre regras de associação em conjuntos de itens frequentes, dando credibilidade mínima ao usuário
algoritmo
Algoritmo a priori
O primeiro passo é recuperar todos os conjuntos de itens frequentes no banco de dados de transações por meio de iteração, ou seja, conjuntos de itens cujo suporte não seja inferior ao limite definido pelo usuário;
Itens frequentes: contando, contando S
A segunda etapa utiliza conjuntos de itens frequentes para construir regras que satisfaçam o nível mínimo de confiança do usuário.
Regras de associação: Contagem C
FP-Crescimento