Galeria de mapas mentais Mapa mental de tecnologia de mineração e análise de dados
Um processo de computação que usa métodos como inteligência artificial, aprendizado de máquina e estatística para extrair padrões ou conhecimentos úteis e anteriormente desconhecidos de grandes quantidades de dados.
Editado em 2021-12-27 22:46:49Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Tecnologia de mineração e análise de dados
Capítulo 1 Visão Geral da Mineração de Dados
Entenda antes da aula
resumo
aprendizado de máquina
Procedimentos operacionais
importação de dados
Pré-processamento de dados
engenharia de recursos
Dividir
Modelo de treinamento
Modelo de avaliação
Preveja novos dados
IA
Características do big data
Bastante
Diversificado
alta velocidade
valor
1.1 Introdução à Mineração de Dados
definição
Um processo de computação que usa métodos como inteligência artificial, aprendizado de máquina e estatística para extrair padrões ou conhecimentos úteis e anteriormente desconhecidos de grandes quantidades de dados.
fundo
A quantidade de dados expandiu-se dramaticamente, dando origem a novas direções de investigação: descoberta de conhecimento baseada em bases de dados e investigação sobre teorias e tecnologias de mineração de dados correspondentes.
O próximo hotspot tecnológico depois da Internet
Embora uma grande quantidade de informações traga comodidade às pessoas, também traz muitos problemas.
Muita informação e difícil de digerir
É difícil distinguir a autenticidade da informação
A segurança da informação é difícil de garantir
A informação vem em diferentes formas e é difícil de processar uniformemente
Dados explosivos, mas pouco conhecimento
A evolução dos dados de negócios para informações de negócios
Coleta de dados → acesso a dados → data warehouse, suporte à decisão → mineração de dados (fornecendo informações preditivas)
estágio
Pré-processamento de dados
Limpar, integrar, selecionar, transformar
mineração de dados
avaliação do modelo
processo
dados, informações, conhecimento
dados
"8.000m", "10.000m"
Produzidas a partir da observação e medição de coisas objetivas, chamamos as coisas objetivas em estudo de entidades
Informação
"8.000m é a altitude máxima para voo de aeronave", "10.000m de montanha alta"
Conhecimento
“Os aviões não podem escalar esta montanha”
sabedoria
conteúdo principal
Mineração de regras de associação
cerveja e fraldas
aprendizado de máquina supervisionado
Previsão de rótulo discreto – classificação de rótulo
Predição Contínua de Etiquetas – Predição Numérica
Aprendizado de máquina não supervisionado – clustering (algoritmo de similaridade)
retornar
Estabeleça relações quantitativas entre múltiplas variáveis
Classificação de algoritmos
aprendizagem supervisionada
Aprenda uma função (modelo) a partir dos dados de treinamento fornecidos. Quando novos dados chegam, o resultado pode ser previsto com base nesta função (modelo).
Os dados de treinamento têm identificação ou resultados claros
Algoritmo de regressão, rede neural, máquina de vetores de suporte SVM
Algoritmo de regressão
regressão linear
Lide com problemas numéricos e o resultado final da previsão será um número, como: preço da casa
regressão logística
Pertence a um algoritmo de classificação, como: determinar se um e-mail é spam
Redes neurais
Aplicado ao reconhecimento visual e reconhecimento de fala
Algoritmo de máquina de vetores de suporte SVM
Aprimoramento do algoritmo de regressão logística
aprendizagem não supervisionada
Os dados de treinamento não são rotulados especificamente
Algoritmo de agrupamento, algoritmo de redução de dimensionalidade
Algoritmo de agrupamento
Calcule a distância na população e divida os dados em múltiplas populações com base na distância
Algoritmo de redução de dimensionalidade
Reduza os dados de alta dimensionalidade para baixa dimensionalidade A dimensão representa o tamanho da quantidade de recursos dos dados. Por exemplo: o preço da casa contém as quatro características de comprimento, largura, área e número de cômodos da casa. , a dimensão são dados quadridimensionais e os fatos de comprimento e largura. As informações acima se sobrepõem às informações representadas por área = comprimento × largura. As informações redundantes são removidas por meio da redução da dimensionalidade.
Compacte dados e melhore a eficiência do aprendizado de máquina
Aplicativos de dados corporativos
aprendizagem semi-supervisionada
Como usar um pequeno número de amostras rotuladas e um grande número de amostras não rotuladas para problemas de treinamento e classificação
Identificação de imagem
aprendizagem por reforço
Os sujeitos que aprendem fazem julgamentos com base no feedback do ambiente observado
Controle do robô
1.2 Processos e métodos básicos de mineração de dados
método básico
Mineração Preditiva
Extrapole os dados atuais para fazer previsões
mineração descritiva
Caracterizar as características gerais dos dados da base de dados (correlação, tendência, agrupamento, anomalia...)
Fluxograma de mineração de dados
Principais métodos de mineração de dados no Sexto Ensino Médio (P6)
Resumo resumido do conjunto de dados
Regras de associação de dados
Uma forma de descrever conexões potenciais entre dados, geralmente representadas pela implicação A-B
Classificação e previsão
agrupamento
Detecção heterogênea
modelo de série temporal
1.3 Aplicação de mineração de dados
Negócios
Saúde e Medicina
banca e seguros
mídia social
ferramenta
Weka, matlab, Java
Informação relevante
sub tópico
Capítulo 2 Descrição e visualização de dados
2.1 Visão geral
Analise atributos e valores de dados → descrição e visualização de dados
2.2 Objetos de dados e tipos de atributos
conjunto de dados
Composto por objetos de dados
Banco de dados de vendas: clientes, itens da loja, vendas Banco de dados médico: paciente, informações de tratamento Banco de dados universitário: aluno, professor, informações do curso
objeto de dados
Um objeto de dados representa uma entidade
Conhecido como: amostra, exemplo, instância, ponto de dados, objeto, tupla
Atributos
uma característica de um objeto de dados
O termo
Banco de dados: Dimensão
Aprendizado de máquina: recursos
Estatísticas: Variáveis
Mineração de dados, bancos de dados: propriedades
Classificação
Propriedades nominais
Valores de atributos nominais são alguns símbolos ou nomes de coisas que representam categorias e nomes
Atributo nominal: cor do cabelo, valores possíveis: preto, branco, castanho Atributo nominal: Estado civil, valores possíveis: casado, solteiro, divorciado, viúvo
Atributos binários (atributos nominais especiais)
Existem apenas duas categorias e status
binário simétrico
A diferença no tamanho dos dados é pequena Exemplo: Gênero - masculino, feminino
binário assimétrico
O tamanho dos dados varia muito Exemplo: Exame médico – negativo, positivo
propriedades ordinais
Existe uma ordem, mas a diferença entre eles é geralmente usada para classificação.
Título de professor, posto militar, satisfação do cliente
Propriedades numéricas
propriedades de escala de intervalo
Medido sequencialmente em unidade de comprimento
Propriedades de escala proporcional
Tem ponto zero fixo, é ordenado e pode calcular múltiplos
Atributos discretos e contínuos
2.3 Descrição estatística básica dos dados
medida de tendência central
média, mediana, moda
Difusão de dados métricos
Intervalo, quartil, intervalo quartil
Resumo de cinco números, box plots e outliers
Variância, desvio padrão
Representação gráfica de estatísticas básicas de dados
Gráfico de quantil
Quantil - gráfico de quantil
Histograma
Altura - quantidade, frequência
Gráfico de dispersão
Descubra correlações entre atributos
2.4 Visualização de dados
definição
Expresse dados de forma eficaz por meio de gráficos
Três métodos de visualização
Boxplot (boxplot)
Analise as diferenças de dispersão de dados de múltiplos atributos
Pode exibir a distribuição de dados e exibir valores discrepantes (precisa ser excluído)
Histograma
Analise a distribuição de alterações de um único atributo em vários intervalos
Gráfico de dispersão
Exibir a distribuição de correlação entre dois conjuntos de dados
2.4.1 Visualização baseada em pixels
Uma forma simples de visualizar valores unidimensionais é utilizar pixels, cuja cor reflete o valor daquela dimensão
Adequado para valores unidimensionais, não adequado para distribuição de dados espaciais multidimensionais
2.4.2 Visualização da projeção geométrica
Ajude os usuários a descobrir projeções de dados multidimensionais O principal desafio da tecnologia de projeção geométrica é descobrir como visualizar o espaço de alta dimensão em duas dimensões.
Para pontos de dados bidimensionais, geralmente é usado um gráfico de dispersão do sistema de coordenadas cartesianas. Diferentes cores ou formas podem ser usadas no gráfico de dispersão como a terceira dimensão dos dados.
(Usado para conjuntos de dados tridimensionais) Gráficos de dispersão, matrizes de gráficos de dispersão e visualização de coordenadas paralelas (quando o número de dimensões é grande)
2.4.3 Visualização baseada em ícones
Representa valores de dados multidimensionais com um pequeno número de ícones
Dois métodos de ícones comumente usados
Cara de Tchernov (permite visualização em até 36 dimensões)
Revele tendências em dados
Elementos como olhos, boca e nariz do rosto usam diferentes formas, tamanhos, posições e direções para representar valores de dimensão.
Cada face representa um ponto de dados n-dimensional (n≤18), e o significado de várias características faciais é compreendido através da identificação de pequenas diferenças nas faces.
desenho de linha de personagem
2.4.4 Visualização hierárquica
Divida todas as dimensões em subconjuntos (ou seja, subespaços) e visualize esses subespaços hierarquicamente
Dois métodos de visualização hierárquica comumente usados
Hierarquia de subconjunto do eixo X do eixo Y
gráfico numérico
2.4.5 Visualizando objetos e relacionamentos complexos
Nuvem de tags
2.5 Medição de similaridade e dissimilaridade de dados
conceito
Semelhança
Mede o quão semelhantes são dois objetos de dados. Quanto maior o valor, mais semelhantes eles são.
Dissimilaridade
Mede o grau de diferença entre dois objetos de dados. Quanto menor o valor, mais semelhantes são os dados. A dissimilaridade mínima geralmente é 0.
Proximidade
Refere-se à semelhança ou dissimilaridade
Fornece duas estruturas de dados
Matriz de Dados (Objeto - Matriz de Atributos)
Armazene n objetos de dados, cada n objeto de dados possui n linhas e p características de atributos possuem p colunas)
Matriz de Dissimilaridade (Objeto - Matriz de Objeto)
Valor de dissimilaridade usado para armazenar objetos de dados
Geralmente uma matriz triangular
Medida de proximidade para atributos nominais
Medida de proximidade para atributos binários
Dissimilaridade em atributos numéricos
Vários métodos comuns para calcular medidas de distância para a dissimilaridade de objetos de atributos numéricos
Distância euclidiana
distância de Manhattan
Ou e Man satisfazem simultaneamente as seguintes propriedades
Distância de Minkowski
Promoção de Ouyuman
distância suprema
dá o valor máximo da diferença entre objetos
Medidas de proximidade para atributos ordinais
Dissimilaridade de atributos mistos
Cada tipo de atributos é dividido em um grupo e a análise de mineração de dados (como análise de cluster) é realizada em cada tipo. Se essas análises obtiverem os mesmos resultados, o método funciona, mas em aplicações práticas é difícil obter os mesmos resultados para cada classificação de tipo de atributo.
Uma abordagem melhor: basta fazer uma única análise, combinar os diferentes atributos em uma única matriz de dissimilaridade e transformar os atributos em um intervalo comum [0,0,0,1]
exemplo
sub tópico
Semelhança de cosseno (basta entender)
Recuperação de texto, mineração de informação biológica
Vetor de documento, vetor de frequência de palavras
Os vetores de frequência são geralmente longos e esparsos (têm muitos valores 0)
Capítulo 7 Máquina de Vetores de Suporte
Classificação de máquinas de vetores de suporte
Problema de classificação binária linear
Encontre o hiperplano ideal
Capítulo 6 Classificação e Predição
6.1 Classificação dos dados
variável contínua
altura peso
Variáveis categóricas
Variável categórica não ordenada
Classificação ordenada
Métodos gerais para classificação de dados
Classificação, ordenação, distância, proporção
6.2 Modelo de árvore de decisão
Gerar árvore de decisão
Podar árvore de decisão
6.2.1 Como funcionam as árvores de decisão
6.3 Modelo de classificação bayesiana
hipótese máxima a posteriori
O aluno seleciona a hipótese mais provável h do conjunto de hipóteses candidatas H quando dados os dados D. h é chamada de hipótese posterior máxima.
Precisa pedir probabilidade conjunta
Geralmente é assumido que cada atributo é distribuído de forma independente e idêntica
Antes disso, cálculos de correlação e fusão devem ser realizados para minimizar a correlação entre atributos.
Características
Os atributos podem ser discretos ou contínuos
Base matemática sólida e eficiência de classificação estável
Não é sensível a dados ausentes, ruidosos e valores discrepantes
Se os atributos não forem relevantes, o efeito de classificação é muito bom
6.4 Modelo discriminante linear
6.5 Modelo de regressão logística
6.6 Avaliação e seleção de modelos
Capítulo 5 Mineração de regras de associação
5.1 Visão Geral
conceito
A mineração de regras de associação é usada para extrair a correlação entre conjuntos de itens no banco de dados de transações e extrair todas as regras de associação que atendem aos requisitos mínimos de suporte e confiança.
As regras de associação são usadas para encontrar dependências potencialmente úteis entre itens de dados em grandes quantidades de dados.
conjuntos de itens frequentes
Conjunto de itens que satisfaz suporte mínimo e credibilidade mínima
Apoiar
Credibilidade
Regras fortes
Regras que atendem ou excedem o suporte e a confiança mínimos
Principais etapas da mineração de dados
No conjunto de itens de big data, encontre o número de ocorrência ≥ conjunto de itens frequentes
A partir dos conjuntos de itens frequentes obtidos acima, estabeleça regras de associação que atendam às condições mínimas de suporte e credibilidade.
5.2 Classificação
5.3 Etapas da pesquisa
5.4 Análise de algoritmo a priori
5.6 Generalização das Regras de Associação (GRI)
primeira pesquisa em profundidade
5.7 Exploração aprofundada das regras de associação
Capítulo 4 Redução de Dados (Redução de Dados)
4.1 Visão geral da manutenção
Simplifique os dados ao máximo, mantendo a aparência original dos dados
4.2 Seleção de atributos e redução numérica
Critérios de avaliação de atributos (P58)
medição de consistência
O grau de consistência entre dois atributos
O grau de consistência entre o nível de educação e o nível VIP
medição de correlação
A correlação entre diferentes atributos refere-se à relação entre eles
Correlação entre nível de escolaridade e nível VIP
Quanto maior a correlação entre dois atributos, maior será a precisão de inferir o valor de um atributo a partir do valor do outro atributo.
Medição da capacidade de discriminação
A capacidade de um determinado atributo distinguir registros no banco de dados
medição de informação
Quanto maior a quantidade de informação que um atributo contém, mais importante ele é
A quantidade de informação é geralmente medida pela "entropia da informação"
Método de seleção de subconjunto de atributos
Selecione avançar passo a passo
Definir propriedade de destino definida como vazia
Cada iteração seleciona o melhor atributo dos atributos restantes no conjunto de dados original e o adiciona ao conjunto de atributos de destino.
Remova o atributo do conjunto de dados original
Repita este processo até que a meta definida atenda aos requisitos
seleção passo a passo para trás
Primeiro atribua o conjunto de atributos original ao conjunto de atributos não-alvo
Em cada iteração, o atributo com a pior pontuação abrangente é eliminado do conjunto de atributos alvo.
Repita esse processo até que o conjunto de atributos de destino atenda aos requisitos
redução numérica
Transforme propriedades em variáveis para reduzir sua faixa dinâmica
Transformação de função simples
Padronização de dados
Discretize atributos e codifique-os com números inteiros
Discretização de largura igual, discretização de profundidade igual
Binarize o atributo para que ele tenha apenas dois valores
Se o valor do atributo for um sinal ou imagem, a codificação de compressão também poderá ser realizada
4.3 Regressão linear
definição
É o estudo da relação entre uma única variável dependente e uma ou mais variáveis independentes
utilidade
A previsão refere-se ao uso de variáveis observadas para prever variáveis dependentes
A análise causal trata a variável independente como a causa da variável dependente.
regressão linear
Regressão múltipla
regressão não linear
Dados de modelo que não possuem dependências lineares
Use o método de modelagem de regressão polinomial e, em seguida, execute a transformação de variáveis para converter o modelo não linear em um modelo linear e, em seguida, resolva-o usando o método dos mínimos quadrados
4. 4 Análise de Componentes Principais (Análise de Componentes Principais PCA)
Métodos comumente usados para redução de dimensionalidade de dados de alta dimensão
Faça uma combinação linear de variáveis originais e reflita todas ou a maior parte das informações da quantidade original por meio de algumas variáveis combinadas.
A variável combinada é o componente principal
Capítulo 3 Coleta e pré-processamento de dados (limpeza, integração, redução, transformação)
3.1 Visão geral
Características da coleta de big data
A primeira etapa no ciclo de vida do big data
Comparado com os dados tradicionais, o big data é massivo, diverso e heterogêneo.
Da coleta ao processamento, o big data precisa pesar consistência, disponibilidade e tolerância a falhas de partição.
Métodos de coleta de big data (entenda)
Coleta de logs de sistemas distribuídos
Coleta de dados de rede
Rastreador da Web, API pública de site (interface de programação de aplicativo)
Inspeção profunda de pacotes DPI
Inspeção de profundidade/fluxo dinâmico DFI
Coleta de dados de interface de sistema específica
3.2 Finalidade e tarefas do pré-processamento de dados
Propósito
Melhore a qualidade dos dados
missão principal
Limpeza de dados
Esclareça ruídos nos dados e corrija inconsistências
integração de dados
Consolide dados de diversas fontes de dados em um armazenamento de dados consistente, como um data warehouse
Transformação de dados (como normalização)
Compactar dados em intervalos menores
3.3 Limpeza de dados
A essência é um processo de modificação do modelo de dados
Caminho de limpeza de dados (entenda)
1. Limpeza de valor ausente
Remover valores ausentes
imputação média
método de preenchimento de cartão quente
método de preenchimento de decisão de distância mais próxima
imputação de regressão
método de imputação múltipla
k—método do vizinho mais próximo
Abordagem baseada Bayesiana
2. Limpeza de outliers (outliers, valores selvagens)
Definição e identificação de outliers
Tratamento de valores discrepantes
3. Limpeza de conteúdo de formato
4. Limpeza de erros lógicos
Remover duplicatas
Remova valores irracionais
5. Limpeza de dados não necessária
6. Verificação de relevância
3.4 Integração de dados
conceito
Integração de dados no sentido tradicional
Combine dados de vários armazenamentos de dados e armazene-os em um único armazenamento de dados, como um data warehouse
Integração de dados em um sentido geral
ETL — Extrair, transformar, carregar (para o destino) É uma parte importante da construção de um data warehouse
O usuário extrai os dados necessários da fonte de dados, limpa os dados e, finalmente, carrega os dados no data warehouse de acordo com o modelo de data warehouse predefinido.
Importância dos modelos
Padronize a definição de dados para obter codificação, classificação e organização unificadas
A redundância de dados geralmente ocorre ao integrar vários bancos de dados
Detectar atributos redundantes
análise de correlação
variáveis discretas
Teste qui-quadrado
Quanto maior o valor, mais relevante ele é
variável contínua
Coeficiente de correlação
Igual a 1, -1, completamente relacionado linearmente
Maior que 0, correlação positiva
Igual a 0, não há correlação linear
Menos que 0, correlação negativa
análise de covariância
Maior que 0, correlação positiva
igual a 0, independência
Alguns dados têm covariância 0, mas não são independentes
Menos que 0, correlação negativa
Estratégia de redução de dados
Redução de dimensionalidade
Cenários que exigem redução de dimensionalidade
Os dados são esparsos e têm dimensões altas
Dados de alta dimensão adotam um método de classificação baseado em regras
Use modelos complexos (como aprendizado profundo), mas o número de conjuntos de treinamento é pequeno
Precisa visualizar
Método típico de redução de dimensionalidade - análise de componentes principais PCA
introduzir
Existem algumas correlações entre muitos atributos nos dados.
Você consegue encontrar uma maneira de combinar vários atributos relacionados para formar apenas um atributo?
conceito
Combine vários atributos originais com certas correlações (como atributos p) em um conjunto de atributos abrangentes não relacionados para substituir os atributos originais. Normalmente, o tratamento matemático consiste em combinar linearmente os atributos originais de p como os atributos abrangentes do peticionário.
Por exemplo: desempenho dos alunos, língua, matemática, relações exteriores, história, geografia, etc. são divididos em dois atributos: artes liberais e ciências.
Redução de dados - amostragem
compressão de dados
Reduza o tamanho dos dados reduzindo sua qualidade, como pixels
3.5 Transformação de dados
Estratégia de transformação de dados
Suavidade, construção de atributos, agregação, normalização, discretização, camadas de conceito
Métodos de transformação de dados comumente usados
Transforme dados por meio da normalização
discretização por binning
Discretização por binning de histograma
Discretização através de clustering, árvores de decisão e análise de correlação
Estratificação conceitual de dados nominais
discretização
método de largura igual
Método de frequência igual
método de agrupamento