MindMap Gallery Árvore de conhecimento de big data
Estrutura, conceitos e conteúdo de big data, usados para classificar a estrutura do conhecimento, incluindo plataforma hadoop, estrutura de data warehouse, hive, etc.
Edited at 2024-04-18 16:59:36Árvore de conhecimento de big data
Fontes de dados
Visão geral
interno
enterre o ponto
Visão geral
Comparado
processo
Dimensões
documento
Caso
externo
concorrentes
réptil
Departamento Nacional de Estatísticas
Fornecido por comerciantes amigáveis
Armazém de dados DW
Introdução
Data Warehouse (Data Warehouse), referido como DW. Como o nome sugere, um data warehouse é uma grande coleção de armazenamento de dados criada com a finalidade de relatórios analíticos empresariais e suporte a decisões para filtrar e integrar diversos dados de negócios. Ele fornece às empresas determinados recursos de BI (Business Intelligence) e orienta a melhoria dos processos de negócios.
efeito
armazenar
extrair
Aplicações interdepartamentais
recurso
Orientado por tópico
integrado
Estável e não é fácil de perder
refletir mudanças históricas
Ilustração
Comparar bancos de dados
base de dados
OLTP
Processamento de transações on-line
processamento de transações on-line
base de dados
OLAP
Processamento de transações on-line
Processamento analítico online
Tabela de comparação
Arquitetura
Metas de design
arquitetura em camadas
Gerenciamento de metadados
Gestão de dados
dados sujos
princípios de governação
Plataforma Hadoop
Introdução
Plataforma distribuída de armazenamento e computação para big data
vantagem
Alta fiabilidade
A capacidade do Hadoop de armazenar e processar dados bit a bit é digna de confiança
Alta escalabilidade
O Hadoop distribui dados e completa tarefas de computação entre clusters de computadores disponíveis. Esses clusters podem ser facilmente expandidos para milhares de nós.
Alta eficiência
O Hadoop pode mover dados dinamicamente entre nós e manter um equilíbrio dinâmico de cada nó, de modo que a velocidade de processamento é muito rápida
Alta tolerância a falhas
O Hadoop pode salvar automaticamente várias cópias de dados e redistribuir automaticamente tarefas com falha.
baixo custo
O Hadoop é de código aberto, portanto o custo do software do projeto pode ser bastante reduzido.
Ecosfera
Visão geral
Classificação
HDFS
nome completo
Sistema de arquivos distribuído Hadoop
princípio
Divida o arquivo em blocos de dados de tamanho fixo. O tamanho fixo padrão é 128 MB.
Armazenamento distribuído
Interface de acesso unificado
NomeNode
vantagem
Armazenamento distribuído
Suporta computação distribuída e paralela
Escalabilidade horizontal
componentes básicos
Cliente HDFS
Fornece comandos para gerenciar HDFS
NomeNode
Gerenciar metadados de todo o sistema de arquivos, responsabilidades do trabalho: gerenciar metadados, manter a estrutura de diretórios, responder às solicitações do cliente
DataNode
Copiar e gerenciar blocos de dados de arquivos do usuário, responsabilidades do trabalho: gerenciar dados enviados pelo usuário, mecanismo de pulsação, relatório de bloco
SecondaryNameNode
O assistente do NameNode ajuda a carregar metadados e pode ajudar a restaurar dados em situações de emergência (como tempo de inatividade do NameNode)
Quatro mecanismos principais
mecanismo de batimento cardíaco
Estrutura mestre/escravo
Mestre
NomeNode
Escravo
DataNode
O intervalo de tempo padrão para o DataNode enviar solicitações ao NameNode é 3s
Se o NameNoder não receber a pulsação do DataNode por um longo período, ele também enviará solicitações ao DataNode a cada 5 minutos, duas vezes no total.
modo de segurança
Quando o cluster HDFS é inicializado a frio normalmente, o NameNode permanecerá no estado de modo de segurança por um longo período de tempo. Apenas espere que ele saia automaticamente do modo de segurança.
Estratégia de armazenamento de cópias
Os dados de cada arquivo são armazenados em blocos. Cada bloco de dados é salvo em múltiplas cópias. Essas cópias de blocos de dados são distribuídas em diferentes nós da máquina.
balanceamento de carga
A diferença entre o valor de maior capacidade da máquina e o valor de menor capacidade não poderá ultrapassar 10%.
Ilustração
MapaReduzir
efeito
Computação distribuída
Estratégia
dividir e conquistar
ideia
O cálculo se aproxima dos dados em vez de os dados se aproximarem do cálculo
princípio
Mapa
Divida uma tarefa em múltiplas tarefas
Reduzir
Resuma os resultados da multitarefa decomposta para obter os resultados finais da análise
Ilustração
Estratificação de data warehouse
beneficiar
estrutura clara
Cada camada de dados tem seu escopo e responsabilidades, o que facilita a localização e a compreensão ao usar tabelas.
Reduzir o desenvolvimento
Padronize a estratificação de dados e desenvolva alguns dados comuns de nível intermediário, o que pode reduzir enormes cálculos repetidos.
Uma voz
Através da camada de dados, é fornecida uma exportação unificada de dados e o calibre dos dados é unificado para saída externa.
Simplifique o problema
Divida uma tarefa complexa em várias etapas para ser concluída, com cada camada resolvendo um problema específico
estrutura
Caso
Armazém de dados de site de comércio eletrônico
colmeia
origem
Hive é uma ferramenta de data warehouse baseada em Hadoop desenvolvida pelo Facebook para resolver a análise estatística de dados de log massivos (posteriormente de código aberto para a Apache Software Foundation)
Função
Pode mapear arquivos de dados estruturados em uma tabela de banco de dados e fornecer funções de consulta semelhantes a SQL
Características
O próprio Hive não suporta armazenamento e processamento de dados, é apenas uma interface de programação orientada ao usuário
O Hive depende do sistema de arquivos distribuído HDFS para armazenar dados
O Hive depende do modelo de computação paralela distribuída MapReduce para processar dados
Projetei uma nova linguagem de consulta HiveQL baseada na linguagem SQL
Princípio de consulta