Galeria de mapas mentais Teoria e prática da ciência de dados, Capítulo 4
Ciência de dados e estrutura de big data, ciência de dados e cadeia da indústria de big data fornecem suporte técnico para análise de big data, incluindo plataforma de análise de dados, plataforma de ciência de dados, análise social, recursos de aprendizado de máquina, etc.; Incubadoras, escolas e instituições de pesquisa.
Editado em 2023-10-21 15:49:41Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
Tecnologia e ferramentas
Sistema de tecnologia de ciência de dados
a infraestrutura
Fornece cálculo de dados, gerenciamento e monitoramento de dados, etc.
ferramenta de análise
A ciência de dados e a cadeia da indústria de big data fornecem suporte técnico para análise de big data, incluindo plataforma de análise de dados, plataforma de ciência de dados, análise social, aprendizado de máquina, etc.
Aplicações Enterprise
As organizações fornecem tecnologias ou ferramentas de aplicação de nível empresarial, incluindo vendas e marketing, atendimento ao cliente, capital humano e outros serviços específicos.
Aplicação na indústria
Resolva problemas comuns do setor e forneça uma plataforma tecnológica para aplicações empresariais
Infraestrutura multiplataforma e ferramentas analíticas
Fornece infraestrutura multiplataforma e ferramentas de análise multiplataforma, como Microsoft, etc.
Ferramentas de código aberto
Estrutura de design técnico, fluxo de dados de consulta, coordenação de acesso a dados, processamento de fluxo, ferramentas estatísticas, inteligência artificial, aprendizado de máquina, aprendizado profundo, análise de log de pesquisa, visualização, colaboração e segurança
Fonte de dados e APP
Saúde, Internet das Coisas, Finanças e Economia, etc.
Recursos de dados
Os recursos de dados representam as instituições que geram os dados, incluindo incubadoras, escolas e instituições de pesquisa.
MapaReduzir
Um modelo de computação distribuída
função de mapa
A função de mapa definida pelo usuário recebe os pares de valores-chave nos dados de entrada e, após o cálculo pela função de mapa, um conjunto de pares de valores-chave intermediários é obtido.
reduzir função
A função de redução definida pelo usuário recebe um valor-chave intermediário e um conjunto relacionado de valores de valor.
Os três principais artigos do Google
Processo de implementação
Principais características
Executar como uma estrutura mestre-escravo
Processamento de dados entre função de mapa e função de redução
Processamento aleatório
processamento combinador
função de partição
Entrada e saída do tipo de valor-chave
A complexidade dos mecanismos de tolerância a falhas
Falha do trabalhador
Falha mestre
Diversidade de locais de armazenamento de dados
Arquivo fonte:GFS
Resultados do processamento de mapas: armazenamento local
Reutilizar resultados de processamento: GFS
Registro:GFS
A importância da granularidade da tarefa
A necessidade do mecanismo de backup de tarefas
Principais tecnologias
função de partição
função combinadora
Ignorar registros corrompidos
execução local
informações de status
contador
Implementação e melhoria do MapReduce
MRv1
modelo de programação
mecanismo de processamento de dados
ambiente de execução
Má expansão
Fraca confiabilidade
Baixa utilização de recursos
Incapaz de suportar múltiplas estruturas de computação
Hadoop
Apache fornece um conjunto completo de bibliotecas de sistema de código aberto para computação distribuída e escalonável confiável
Hadoop MapReduce
Operação
Envio de tarefas
Inicialização do trabalho
Atualizações de processo e status
conclusão do dever de casa
Tarefa
atribuição de tarefas
execução de tarefas
jobTracker e TaskTracker
fatia de entrada
Otimização da localização de dados
Cliente envia tarefa MapReduce
JobTracker coordena a execução de jobs
TaskTracker executa as tarefas divididas
HDFS é usado para compartilhar arquivos de trabalho entre outras entidades
HDFS
Suporta arquivos muito grandes
Baseado em hardware comercial
Acesso a dados de streaming
Alto rendimento
Colmeia
Ele pode mapear arquivos de dados estruturados em uma tabela de banco de dados, fornecer funções simples de consulta HiveQL e converter instruções HiveQL em tarefas MapReduce para execução.
Porco
Linguagem Pig Latin, uma linguagem de descrição para análise de dados
Fácil de programar
Fácil de otimizar
flexibilidade
Ambiente de execução Pig
Mahout
Fornece algoritmos escalonáveis de aprendizado de máquina e sua implementação
HBase
Banco de dados de esquema dinâmico escalonável, altamente confiável, de alto desempenho, distribuído e orientado a colunas para dados estruturados
Modelo lógico HBase
Modelo físico HBase
Funcionário do zoológico
simplicidade
auto-replicação
acesso sequencial
leitura em alta velocidade
Flume
Alta fiabilidade
Escalabilidade
Apoie o gerenciamento conveniente
Suporte à personalização do usuário
Sqoop
Fagulha
Uma breve história com o Hadoop
Característica principal
alta velocidade
Versatilidade
Fácil de usar
Estrutura técnica
gestão de recursos
Camada central de faísca
camada de serviço
Processo básico
Gerenciamento de cluster
Principais tecnologias
RDD
um conjunto de partições
Uma função que calcula cada partição
confiar
Local preferido
Particionador
Transformação
Ação
Agendador
DAGScheduler é responsável por criar planos de execução
TaskScheduler é responsável por alocar tarefas e agendar a execução de Workers
Embaralhar
SparkR
Mapeamento de tipo de dados
Redefinição do processo de sessão
Forneça várias APIs
Suporta funções de execução distribuídas personalizadas
Suporta uma variedade de ambientes de edição e execução de código R
Arquitetura lambda
NoSQL e NewSQL
Vantagens e desvantagens dos bancos de dados relacionais
Alta consistência de dados
Baixa redundância de dados
Fortes capacidades de consulta complexa e alta maturidade do produto
Tecnologia NoSQL
Fácil descentralização do armazenamento e processamento de dados
O custo das operações frequentes de dados é baixo e o simples processamento de dados é altamente eficiente.
Adequado para cenários de aplicação onde os modelos de dados estão em constante mudança
nuvem de relacionamento
modelo de dados
Distribuição de dados
Fragmentação
Mesa grande
replicação mestre-escravo
Replicação ponto a ponto
a consistência dos dados
consistência fraca
consistência eventual
consistência de atualização
Consistência de leitura e gravação
consistência da sessão
Teoria CAP e princípios BASE
aplicativo
Um sistema distribuído não pode atender aos requisitos de consistência, disponibilidade e tolerância de partição ao mesmo tempo. Ele só pode atender no máximo duas dessas características ao mesmo tempo.
Princípio BASE
Em aplicações práticas do NoSQL, a consistência e a disponibilidade precisam ser ponderadas
Visualizações e visualizações materializadas
visão materializada
Evento desencadeado
tempo acionado
Visualização materializada no estágio Mapa
Visão materializada da fase Reduzir
Carimbo de transação e versão
atualização de condição
carimbo de versão
Produtos típicos
R e Python
A linguagem R suporta cálculos vetorizados
Chame serviços de nível profissional para tarefas de ciência de dados por meio do pacote R da linguagem R
Os desenvolvedores dos pacotes R convencionais são todos especialistas em estatística, aprendizado de máquina e outras áreas de dados.
Integração de data lake e lake warehouse
Data lake é uma abordagem que enfatiza o armazenamento de dados em um formato natural e oferece suporte à configuração de dados em vários esquemas e estruturas.
base de dados
lago de dados
Armazém de Data Lake
tendência de desenvolvimento
Tendências de desenvolvimento da camada de computação de dados
Venda de software, produtos de hardware ou recursos de informação aos usuários
Responsável por gerenciar e manter seus equipamentos de software e hardware ou recursos de informação em nome dos usuários
Tendências de desenvolvimento em gerenciamento de dados
De perfeccionista em gerenciamento de dados a realista
Do Schema First ao Schema First, Schema Later e Schemaless coexistem.
Do foco no processamento complexo à ênfase no processamento simples
Da busca por uma consistência forte à compreensão diversificada da consistência dos dados
Desde enfatizar os efeitos negativos da redundância de dados até enfatizar os efeitos positivos da redundância de dados
Da busca pela taxa de recall e taxa de precisão à ênfase na velocidade de resposta à consulta
A transição de sistemas de gerenciamento de banco de dados como produto para sistemas de gerenciamento de banco de dados como serviço
Da padronização da tecnologia de gerenciamento de dados à diversificação da tecnologia de gerenciamento de dados
Da dependência exclusiva de uma única tecnologia à integração de múltiplas tecnologias
Plataforma de ciência de dados
O que é computação em nuvem
Economia
Computação forte
serviços sob demanda
Virtualização