Galeria de mapas mentais Engenheiro de Governança de Dados DAMA-CDGA-14.
Big Data e Ciência de Dados: O desejo de aproveitar oportunidades de negócios a partir de conjuntos de dados gerados por múltiplos processos é o maior impulsionador de negócios para melhorar as capacidades de big data e ciência de dados de uma organização.
Editado em 2024-03-05 20:32:22Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
14. Big data e ciência de dados
introdução
Big data não se refere apenas à grande quantidade de dados, mas também à variedade de dados e à rápida velocidade de geração de dados.
O BI tradicional de business intelligence fornece relatórios do tipo "espelho retrovisor", mostrando tendências passadas por meio da análise de dados estruturados.
Em alguns casos, os modelos de BI são usados para prever o comportamento futuro, mas não possuem alta confiança
Se quiser aproveitar as vantagens do big data, você deve mudar a forma como gerencia os dados
A maioria dos data warehouses é baseada em modelos relacionais, enquanto o big data geralmente não usa modelos relacionais para organizar os dados.
A maioria dos data warehouses depende do conceito de ETL (Extract, Transform, Load)
Soluções de big data, como data lakes, contam com o conceito de ELT – carregar primeiro e depois transformar.
impulsionadores de negócios
O desejo de aproveitar oportunidades de negócios geradas a partir de conjuntos de dados gerados por múltiplos processos é o maior impulsionador de negócios para melhorar as capacidades de big data e ciência de dados de uma organização.
em princípio
Os princípios relacionados com a gestão de big data ainda não foram formulados, mas uma coisa é muito clara: as organizações devem gerir cuidadosamente os metadados associados às fontes de big data para permitir uma gestão precisa do inventário dos ficheiros de dados, da sua origem e do seu valor.
conceito básico
ciência de dados
Os cientistas de dados formulam uma hipótese sobre o comportamento, ou seja, um comportamento específico pode ser observado nos dados antes da ação específica
Os cientistas de dados então analisam grandes quantidades de dados históricos para determinar com que frequência a hipótese realmente ocorreu no passado e verificam estatisticamente a provável precisão do modelo.
Se uma hipótese for válida com uma frequência suficientemente elevada e o comportamento que ela prevê for útil, então o modelo pode tornar-se a base para um processo de inteligência operacional para prever o comportamento futuro, talvez até em tempo real.
depende de
Fontes de dados ricas
Organização e análise da informação
entrega de informações
Apresente descobertas e insights de dados
processo de ciência de dados
Definir estratégia de big data e necessidades de negócios
Selecione a fonte de dados
Colete e extraia dados
Definir suposições e métodos de dados
Integre e alinhe dados para análise
Explore dados usando modelos
Implantar e monitorar
Grandes dados
Grande quantidade de dados
O big data geralmente tem milhares de entidades ou elementos em bilhões de registros
Atualizações de dados rapidamente
Refere-se à velocidade com que os dados são capturados, gerados ou compartilhados
Vários tipos de dados
Refere-se à forma de capturar ou passar dados
A viscosidade dos dados é alta
Refere-se à dificuldade de usar ou integrar dados
Os dados flutuam muito
Refere-se à frequência de alterações de dados e ao curto tempo de validade dos dados resultante
Baixa precisão dos dados
Refere-se à baixa confiabilidade dos dados
Componentes da arquitetura de big data
A maior diferença entre DW/BI e processamento de big data é
Em um data warehouse tradicional, os dados são integrados (extraídos, transformados, carregados) à medida que entram no warehouse
Num ambiente de big data, os dados são recebidos e carregados (extraídos, carregados, transformados) antes de serem integrados
Fontes de big data
Dados estruturados Dados não estruturados
lago de dados
Um data lake é um ambiente que pode extrair, armazenar, avaliar e analisar dados massivos de diferentes tipos e estruturas, e pode fornecer uma variedade de aplicações de cenários.
Por exemplo, você pode fornecer
Um ambiente onde os cientistas de dados podem extrair e analisar dados
Área de armazenamento centralizada para dados brutos com transformação mínima (se necessário)
Poucas conversões são devidas ao ELT
Área de armazenamento alternativa para dados históricos detalhados do data warehouse
Arquivamento online de registros de informações
O ambiente em que os dados são extraídos pode ser identificado através de modelos automatizados
Um data lake pode ser implementado como uma configuração composta de ferramentas de processamento de dados, como Hadoop ou outros sistemas de armazenamento de dados, serviços de cluster, transformação de dados ou integração de dados.
risco
O risco de um data lake é que ele pode rapidamente se transformar em um pântano de dados – confuso, sujo e inconsistente
Para construir um inventário de conteúdo em um data lake, é fundamental gerenciar os metadados à medida que os dados são ingeridos
arquitetura baseada em serviços
A arquitetura baseada em serviços está se tornando uma forma de fornecer dados imediatamente e usar a mesma fonte de dados para atualizar conjuntos de dados históricos completos e precisos
A arquitetura SBA é um pouco semelhante ao data warehouse
Ele envia os dados para o armazenamento de dados operacionais ODS para acesso imediato
Ao mesmo tempo, os dados também serão enviados ao data warehouse para acumulação histórica.
nível
camada de lote
Os data lakes atendem ao processamento em lote, incluindo dados recentes e históricos
camada de aceleração
Inclui apenas dados em tempo real
camada de serviço
Fornece uma interface para conectar processamento em lote e dados da camada de aceleração
Os dados são carregados em camadas de lote e de aceleração
Todos os cálculos analíticos são realizados nos dados da camada de lote e da camada de aceleração. Esse projeto pode precisar ser implementado em dois sistemas independentes.
A camada de lote é frequentemente referida como o componente estrutural que muda ao longo do tempo (aqui cada transação é uma inserção), enquanto na camada de aceleração (frequentemente referida como armazenamento de dados operacionais no ODS) todas as transações são atualizações.
Essa arquitetura evita problemas de sincronização criando camadas de estado atual e de histórico simultaneamente.
aprendizado de máquina
aprendizagem supervisionada
é baseado em teorias matemáticas complexas, especialmente estatística, combinatória e pesquisa operacional
A passagem é baseada em regras (como separar e-mails SPAM de e-mails não-SPAM)
aprendizagem não supervisionada
mineração de dados
Com base na descoberta desses padrões ocultos
Melhore o aprendizado
Otimização de metas alcançada sem a adesão dos professores
Análise Semântica
O monitoramento de mídia e a análise de texto são métodos automatizados de recuperação e obtenção de insights de grandes quantidades de dados não estruturados ou semiestruturados para perceber como as pessoas se sentem e pensam sobre uma marca, produto, serviço ou outro tipo de tópico.
Use o processamento de linguagem natural (PNL) para analisar frases curtas ou sentenças para detectar emoções e revelar mudanças nas emoções para prever possíveis cenários.
Mineração de dados e texto
A mineração de dados é um método de análise especial que utiliza vários algoritmos para revelar padrões nos dados.
Era originalmente um ramo do aprendizado de máquina e um subcampo da inteligência artificial
Ferramentas padronizadas de consulta e relatório podem identificar problemas específicos, enquanto ferramentas de mineração de dados ajudam a descobrir relacionamentos desconhecidos, revelando padrões.
A mineração de texto usa análise de texto e tecnologia de mineração de dados para analisar documentos, classificar automaticamente o conteúdo e se tornar uma ontologia de conhecimento orientada para fluxo de trabalho e orientada para especialistas de domínio.
A mídia de texto eletrônico pode, portanto, ser analisada sem reconstrução ou formatação
tecnologia
Analisar
Tentativa de descrever o comportamento clássico de um indivíduo, grupo ou multidão, usado para estabelecer normas comportamentais para aplicações de detecção de anomalias
Os resultados do perfil são inseridos em muitos componentes de aprendizagem não supervisionados
redução de dados
é substituir um grande conjunto de dados por um conjunto de dados menor
Conjuntos de dados menores contêm a maior parte das informações em grandes conjuntos de dados
Conjuntos de dados menores são mais fáceis de analisar ou manipular
Associação
Correlação é um processo de aprendizagem não supervisionado que estuda os elementos envolvidos em uma transação e encontra a correlação entre eles.
Por exemplo, recomendações da Internet
agrupamento
Agrupe elementos de dados em diferentes clusters com base em suas características compartilhadas
Por exemplo, segmentação de clientes
mapa auto-organizável
Análise preditiva
A análise preditiva é desenvolvida com base em modelos probabilísticos de possíveis eventos e variáveis que desencadeiam respostas organizacionais quando recebe informações adicionais.
A forma mais simples de um modelo preditivo é uma estimativa
análise normativa
Indo um passo além da análise preditiva, ela define ações que afetarão os resultados, em vez de apenas prever resultados com base em ações que já ocorreram.
A análise prescritiva prevê o que vai acontecer, quando vai acontecer e sugere por que vai acontecer
Como a análise prescritiva pode mostrar as implicações de diversas decisões, ela pode sugerir como explorar oportunidades ou evitar riscos.
Análise de dados não estruturados
A análise de dados não estruturados torna-se cada vez mais importante à medida que mais dados não estruturados são gerados
Certas análises não podem ser realizadas sem incorporar dados não estruturados ao modelo analítico
Mas a análise de dados não estruturados também pode ser muito difícil sem alguma forma de isolar os elementos de interesse dos elementos irrelevantes.
A verificação e marcação é um método de adicionar "ganchos" a dados não estruturados, permitindo a filtragem conectada de dados de esquema relacionados.
análise operacional
Também conhecido como BI operacional ou streaming analytics, o conceito surge da integração de processos operacionais com análises em tempo real
A análise operacional inclui o rastreamento e a integração de fluxos de informações em tempo real, tirando conclusões com base em modelos de previsão comportamental e acionando respostas e alertas automatizados
As soluções de análise operacional incluem a preparação de dados históricos necessários para preencher modelos comportamentais
Visualização de dados
Visualização é o processo de explicar conceitos, ideias e fatos por meio do uso de imagens ou representações gráficas.
Compactar e encapsular dados de recursos para facilitar a visualização
As visualizações podem estar em formato estático (como um relatório publicado) ou exigir meios criativos para adaptar a visualização
Mashup de dados
Reúna dados e serviços para exibir visualmente insights ou resultados de análises
Atividade
Definir estratégia de big data e necessidades de negócios
Critérios de Avaliação Estratégica
Qual problema a organização está tentando resolver e o que precisa ser analisado?
Qual é a fonte de dados a ser usada ou obtida
Fornece oportunidade e escopo dos dados
Efeitos e dependências de outras estruturas de dados
Impacto nos dados de modelagem existentes
Selecione a fonte de dados
Obtenha e receba fontes de dados
Desenvolva suposições e métodos de dados
Integre e alinhe dados para análise
Explore dados usando modelos
Preencher o modelo preditivo
Modelo de treinamento
Modelo de avaliação
Crie visualizações de dados
Implantar e monitorar
Revele insights e descobertas
Iterar usando fontes de dados adicionais
ferramenta
MPP não compartilhou nada de tecnologia e arquitetura
Banco de dados distribuído baseado em arquivo
Algoritmo no banco de dados
Solução de nuvem de big data
Computação estatística e linguagens gráficas
Conjunto de ferramentas de visualização de dados
método
Modelagem analítica
Modelagem de big data
Guia de implementação
consistência estratégica
Avaliação de Prontidão/Avaliação de Risco
Mudanças organizacionais e culturais
Governança de Big Data e Ciência de Dados
Gerenciamento visual de canais
Padrões de ciência de dados e visualização
Segurança de dados
metadados
Qualidade dos dados
Métricas
Métricas de uso técnico
Indicadores de carregamento e digitalização
Cenários de aprendizagem e histórias