Galeria de mapas mentais Engenheiro de governança de dados DAMA-CDGA-8. Integração e interoperabilidade de dados.
A integração e interoperabilidade de dados descreve os processos envolvidos na movimentação e integração de dados dentro e entre diferentes armazenamentos de dados, aplicativos e organizações.
Editado em 2024-03-05 20:24:30Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
8. Integração e interoperabilidade de dados
introdução
definição
Integração e interoperabilidade de dados
A integração e interoperabilidade de dados descreve o processo de movimentação e integração de dados dentro e entre diferentes armazenamentos de dados, aplicativos e organizações.
integração de dados
É a integração de dados em um formato físico ou virtual consistente.
Interoperabilidade de dados
É a capacidade de comunicação entre vários sistemas
Crítico para data warehouse, BI, dados mestre e dados de referência
Porque estes se concentram na transformação e integração de dados dos sistemas de origem para o data center, do data center para o sistema de destino e, em última análise, para o consumidor
É o núcleo do campo de gerenciamento de big data.
Big data visa integrar vários tipos de dados
Inclui dados estruturados armazenados em um banco de dados
Dados de texto não estruturados armazenados em documentos ou arquivos
e outros tipos de dados não estruturados, como áudio, vídeo, dados de streaming, etc.
Integre-se à mineração, desenvolva modelos preditivos e use-os em atividades de inteligência operacional
impulsionadores de negócios
O principal objetivo da integração e interoperabilidade de dados é gerenciar efetivamente a movimentação de dados
Para as empresas, gerenciar a complexidade e os custos associados à integração de dados é um motivo para construir uma arquitetura de integração de dados
Gerenciando a complexidade da integração de dados
O design de integração de dados de nível empresarial é muito mais eficiente do que soluções distintas ou ponto a ponto
Soluções ponto a ponto entre aplicativos podem criar milhares de interfaces e as organizações podem rapidamente ficar sobrecarregadas.
Custos de manutenção e gerenciamento
Quando múltiplas tecnologias são usadas para mover dados, cada tecnologia exige custos específicos de desenvolvimento e manutenção, resultando em maiores custos de suporte.
A aplicação de ferramentas padrão pode reduzir os custos de manutenção e mão de obra e melhorar a eficiência do trabalho de solução de problemas.
objetivos e princípios
Alvo
Forneça dados em tempo hábil e no formato que os consumidores precisam
Consolide dados física ou virtualmente no data center
Reduza o custo e a complexidade das soluções de gestão desenvolvendo modelos e interfaces compartilhadas
Identifique eventos significativos, acione alarmes automaticamente e tome medidas
Apoiar business intelligence, análise de dados, gestão de dados mestres e melhoria da eficiência operacional
em princípio
Adote uma perspectiva empresarial para garantir um design de escalabilidade futuro, possibilitado por entrega iterativa e incremental
Equilibre as necessidades de dados locais com as necessidades de dados empresariais, incluindo suporte e manutenção
Garantir a confiabilidade dos projetos e atividades de integração de dados e interoperabilidade
conceito básico
Extrair, converter, carregar
Visão geral
1. Objetivo ETL: entrar no data warehouse com objetivos claros
2. Dados estruturados: entre no data warehouse
3. Data warehouse: o objetivo final é BI
No centro da integração e interoperabilidade de dados está o processo básico de extração, transformação e carregamento (ETL)
Seja físico ou virtual, em lote ou em tempo real, realizar ETL é uma etapa necessária no fluxo de dados entre aplicações e organizações.
efeito
Pode ser executado como um evento agendado regularmente (processamento em lote)
Os dados necessários para análise ou relatório geralmente estão em um trabalho em lote
Pode ser executado quando novos dados ou dados são atualizados (em tempo real ou orientados por eventos)
O processamento de dados operacionais geralmente ocorre em tempo real ou quase em tempo real
extrair
Inclui a seleção dos dados necessários e a extração dos dados de origem
Os dados extraídos são então armazenados em um repositório físico de dados em disco ou na memória.
Converter
É tornar os dados selecionados compatíveis com a estrutura do banco de dados de destino
Mudanças de formato
Conversão de formato técnico
Como conversão de formato de EBCDIC para ASCII
mudanças estruturais
Mudanças na estrutura de dados
De registros desnormalizados para normalizados
Mudanças semânticas
Mantenha uma expressão consistente de semântica ao converter valores de dados
0, 1, 2, 3→DESCONHECIDO, FEMININO, MASCULINO, NÃO FORNECIDO
Elimine duplicatas
Se uma regra exigir uma chave ou registro exclusivo, certifique-se de incluir uma maneira de verificar o destino, detectar e remover linhas duplicadas
reorganizar
Alterar a ordem dos elementos de dados ou registros para caber em um esquema definido
Pode ser executado em lotes ou em tempo real
Ou armazene os resultados da conversão na área de cache no estado físico
Ou armazene os dados convertidos na memória em um estado virtual
até passar para a etapa de carregamento
carregar
Armazene ou apresente fisicamente os resultados da conversão no sistema de destino
Extrair, carregar, converter
Visão geral
1. Objetivo do ELT: entrar no data lake, o cenário de negócios não é claro
2. Dados estruturados e dados não estruturados: ambos podem entrar no data lake
3. Data Lake: O objetivo final é a IA
Se o sistema de destino tiver capacidades de conversão mais fortes do que o sistema de origem ou sistema de aplicação intermediário, a sequência de processamento de dados pode ser alterada para ELT --- extração, carregamento, conversão
ELT permite que os dados sejam carregados no sistema de destino antes de serem convertidos
O ELT permite que os dados de origem sejam instanciados no sistema de destino na forma de dados brutos, o que é benéfico para outros processos
Carregar no data lake usando ELT, o que é comum em ambientes de big data
mapeamento
é sinônimo de transformação, tanto o processo de construção de uma matriz de busca de uma estrutura de origem para uma estrutura de destino quanto o resultado desse processo
Define os dados de origem a serem extraídos e as regras de identificação para os dados extraídos, as regras de identificação para o destino a ser carregado e as linhas de destino a serem atualizadas e as regras de transformação ou cálculo a serem aplicadas.
Atraso
definição
Refere-se à diferença de tempo entre o momento em que os dados são gerados pelo sistema de origem e o momento em que os dados estão disponíveis no sistema de destino.
Diferentes métodos de processamento de dados levarão a diferentes graus de atraso de dados
muito alto
Processamento em lote
mais alto
orientado a eventos
muito baixo
Sincronização em tempo real
Processamento em lote
Os dados são transferidos entre aplicativos e organizações em lotes de arquivos, com base em solicitações manuais de consumidores de dados ou acionados automaticamente e periodicamente. Este tipo de interação é chamado de processamento em lote ou ETL
Os dados movidos em lote representarão todos os dados em um determinado momento
Este conjunto de dados é chamado de incremento, e os dados em um determinado momento são chamados de instantâneo
Para soluções de integração de dados em lote, muitas vezes há um atraso significativo entre as alterações de dados na origem e as atualizações de dados no destino, resultando em alta latência de
Microlotes
A integração de dados em lote pode ser usada para transformação, migração e arquivamento de dados, bem como para extração e carregamento de dados de data warehouses e data marts
Instrui o lote a ser executado com mais frequência do que as atualizações diárias
oportunidade
O tempo de processamento em lote pode ser arriscado
Para minimizar problemas de atualização de aplicativos, a movimentação de dados pode ser programada para ocorrer no final do dia de processamento lógico durante o dia útil ou durante a noite.
Alterar captura de dados
É um método para reduzir os requisitos de largura de banda de transmissão adicionando filtragem para incluir apenas dados que foram alterados dentro de um intervalo de tempo específico
A captura de dados de alteração monitora alterações (inserções, alterações, exclusões) em um conjunto de dados e, em seguida, comunica essas alterações (deltas) a outros conjuntos de dados, aplicativos e organizações que consomem os dados
Como parte do processo de captura de dados alterados, os dados também podem ser marcados com identificadores, como tags ou carimbos de data/hora.
A captura de dados alterados pode ser baseada em dados ou em log
Com base em dados
O sistema de origem preenche elementos de dados específicos
Por exemplo, uma série de carimbos de data/hora, códigos, sinalizadores, que podem servir como indicadores de mudança
Os processos do sistema de origem são adicionados a uma lista simples de objetos e identificadores ao alterar os dados, que é então usada para controlar a seleção dos dados extraídos
O sistema de origem copia os dados alterados
Com base em registros
O sistema de gerenciamento de banco de dados cria um log de atividades de dados que é copiado e processado e, em seguida, procura alterações específicas que são traduzidas e aplicadas ao banco de dados de destino.
Quase em tempo real e orientado a eventos
A maioria das soluções de integração de dados que não adotam uma abordagem em lote usa uma abordagem quase em tempo real ou orientada a eventos
Os dados são processados em conjuntos menores dentro de uma programação específica ou conforme ocorrem eventos, como atualizações de dados
O processamento quase em tempo real tem menor latência em comparação ao processamento em lote
E como o trabalho é distribuído ao longo do tempo, a carga do sistema é menor
No entanto, geralmente é mais lento que a integração síncrona de dados
Soluções de integração de dados quase em tempo real são frequentemente implementadas usando um barramento de serviço corporativo
assíncrono
Num fluxo de dados assíncrono, o sistema que fornece os dados não espera que o sistema receptor confirme a atualização antes de continuar o processamento.
Assíncrono significa que o sistema de envio ou recebimento pode ficar offline por um período de tempo enquanto o outro sistema está funcionando normalmente
A integração assíncrona de dados não impede que o aplicativo do sistema de origem continue a execução, nem faz com que o aplicativo de origem fique indisponível se algum aplicativo de destino estiver indisponível
Como as atualizações de dados para o aplicativo em uma configuração assíncrona não são oportunas, isso é chamado de integração quase em tempo real
em tempo real, síncrono
Existem situações em que atrasos ou outras diferenças entre os dados de origem e de destino não são permitidos
Quando os dados de um conjunto de dados devem estar perfeitamente sincronizados com dados de outro conjunto de dados, uma solução de sincronização em tempo real deve ser usada
Numa solução de integração síncrona, a execução aguarda a confirmação de outras aplicações ou processos antes de executar a próxima atividade ou transação.
Como é necessário gastar tempo aguardando a confirmação da sincronização de dados, isso significa que a solução só pode lidar com menos transações
Se qualquer aplicativo que precise atualizar dados estiver indisponível, as transações dentro do aplicativo não poderão ser concluídas.
Baixa latência ou processamento de fluxo
Solução de integração de dados de baixa latência projetada para reduzir os tempos de resposta a incidentes
Use disco de estado sólido
Reduza a latência de leitura e gravação
Solução assíncrona
Normalmente usado em soluções de baixa latência para que não haja necessidade de esperar pela confirmação dos processos subsequentes antes de processar os próximos dados
Multiprocessador massivo ou processamento paralelo
Também é uma configuração comum para baixa latência
cópia de
Para fornecer melhores tempos de resposta aos usuários em todo o mundo, alguns aplicativos possuem cópias exatas de seus conjuntos de dados mantidos em vários locais físicos.
A tecnologia de replicação minimiza o impacto das análises e consultas no desempenho do ambiente operacional da transação principal
Portanto, a sincronização de dados deve ser realizada em cada cópia fisicamente distribuída do conjunto de dados.
Copiar solução
Normalmente monitore o log de alterações de um conjunto de dados em vez do próprio conjunto de dados
Como não competem com aplicações pelo acesso a conjuntos de dados, minimizam o impacto em qualquer aplicação operacional.
Somente dados do log de alterações são transferidos entre réplicas
As soluções de replicação padrão funcionam quase em tempo real
As ferramentas de replicação têm melhor desempenho quando os conjuntos de dados de origem e de destino são cópias exatas um do outro
Se ocorrerem alterações de dados em vários sites de réplica, uma solução de replicação não será a melhor escolha
Arquivo
Os dados que são usados com pouca frequência podem ser movidos para uma estrutura de dados alternativa ou solução de armazenamento que seja menos dispendiosa para a organização
A funcionalidade ETL é usada para arquivar dados e potencialmente transformá-los em estruturas de dados no ambiente de arquivamento
É importante monitorar a tecnologia de arquivamento para garantir que os dados ainda possam ser acessados à medida que a tecnologia muda
Formato de mensagem empresarial/formato canônico
KAFUKA
Um modelo de dados normalizado é um modelo comum usado por uma organização ou equipe de troca de dados para padronizar formatos de compartilhamento de dados
Converta dados do sistema de envio para o sistema de recebimento de acordo com formatos de mensagens comuns ou de especificação empresarial
O uso de formatos normalizados reduz a quantidade de tradução de dados entre sistemas ou organizações
Cada sistema só precisa converter os dados em um formato canônico central, em vez de em vários formatos de sistema.
modelo de interação
O modelo de interação descreve a forma como as conexões são estabelecidas entre sistemas para transferir dados
ponto a ponto
A grande maioria das interações entre sistemas de dados compartilhados são “ponto a ponto”, onde eles passam dados diretamente entre si
Este modelo funciona no contexto de um pequeno conjunto de sistemas
Mas quando muitos sistemas exigem os mesmos dados da mesma fonte, isso se torna ineficiente e aumenta o risco organizacional
Processamento de impacto
Se o sistema de origem estiver operacional, a carga de trabalho de fornecimento dos dados poderá impactar o processamento da transação
Interface de gerenciamento
O número de interfaces necessárias para um modelo de interação ponto a ponto é próximo ao quadrado dos dados do sistema
Uma vez estabelecidas essas interfaces, elas precisam ser mantidas e suportadas
A carga de trabalho de gestão e suporte das interfaces entre sistemas pode rapidamente tornar-se maior do que o suporte dos próprios sistemas
possíveis inconsistências
Problemas de design surgem quando vários sistemas exigem diferentes versões ou formatos de dados
O uso de múltiplas interfaces para obter dados pode levar ao envio de dados inconsistentes aos sistemas downstream.
hub-and-spoke
Ele consolida dados compartilhados (físicos ou virtuais) em um data center central que os aplicativos podem usar
Todos os sistemas que desejam trocar dados o fazem através de um controle central de dados comum, em vez de diretamente com outros sistemas (ponto a ponto).
Armazéns de dados, data marts, armazenamentos de dados operacionais e centros de gerenciamento de dados mestres são exemplos de data centers.
O data center fornece visão consistente dos dados com impacto limitado no desempenho do sistema de origem
Adicionar sistemas ao mix requer apenas a construção de interfaces para o data center
Enterprise Service Bus (ESB) é uma solução de integração de dados para compartilhamento de dados quase em tempo real entre vários sistemas. Seu data center é um conceito virtual que representa um formato padrão e padronizado para compartilhamento de dados em uma organização.
Alguns modelos hub-and-spoke apresentam latência inaceitável ou problemas de desempenho
O próprio data center tem sobrecarga de criação em uma arquitetura hub-and-spoke
Assine e publique
O modelo publicar e assinar envolve sistemas que promovem (publicam) dados e outros sistemas que aceitam (assinam) dados.
Os sistemas que enviam dados estão listados no catálogo de serviços de dados, e os sistemas que desejam usar os dados assinam esses serviços
Ao publicar dados, os dados serão enviados automaticamente aos usuários assinantes
Conceitos de integração de dados e arquitetura de interoperabilidade
acoplamento de aplicação
O acoplamento descreve o grau em que dois sistemas estão interligados
Fortemente acoplado
Dois sistemas fortemente acoplados geralmente possuem uma interface de sincronização onde um sistema espera por uma resposta do outro sistema.
Representa risco operacional
Se uma parte estiver indisponível, ambas estarão efetivamente indisponíveis, e os planos de continuidade de negócios para ambos os sistemas deverão ser consistentes
acoplamento solto
é um design de interface ideal
Transfira dados entre sistemas sem esperar por uma resposta, e a indisponibilidade de um sistema não torna o outro indisponível
O acoplamento fraco pode ser alcançado usando várias tecnologias, como serviços, APIs ou filas de mensagens.
A arquitetura orientada a serviços baseada em EBS é um exemplo de padrão de design de interação de dados fracamente acoplado
Orquestração e controle de processos
Arranjo
Usado para descrever como organizar e executar vários processos relacionados em um sistema
Todos os sistemas que processam mensagens ou datagramas devem ser capazes de gerenciar a ordem em que esses processos são executados para manter a consistência e a continuidade.
controle do processo
É o componente que garante entrega, agendamento, extração e carregamento precisos e completos de dados
Integração de aplicativos empresariais
No modelo de integração de aplicativos corporativos EAI, os módulos de software interagem apenas por meio de chamadas de interface bem definidas (API de interface de programação de aplicativos)
O armazenamento de dados só pode ser atualizado através de módulo de software próprio. Outros softwares não podem acessar diretamente os dados no aplicativo, apenas através da API definida.
O EAI é baseado em conceitos orientados a objetos, que enfatizam a capacidade de reutilizar e substituir qualquer módulo sem afetar nenhum outro módulo.
barramento de serviço corporativo
Atua como intermediário entre sistemas, entregando mensagens entre eles
Os aplicativos podem encapsular mensagens ou arquivos enviados e recebidos por meio dos recursos existentes do ESB
Como exemplo de acoplamento fraco, o ESB atua como um serviço entre duas aplicações
Arquitetura Orientada a Serviços
Dados push ou dados de atualização podem ser fornecidos por meio de chamadas de serviço bem definidas entre aplicativos
Os aplicativos não precisam interagir diretamente com outros aplicativos ou compreender o funcionamento interno de outros aplicativos
Oferece suporte à independência de aplicativos e à capacidade da organização de substituir sistemas sem fazer alterações significativas nos sistemas com os quais interage
O objetivo da SOA é definir interações bem definidas entre módulos de software independentes
Cada módulo pode ser usado por outros módulos de software ou consumidores individuais para executar funções (fornecer funcionalidade)
O conceito-chave da SOA é que um serviço independente é fornecido: o serviço não tem conhecimento prévio do aplicativo chamador e a implementação do serviço é uma caixa preta para o aplicativo chamador.
SOA pode ser implementada por meio de diversas tecnologias, como serviços Web, mensagens e APIs.
Manipulação de eventos complexos
O processamento de eventos é um método de rastrear e analisar (processar) o fluxo de informações sobre um evento ocorrido e tirar conclusões dele.
O processamento de eventos complexos refere-se à fusão de dados de múltiplas fontes, identificação de eventos significativos, definição de regras para esses eventos para orientar o processamento e roteamento de eventos e, em seguida, prever comportamentos ou atividades e acionar automaticamente respostas em tempo real com base nos resultados previstos.
Como oportunidades de vendas, cliques na web, pedidos e ligações de clientes, etc.
O processamento de eventos complexos requer um ambiente que possa integrar vários tipos de dados
Como as previsões geralmente envolvem grandes quantidades de dados de vários tipos, o processamento complexo de eventos costuma estar associado ao big data.
O processamento de eventos complexos geralmente requer o uso de tecnologias que suportam latência ultrabaixa, como processamento de dados de streaming em tempo real e bancos de dados na memória
Federação de dados e virtualização
Quando os dados existem em diferentes repositórios de dados, eles também podem ser agregados por outros meios que não a integração física.
A federação de dados fornece acesso a uma combinação de repositórios de dados independentes, independentemente de suas respectivas estruturas.
A virtualização de dados permite que bancos de dados distribuídos, bem como vários armazenamentos de dados heterogêneos, sejam acessados e visualizados como um único banco de dados
dados como serviço
Software como serviçoSaaS
é um modelo de entrega e licenciamento
Os aplicativos licenciados fornecem serviços, mas o software e os dados estão localizados em data centers controlados pelo fornecedor do software, e não nos data centers da organização licenciadora.
Fornece diferentes níveis de infraestrutura de computação como serviço (TI como serviço IaaS, plataforma como serviço PaaS, banco de dados como serviço DBaaS)
Dados como serviçoDaaS
Os dados são licenciados por um fornecedor e fornecidos pelo fornecedor sob demanda, em vez de armazenar e manter dados no data center da organização licenciada
Integração na nuvem
Antes da computação em nuvem, a integração poderia ser dividida em integração interna e integração interempresarial B2B
Integração interna
Os serviços são fornecidos através de uma plataforma interna de middleware, muitas vezes usando um barramento de serviço ESB para gerenciar a troca de dados entre sistemas.
integração interempresarial
Concluído através de gateway EDI de intercâmbio eletrônico de dados e rede VAN de valor agregado
Integração na nuvem
Normalmente executado como um aplicativo SaaS no data center do fornecedor, e não dentro da organização que possui os dados que estão sendo integrados
padrões de troca de dados
Os padrões de interação de dados são regras formais para a estrutura dos elementos de dados
Os padrões de troca definem as estruturas de transformação de dados exigidas por qualquer sistema ou organização para trocar dados
Os dados precisam ser mapeados na especificação de troca
Acordar um formato de troca ou layout de dados consistente entre sistemas pode simplificar bastante o processo de compartilhamento de dados na empresa, reduzindo assim os custos de suporte e permitindo que os trabalhadores entendam melhor os dados
O Modelo Nacional de Intercâmbio de Informações (NIEM) é um padrão de troca de dados desenvolvido para troca de documentos e transações entre agências governamentais dos EUA.
Atividade
planejamento e análise
Definir integração de dados e requisitos de ciclo de vida
Definir os requisitos de integração de dados envolve compreender os objetivos de negócios da organização, bem como os dados e as opções de tecnologia recomendadas necessárias para atingir esses objetivos.
Leis ou regulamentos relevantes que também exigem a coleta desses dados
O processo de definição de requisitos cria e descobre metadados valiosos
Quanto mais completos e precisos forem os metadados de uma organização, maior será sua capacidade de gerenciar riscos e custos de integração de dados.
Realize a exploração de dados
A exploração de dados deve ocorrer antes do design
O objetivo da exploração de dados é identificar fontes de dados potenciais para esforços de integração de dados
A exploração de dados identificará onde os dados podem ser obtidos e onde podem ser integrados
O processo combina pesquisas técnicas com conhecimento no assunto usando ferramentas que verificam metadados e conteúdo real nos conjuntos de dados de uma organização
A exploração de dados também inclui um trabalho de avaliação de alto nível sobre a qualidade dos dados para determinar se os dados são adequados para os objetivos do plano de integração
Registrar linhagem de dados
O processo de exploração de dados também revelará informações sobre como os dados fluem através de uma organização
Essas informações podem ser usadas para documentar a linhagem de dados de alto nível: como os dados foram adquiridos ou criados pela organização, como eles foram movidos e alterados dentro da organização e como foram usados pela organização para análise, tomada de decisões ou eventos. desencadeando
A linhagem de dados bem documentada pode incluir as regras sob as quais os dados são alterados e com que frequência eles são alterados
O processo de análise também pode fornecer oportunidades para melhorar os fluxos de dados existentes
Encontrar e eliminar essas ineficiências ou configurações ineficazes pode ajudar muito no sucesso do projeto e melhorar a capacidade geral de uma organização de usar seus dados.
Analisar dados
Compreender o conteúdo e a estrutura dos seus dados é fundamental para alcançar o sucesso com o seu conjunto de dados
O perfil de dados ajuda a atingir esse objetivo
Se o processo de criação de perfil de dados for ignorado, algumas informações que afetam o projeto poderão não ser descobertas até o teste ou a operação real.
Um dos objetivos do perfil é avaliar a qualidade dos dados
Assim como a exploração avançada de dados, a criação de perfil de dados envolve a validação de suposições sobre os dados em relação aos dados reais
Colete regras de negócios
As regras de negócios são um subconjunto chave de requisitos, declarações que definem ou restringem aspectos do processamento de negócios.
As regras de negócios são projetadas para manter a estrutura do negócio e controlar ou influenciar o comportamento do negócio.
Projetar soluções de integração de dados
Projetar soluções de integração de dados
As soluções de integração de dados devem ser consideradas nos níveis de solução empresarial e individual
O estabelecimento de padrões empresariais permite que as organizações economizem tempo na implementação de soluções individuais
Selecione o modelo de interação
Hub-and-spoke, ponto a ponto, publicar-assinar
Projete um serviço de dados ou padrão de troca
Modele data centers, interfaces, mensagens, serviços de dados
Mapear dados para o destino
Projetar orquestração de dados
Desenvolva soluções de integração de dados
Desenvolva serviços de dados
Desenvolva orquestração de fluxo de dados
Desenvolva um plano de migração de dados
Desenvolva um método de liberação
Desenvolva fluxos complexos de processamento de eventos
Mantenha metadados para integração e interoperabilidade de dados
implementação e monitoramento
ferramenta
Mecanismo de transformação de dados/ferramenta ETL
Um mecanismo de transformação de dados (ou ferramenta ETL) é a principal ferramenta na caixa de ferramentas de integração de dados e está no centro de todo programa de integração de dados corporativos
Quer os dados sejam em lote ou em tempo real, físicos ou virtuais, existem ferramentas muito sofisticadas para desenvolver e executar ETL.
As considerações básicas para a seleção do mecanismo de transformação de dados devem incluir se o processamento em lote e os recursos em tempo real são necessários e se os dados estruturados e não estruturados estão incluídos
As mais maduras atualmente são as ferramentas de processamento em lote para dados estruturados
Servidor de virtualização de dados
Mecanismo de transformação de dados
Extraia, transforme e carregue dados fisicamente
Servidor de virtualização de dados
Extraia, transforme e integre dados virtualmente
Pode combinar dados estruturados e não estruturados
barramento de serviço corporativo
Refere-se tanto a um modelo de arquitetura de software quanto a um middleware orientado a mensagens.
Para mensagens quase em tempo real entre armazenamentos, aplicativos e servidores assíncronos dentro da mesma organização
mecanismo de regras de negócios
Muitas soluções de integração de dados dependem de regras de negócios
Como uma forma importante de metadados, essas regras podem ser usadas para integrações básicas ou em soluções que incluem tratamento complexo de eventos, para que as organizações possam responder a esses eventos quase em tempo real.
Ferramentas de modelagem de dados e processos
Ferramentas de modelagem de dados são usadas para projetar não apenas estruturas de dados de destino, mas também estruturas de dados intermediárias necessárias para soluções de integração de dados.
Ferramentas de perfil de dados
Realize análises estatísticas do conteúdo de um conjunto de dados para compreender o formato, consistência, validade e estrutura dos dados
repositório de metadados
O armazenamento contém informações sobre os dados da organização, incluindo a estrutura de dados, aspectos internos e regras de negócios usadas para gerenciar os dados
método
Mantenha os aplicativos fracamente acoplados, limite o número de interfaces de desenvolvimento e gerenciamento, use uma abordagem hub-and-spoke e crie interfaces padronizadas
Guia de implementação
Avaliação de Prontidão/Avaliação de Risco
Mudança organizacional e cultural
Integração de dados e governança de interoperabilidade
acordo de compartilhamento de dados
Estabelece as responsabilidades e os usos aceitáveis dos dados trocados e é aprovado pelo gerente de dados comerciais dos dados relevantes
Integração e interoperabilidade de dados e linhagem de dados
Métricas
Disponibilidade de dados
Volume e velocidade de dados
Custo e complexidade da solução