Galeria de mapas mentais Engenheiro de Governança de Dados DAMA-CDGA-13.
A gestão da qualidade dos dados significa que todos os princípios de gestão de dados devem ajudar a melhorar a qualidade dos dados, e apoiar o uso de dados de alta qualidade pela organização deve ser o objetivo de todos os princípios de gestão de dados.
Editado em 2024-03-05 20:31:04Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
13. Qualidade dos dados
introdução
em princípio
1. Comece primeiro com dados importantes
2. PDCA
3. Avalie as dimensões da governança de dados
4. Análise de causa raiz
5. Relatório de qualidade de dados
Visão geral
O pré-requisito para perceber o valor dos dados é que os próprios dados sejam fiáveis e dignos de confiança. Por outras palavras, os dados devem ser de alta qualidade.
Todos os princípios de gestão de dados devem ajudar a melhorar a qualidade dos dados, e apoiar o uso de dados de alta qualidade pela organização deve ser o objetivo de todos os princípios de gestão de dados.
Tal como a governação de dados e a gestão geral de dados, a gestão da qualidade dos dados não é um projeto, mas um esforço contínuo
impulsionadores de negócios
incluir
Oportunidades para aumentar o valor dos dados organizacionais e a utilização de dados
Reduza riscos e custos causados por dados de baixa qualidade
Melhore a eficiência e a produtividade organizacional
Proteger e melhorar a reputação da organização
As organizações que procuram obter valor dos seus dados reconhecem que dados de alta qualidade são mais valiosos do que dados de baixa qualidade.
Usar dados de baixa qualidade está repleto de riscos
Dados de alta qualidade não são um fim em si; são um meio para o sucesso organizacional.
Alvo
Com base nas necessidades dos consumidores de dados, desenvolva uma abordagem gerenciada para adaptar os dados aos requisitos
Definir padrões e especificações para controle de qualidade de dados como parte de todo o ciclo de vida dos dados
Definir e implementar processos para medir, monitorar e reportar níveis de qualidade de dados
em princípio
importância
A gestão da qualidade dos dados concentra-se nos dados que são mais importantes para o negócio e seus clientes, e as melhorias devem ser priorizadas com base na importância dos dados e no nível de risco se os dados estiverem incorretos.
Gerenciamento completo do ciclo de vida
A gestão da governação de dados deve abranger todo o ciclo de vida dos dados, desde a criação ou aquisição até à eliminação.
Cada elo da cadeia de dados deve garantir que os dados tenham resultados de alta qualidade
prevenção
O foco de um programa de qualidade de dados deve ser a prevenção de erros e situações que reduzam a disponibilidade de dados, e não simplesmente a correção de registros
correção da causa raiz
Melhorar a qualidade dos dados é mais do que apenas corrigir erros, uma vez que os problemas de qualidade dos dados estão frequentemente relacionados com a concepção de processos ou sistemas. Melhorar a qualidade dos dados requer frequentemente alterações nos processos e sistemas que os suportam, e não apenas compreendê-los e resolvê-los.
governança
As atividades de governação de dados devem apoiar o desenvolvimento de dados de alta qualidade e as atividades de planeamento da qualidade dos dados devem apoiar e sustentar um ambiente de dados governado.
Driver padrão
Requisitos quantificáveis de qualidade de dados devem ser definidos na forma de padrões e expectativas mensuráveis
Medição objetiva e transparência
Os níveis de qualidade dos dados precisam ser medidos de forma objetiva e consistente
Incorporar processos de negócios
Os proprietários de processos de negócios são responsáveis pela qualidade dos dados gerados por meio de seus processos e devem implementar padrões de qualidade de dados em seus processos.
Aplicação do sistema
Os proprietários do sistema devem impor padrões de qualidade de dados no sistema
associado a níveis de serviço
Os relatórios de governança de dados e o gerenciamento de problemas devem ser integrados aos acordos de nível de serviço
conceito básico
Qualidade dos dados
refere-se às características relevantes de dados de alta qualidade
Também se refere ao processo usado para medir e melhorar a qualidade dos dados
alta qualidade
Os dados atendem às necessidades dos aplicativos do consumidor de dados
baixa qualidade
Os dados não atendem aos requisitos do aplicativo do consumidor de dados
A qualidade dos dados depende do cenário dos dados e das necessidades dos consumidores de dados
data chave
A maioria das organizações possui grandes quantidades de dados, mas nem todos os dados são igualmente importantes
Um princípio do gerenciamento da qualidade de dados é focar as melhorias nos dados que são mais importantes para a organização e os clientes.
Isso esclarece o escopo do projeto e permite que ele tenha um impacto direto e mensurável nas necessidades do negócio.
Avalie os principais dados
relatórios regulatórios
relatório financeiro
política empresarial
Continuar a operar
estratégia de negócio
Dimensões de qualidade de dados
figura
Forte-Wang
Thomas Redman
Larry Inglês
Uma dimensão de qualidade de dados é uma característica mensurável dos dados
As dimensões de qualidade de dados fornecem um conjunto de vocabulário que define os requisitos de qualidade de dados
Estas definições de dimensão permitem a avaliação da qualidade inicial dos dados e a eficácia das melhorias contínuas.
As dimensões são a base para as regras de medição
Dimensões principais DAMA
Completude
Volume de dados armazenados como porcentagem do volume de dados potencial
singularidade
As instâncias de entidade não devem ser registradas múltiplas vezes com base na satisfação do reconhecimento do objeto.
oportunidade
Até que ponto os dados representam a realidade do momento solicitado
eficácia
Os dados são válidos se estiverem em conformidade com a sintaxe definida (formato, tipo, intervalo)
precisão
Até que ponto os dados descrevem com precisão o objeto ou evento do “mundo real” que está sendo descrito
consistência
Compare as diferenças entre múltiplas expressões e definições de coisas
Governança de dados e metadados
Os metadados são essenciais para gerenciar a qualidade dos dados
A qualidade dos dados depende de quão bem eles atendem às necessidades dos consumidores de dados
A qualidade dos dados tem a ver com atender às expectativas, e os metadados são o principal meio de esclarecer as expectativas
Metadados bem gerenciados também podem apoiar esforços de melhoria da qualidade dos dados
Padrões ISO de governança de dados
Ciclo de vida de melhoria da qualidade dos dados
Melhorar a qualidade dos dados requer melhorar a capacidade de avaliar a relação entre entradas e saídas para garantir que as entradas atendam aos requisitos do processo e que as saídas sejam as esperadas
Fase de Planejamento P
A equipe de qualidade de dados avalia o escopo, o impacto e a prioridade dos problemas conhecidos e avalia opções para resolvê-los
Esta fase deve basear-se numa base sólida de análise das causas profundas dos problemas, compreensão dos custos/benefícios em termos das suas causas e impactos, estabelecimento de prioridades e desenvolvimento de um plano básico para os resolver.
Fase de execução D
A equipe de qualidade de dados é responsável por trabalhar para resolver a causa raiz do problema e fazer planos para monitoramento contínuo dos dados
Verifique o estágio C
Esta fase inclui monitoramento ativo da qualidade dos dados medida conforme necessário
Desde que o limite de qualidade definido seja atingido, nenhuma ação adicional é necessária
Se os dados ficarem abaixo do limite de qualidade aceitável, devem ser tomadas medidas adicionais para levá-los a um nível aceitável
Estágio de Processamento A
Esta fase refere-se a atividades que abordam e resolvem problemas emergentes de qualidade de dados
O ciclo recomeçará à medida que a causa do problema for avaliada e uma solução for proposta
Melhoria contínua iniciando um novo ciclo
O novo ciclo começa
O valor de medição existente está abaixo do limite
Novos conjuntos de dados estão sob investigação
Novos requisitos de qualidade de dados para conjuntos de dados existentes
Mudanças nos negócios, padrões ou expectativas
O custo de obter os dados corretos na primeira vez é muito menor do que o custo de obter os dados errados e corrigi-los
O custo de introduzir qualidade em um processo de gerenciamento de dados desde o início é menor que o custo de transformá-lo
Tipos de regras de negócios de qualidade de dados
As regras de negócios de qualidade de dados descrevem os dados úteis e a forma como os dados estão disponíveis na organização
Estas regras precisam cumprir os requisitos da dimensão qualidade e são usadas para descrever os requisitos de qualidade dos dados.
Causas comuns de problemas de qualidade de dados
Problemas causados pela falta de liderança
Muitos problemas de governação de dados são causados pela falta de compromisso organizacional com dados de alta qualidade, o que por si só é uma falta de liderança na forma de governação e gestão
As barreiras para o gerenciamento eficaz da qualidade dos dados incluem
Falta de conscientização entre líderes e funcionários
falta de governança
Falta de habilidades de liderança e gestão
Dificuldade em justificar melhorias
As ferramentas para medir valor são inadequadas ou não funcionam
Problemas causados pelo processo de entrada de dados
Problemas causados por funções de processamento de dados
Problemas causados pelo design do sistema
Resolver problemas causados por problemas
Análise de dados
O perfil de dados é uma forma de análise de dados usada para examinar os dados e avaliar a qualidade
O perfil de dados usa técnicas estatísticas para descobrir a verdadeira estrutura, conteúdo e qualidade das coletas de dados
O mecanismo de criação de perfil gera estatísticas que os analistas podem usar para identificar padrões no conteúdo e na estrutura dos dados
Por exemplo
Número de valores nulos
Máx./Mín.
Comprimento máximo/mínimo
Distribuição de frequência de valores de colunas individuais
Tipos e formatos de dados
Embora a criação de perfis seja uma forma eficaz de compreender os dados, é apenas o primeiro passo para melhorar a qualidade dos dados, permitindo que as organizações identifiquem potenciais problemas.
A resolução de problemas também requer outras formas de análise, incluindo análise de processos de negócios, análise de linhagem de dados e análise mais profunda de dados que podem ajudar a isolar a causa raiz do problema.
Governança de dados e processamento de dados
Embora os esforços de melhoria da governação de dados se concentrem na prevenção de erros, a qualidade dos dados também pode ser melhorada através de alguma forma de processamento de dados.
Limpeza de dados
A limpeza de dados, ou limpeza de dados, pode transformar dados em conformidade com padrões de dados e regras de domínio
A limpeza envolve detectar e corrigir erros de dados para levar a qualidade dos dados a um nível aceitável
A revisão contínua dos dados por meio da limpeza é um processo caro e arriscado
Num mundo ideal, ao longo do tempo a causa raiz do problema de dados foi resolvida e a necessidade de limpeza de dados deverá diminuir
Em alguns casos, modificações contínuas através de sistemas midstream também são necessárias porque o reprocessamento de dados em sistemas midstream é menos dispendioso do que qualquer outra alternativa
Caminho
Implementar controles para evitar erros de entrada de dados
Dados corretos no sistema de origem
Melhore os processos de negócios para entrada de dados
aumento de dados
Aumento ou enriquecimento de dados é o processo de adicionar propriedades a um conjunto de dados para melhorar sua qualidade e usabilidade
Exemplo
Carimbo de data e hora
Registrar a data e a hora em que um item de dados é criado, modificado ou desativado ajuda a rastrear eventos históricos de dados e permite que os analistas localizem o intervalo de tempo do problema.
Dados de auditoria
A auditoria pode registrar a linhagem de dados, o que é importante para rastreamento e verificação histórica
Glossário de referência
Aumente a compreensão e o controle dos dados
Informação contextual
Adicione informações contextuais e dados de tags para revisão e análise
informação geográfica
As informações geográficas podem ser aprimoradas por meio da padronização e geocodificação de endereços, como códigos de área, municípios, bairros, latitude e longitude
Informação demográfica
Os dados do cliente podem ser aprimorados com informações demográficas, como idade, casamento, sexo, renda, etc.
informação psicológica
Usado para segmentar dados sobre grupos-alvo de acordo com comportamentos, hábitos e preferências específicos
Informações de avaliação
Use esta melhoria para avaliações de ativos, estoque, dados de vendas e muito mais
Análise e formatação de dados
A análise de dados é o processo analítico de interpretação do conteúdo ou valores de um objeto usando regras pré-determinadas
Primeiro, os analistas de dados definem um conjunto de padrões. Em seguida, esses padrões são registrados em um mecanismo de regras que é usado para distinguir valores de dados válidos e inválidos.
Conversão e padronização de dados
Durante o processamento normal, as regras de dados podem ser usadas para converter os dados em um formato legível pela arquitetura alvo.
Atividade
Defina dados de alta qualidade
Definir estratégia de qualidade de dados
Identifique os principais dados e regras de negócios
Realize uma avaliação inicial da qualidade dos dados
Identifique e priorize áreas para melhoria
Defina metas de melhoria da qualidade dos dados
Desenvolver e implantar operações de qualidade de dados
Gerenciar regras de governança de dados
Meça e monitore a qualidade dos dados
Desenvolver procedimentos operacionais para gerenciar problemas de dados
Desenvolver acordo de nível de serviço de qualidade de dados
Escreva relatórios de qualidade de dados
ferramenta
Ferramentas de perfil de dados
As ferramentas de perfil de dados geram estatísticas de alto nível que permitem aos analistas identificar padrões nos dados e fazer avaliações iniciais das características de qualidade
As ferramentas de criação de perfil são particularmente importantes para os esforços de descoberta de dados, permitindo a avaliação de grandes conjuntos de dados
Ferramentas de criação de perfil, aprimoradas com recursos de visualização de dados, ajudarão no processo de descoberta
Ferramenta de consulta de dados
O perfil de dados é apenas o primeiro passo na análise de dados e ajuda a identificar possíveis problemas
Os membros da equipe de qualidade de dados também precisam consultar os dados mais profundamente para responder às questões levantadas pelos resultados da análise e encontrar padrões que possam fornecer insights sobre as causas básicas dos problemas de dados.
Ferramentas de modelagem e ETL
As ferramentas utilizadas para modelar dados e criar processos ETL têm impacto direto na qualidade dos dados
O uso dessas ferramentas pode levar a dados de maior qualidade se houver pensamento de dados no processo de utilização.
Se forem usados cegamente sem a compreensão dos dados, podem ter efeitos prejudiciais
Os membros da equipe de qualidade de dados devem colaborar com as equipes de desenvolvimento para abordar os riscos de qualidade de dados e aproveitar ferramentas eficazes de modelagem e processamento de dados para garantir que a organização tenha acesso a dados de maior qualidade.
Modelo de regra de qualidade de dados
Os modelos de regras oferecem aos analistas a oportunidade de capturar as expectativas dos clientes em relação aos dados e ajudam a preencher a lacuna de comunicação entre as equipes técnicas e de negócios
O desenvolvimento contínuo de regras consistentes simplifica o processo de tradução dos requisitos de negócios em código.
repositório de metadados
Definir a qualidade dos dados requer metadados, e a definição de dados de alta qualidade é uma forma de apresentar o valor dos metadados.
método
Precaução
A melhor maneira de criar dados de alta qualidade é evitar que dados de baixa qualidade entrem na organização
As precauções evitam a ocorrência de erros conhecidos; examinar os dados após o fato não melhora a qualidade;
métodos de prevenção
Estabeleça controles de entrada de dados
Treinamento de produtores de dados
Definir e aplicar regras
Exigir que os provedores de dados forneçam dados de alta qualidade
Implementar sistemas de governança e gerenciamento de dados
Desenvolva um controle formal de mudanças
Ação corretiva
Depois que um problema ocorre e é detectado, ações corretivas são implementadas
Os problemas de qualidade dos dados devem ser resolvidos de forma sistemática e fundamental para minimizar o custo e o risco de medidas corretivas.
Métodos para realizar correções de dados
correção automática
A tecnologia de autocorreção inclui padronização, canonização e correção baseadas em regras
O valor modificado é obtido ou gerado automaticamente e enviado sem intervenção manual.
A correção automática requer um ambiente com bons padrões, regras geralmente aceitas e padrões de erro conhecidos
Inspeção e correção manual
Endireite e corrija dados usando ferramentas automatizadas e realize revisão humana antes que as correções sejam enviadas para armazenamento persistente
Correções com pontuações acima de um determinado nível de confiança podem ser enviadas sem revisão, mas as correções com pontuações abaixo do nível de confiança serão submetidas ao Diretor de Gerenciamento de Dados para revisão e aprovação
Correção manual
A correção manual é a única opção quando há falta de ferramentas, automação insuficiente ou quando se determina que as alterações podem ser melhor tratadas através da supervisão humana.
O método documentado de alterar e submeter atualizações diretamente em um ambiente de construção é muito perigoso e deve ser evitado
Módulo de controle de qualidade e código de revisão
Crie módulos de código compartilháveis, vinculáveis e reutilizáveis que os desenvolvedores podem extrair do repositório para repetir verificações de qualidade de dados e processos de auditoria
Módulos de código bem projetados podem evitar muitos problemas de qualidade de dados e, ao mesmo tempo, garantir a execução consistente do processo
Se o relatório de resultados de qualidade específicos for exigido por lei ou política, muitas vezes é necessário descrever a linhagem dos resultados, e o módulo de Inspeção de Qualidade pode fornecer esta funcionalidade.
Métricas eficazes de governança de dados
Mensurabilidade
As métricas de qualidade dos dados devem ser mensuráveis – devem ser algo que possa ser quantificado
relevância comercial
Embora muitas coisas sejam mensuráveis, nem todas podem ser convertidas em métricas úteis
Se uma métrica não puder ser relacionada a algum aspecto das operações ou do desempenho do negócio, ela terá valor limitado
Cada métrica de qualidade de dados deve estar vinculada ao impacto dos dados nas principais expectativas de negócios
aceitabilidade
Determine se os dados atendem às expectativas de negócios com base em limites de aceitabilidade especificados
Se a pontuação for igual ou superior ao limite, a qualidade dos dados atende às expectativas do negócio
Se a pontuação estiver abaixo do limite, ela não está satisfeita
Sistema de responsabilidade/gestão
Notifica as principais partes interessadas quando os resultados da medição de uma métrica indicam que a qualidade não atende às expectativas
O proprietário dos dados comerciais é responsável por isso e as ações corretivas apropriadas são tomadas pelo Diretor de Gerenciamento de Dados
Controlabilidade
As métricas devem refletir aspectos controláveis do negócio
Em outras palavras, se sair do escopo, deverá desencadear ações para melhorar os dados
análise de tendências
As métricas permitem que as organizações meçam as melhorias na qualidade dos dados ao longo do tempo
O rastreamento ajuda os membros da equipe de qualidade de dados a monitorar atividades dentro do escopo de SLAs de qualidade de dados e acordos de compartilhamento de dados e demonstrar a eficácia das atividades de melhoria
Uma vez estabilizado o fluxo de informações, técnicas estatísticas de controle de processos podem ser usadas para detectar mudanças e alcançar mudanças previsíveis nos resultados medidos e nos processos técnicos em estudo.
controle estatístico de processo
O Controle Estatístico de Processo (SPC) é um método de gerenciamento de processos por meio da análise de mudanças nos valores medidos de entradas, saídas ou etapas do processo.
Baseado na suposição de que quando um processo com entradas consistentes é executado de forma consistente, ele produzirá saídas consistentes. Ele usa medidas de tendência central (a tendência dos valores de uma variável de se aproximarem de seu valor central, como média, mediana ou moda) e variabilidade em torno do valor central (como intervalo, variância, desvio padrão) para determinar a tolerância ao desvio em um processo
A principal ferramenta utilizada no SPC é o gráfico de controle, que é um gráfico de série temporal que inclui uma linha central para a média (uma medida de tendência central) e limites de controle superior e inferior que descrevem a medição (a variabilidade em torno do valor central).
Análise de causa raiz
Uma vez que a causa raiz de um problema desaparece, o problema em si também desaparecerá
Analista de causa raiz Um processo de compreensão do que causa um problema e como ele funciona
O objetivo é identificar condições subjacentes que, uma vez removidas, farão com que o problema desapareça
Técnicas comuns de análise de causa raiz incluem análise de Pareto (regra 80/20), análise de diagrama de espinha de peixe, rastreamento e rastreamento, análise de processo e 5 POR QUE
Guia de implementação
Avaliação de Prontidão/Avaliação de Risco
Mudança organizacional e cultural
Qualidade de dados e governança de dados
sistema de qualidade de dados
Métricas
retorno do investimento
nível de qualidade
Tendências de qualidade de dados
Métricas de gerenciamento de problemas de dados
Consistência de nível de serviço
Diagrama do plano de qualidade de dados