Durante um workshop, o executivo Rajeev Priyardashi, da IBM, disparou a pergunta: por que devo cuidar da minha saúde? E ele mesmo respondeu: porque pretendo correr e brincar com meus netos quando chegar aos 70.

E depois, comparou: os dados da empresa são como a nossa saúde. Precisamos cuidar deles para podermos tomar melhores decisões de negócio, ter insights que podem ajudar a vislumbrar oportunidades, e reduzir riscos com a segurança e vazamentos de dados.

A analogia ganhou o mundo e a ideia de dados saudáveis tomou conta das corporações.

 

O que considerar

Para ter dados saudáveis é preciso:

  • Ter uma definição comum a todos sobre o que é aquele dado, ou seja, criar um dicionário de dados.
  • Ter regras e política de dados, definindo quem é o responsável por aquele dado.
  • Monitorar a qualidade dos dados diariamente.
  • A qualquer anomalia, disparar automaticamente um e-mail para a pessoa certa e medidas corretivas serão tomadas.
  • Recuperação do histórico do dado, sua lineage. Saber a fonte é importante para se ter dados confiáveis.

 

Catálogo de dados

Para tratar dados, é bom que se diga, precisamos que eles estejam mapeados e centralizados num só local (abordamos esse assunto neste post.

O tratamento de dados requer metodologia, e a Data Management Body of Knowledge (DAMA DMBOK) envolve orientações para todo o ciclo de vida dos dados:

 

Para tirar vantagem da imensidão de dados existente nas empresas hoje é preciso que todos os usuários conheçam os dados e entendem do que se trata. Digamos que o dado seja “Nome do Cliente”. Mas é um cliente pessoa física ou jurídica? Se for jurídica, refere-se ao nome legal ou nome comercial da empresa? Um catálogo de termos ajudará a padronizar e facilitará o entendimento geral. Parece bobagem, mas a padronização evitará que os dados sejam considerados como inválidos / inconsistentes quando alguém precisar deles.

 

Metadados

Dados precisam de parâmetros técnicos de classificação. O número negativo -15.000 é apenas um dado de planilha. Mas, se for o saldo de um cliente inadimplente, ganha um significado diferente. Isso leva a mais um ponto: dados precisam de metadados – a informação complementar que vai responder “cliente corporativo, nome fantasia” ou “saldo negativo, cliente inadimplente”.

Dados precisam, também, de um “dono”, a pessoa que se responsabiliza por ele e que  pode alterá-lo. O administrador de dados deve ter a visão completa de como aquele dado é usado e por quem. Assim, se um dado é alterado ou eliminado, pode-se prever quais áreas e sistemas serão impactados. A qualquer anomalia, um email deve ser disparado automaticamente para a pessoa certa e medidas corretivas serão tomadas.

 

Lineage

A alteração de dados lembra mais uma coisa: dados precisam de histórico, o chamado lineage, que permite entender como aquele dado foi construído, de onde veio, se foi atualizado, quem alterou e quando. Lineage é importante, também, numa eventual  necessidade de comprovação jurídica.

Felizmente, há softwares para ajudar a colocar tudo isso em prática, não é preciso reinventar a roda. Na Scala, equipes especializadas podem ajudar sua empresa em todas as etapas da governança de dados e nas etapas seguintes, de preparação dos bancos de dados para uso de Machine Learning e Inteligência Artificial. Quer falar com um especialista? É só chamar!