¿Cómo tener (y mantener) una base de datos saludable?

Durante un taller, el ejecutivo Rajeev Priyardashi, de IBM, lanzó la siguiente pregunta: ¿por qué debo cuidar mi salud? Y él mismo respondió: porque pretendo correr y jugar con mis nietos cuando llegue a los 70.

Y luego, comparó: los datos de la empresa son como nuestra salud. Necesitamos cuidarlos para poder tomar mejores decisiones de negocio, tener insights que puedan ayudarnos a vislumbrar oportunidades y reducir riesgos con la seguridad y las fugas de datos.

La analogía se extendió por todo el mundo y la idea de datos saludables se apoderó de las corporaciones.

Qué tener en cuenta

Para tener datos saludables, es necesario:

Tener una definición común a todos sobre qué es ese dato, es decir, crear un diccionario de datos.

  • Tener reglas y una política de datos, definiendo quién es el responsable de ese dato.
  • Monitorizar la calidad de los datos diariamente.
  • Ante cualquier anomalía, enviar automáticamente un correo electrónico a la persona correcta y tomar medidas correctivas.
  • Recuperar el histórico del dato, su lineage. Saber la fuente es importante para tener datos fiables.

Catálogo de datos

Para tratar los datos, es importante que estén mapeados y centralizados en un solo lugar (abordamos este asunto en esta publicación).

El tratamiento de datos requiere una metodología, y el Data Management Body of Knowledge (DAMA DMBOK) ofrece orientaciones para todo el ciclo de vida de los datos:

Dato – Planificar – Especificar – Facilitar – Crear y Adquirir – Mantener y Usar – Archivar y Recuperar – Eliminar

Para aprovechar la inmensidad de datos existente en las empresas hoy en día, es necesario que todos los usuarios conozcan los datos y entiendan de qué se trata. Digamos que el dato sea «Nombre del Cliente». Pero, ¿es un cliente persona física o jurídica? Si es jurídica, ¿se refiere al nombre legal o al nombre comercial de la empresa? Un catálogo de términos ayudará a estandarizar y facilitará la comprensión general. Puede parecer una tontería, pero la estandarización evitará que los datos se consideren inválidos/inconsistentes cuando alguien los necesite.

Metadatos

Los datos necesitan parámetros técnicos de clasificación. El número negativo -15.000 es solo un dato de una hoja de cálculo. Pero, si es el saldo de un cliente moroso, adquiere un significado diferente. Esto nos lleva a otro punto: los datos necesitan metadatos: la información complementaria que responderá «cliente corporativo, nombre comercial» o «saldo negativo, cliente moroso».

Los datos también necesitan un «dueño», la persona que se responsabiliza de él y que puede modificarlo. El administrador de datos debe tener una visión completa de cómo se utiliza ese dato y por quién. Así, si un dato se modifica o elimina, se puede prever qué áreas y sistemas se verán afectados. Ante cualquier anomalía, se debe enviar automáticamente un correo electrónico a la persona correcta y se deben tomar medidas correctivas.

Lineage

La modificación de datos nos recuerda algo más: los datos necesitan un histórico, lo que se conoce como lineage, que permite entender cómo se construyó ese dato, de dónde vino, si se actualizó, quién lo modificó y cuándo. El lineage también es importante en caso de que sea necesario aportar pruebas jurídicas.

Afortunadamente, existen softwares para ayudar a poner todo esto en práctica, no es necesario reinventar la rueda. En Scala, equipos especializados pueden ayudar a tu empresa en todas las etapas de la gobernanza de datos y en las etapas siguientes, de preparación de las bases de datos para el uso de Machine Learning e Inteligencia Artificial. ¿Quieres hablar con un especialista? ¡No tienes más que pedirlo!

Continue navegando pelas categorias de conteúdos