Durante un taller, el ejecutivo Rajeev Priyardashi, de IBM, lanzó la siguiente pregunta: ¿por qué debo cuidar mi salud? Y él mismo respondió: porque pretendo correr y jugar con mis nietos cuando llegue a los 70.
Y luego, comparó: los datos de la empresa son como nuestra salud. Necesitamos cuidarlos para poder tomar mejores decisiones de negocio, tener insights que puedan ayudarnos a vislumbrar oportunidades y reducir riesgos con la seguridad y las fugas de datos.
La analogía se extendió por todo el mundo y la idea de datos saludables se apoderó de las corporaciones.
Qué tener en cuenta
Para tener datos saludables, es necesario:
Tener una definición común a todos sobre qué es ese dato, es decir, crear un diccionario de datos.
- Tener reglas y una política de datos, definiendo quién es el responsable de ese dato.
- Monitorizar la calidad de los datos diariamente.
- Ante cualquier anomalía, enviar automáticamente un correo electrónico a la persona correcta y tomar medidas correctivas.
- Recuperar el histórico del dato, su lineage. Saber la fuente es importante para tener datos fiables.
Catálogo de datos
Para tratar los datos, es importante que estén mapeados y centralizados en un solo lugar (abordamos este asunto en esta publicación).
El tratamiento de datos requiere una metodología, y el Data Management Body of Knowledge (DAMA DMBOK) ofrece orientaciones para todo el ciclo de vida de los datos:
Dato – Planificar – Especificar – Facilitar – Crear y Adquirir – Mantener y Usar – Archivar y Recuperar – Eliminar
Para aprovechar la inmensidad de datos existente en las empresas hoy en día, es necesario que todos los usuarios conozcan los datos y entiendan de qué se trata. Digamos que el dato sea «Nombre del Cliente». Pero, ¿es un cliente persona física o jurídica? Si es jurídica, ¿se refiere al nombre legal o al nombre comercial de la empresa? Un catálogo de términos ayudará a estandarizar y facilitará la comprensión general. Puede parecer una tontería, pero la estandarización evitará que los datos se consideren inválidos/inconsistentes cuando alguien los necesite.
Metadatos
Los datos necesitan parámetros técnicos de clasificación. El número negativo -15.000 es solo un dato de una hoja de cálculo. Pero, si es el saldo de un cliente moroso, adquiere un significado diferente. Esto nos lleva a otro punto: los datos necesitan metadatos: la información complementaria que responderá «cliente corporativo, nombre comercial» o «saldo negativo, cliente moroso».
Los datos también necesitan un «dueño», la persona que se responsabiliza de él y que puede modificarlo. El administrador de datos debe tener una visión completa de cómo se utiliza ese dato y por quién. Así, si un dato se modifica o elimina, se puede prever qué áreas y sistemas se verán afectados. Ante cualquier anomalía, se debe enviar automáticamente un correo electrónico a la persona correcta y se deben tomar medidas correctivas.
Lineage
La modificación de datos nos recuerda algo más: los datos necesitan un histórico, lo que se conoce como lineage, que permite entender cómo se construyó ese dato, de dónde vino, si se actualizó, quién lo modificó y cuándo. El lineage también es importante en caso de que sea necesario aportar pruebas jurídicas.
Afortunadamente, existen softwares para ayudar a poner todo esto en práctica, no es necesario reinventar la rueda. En Scala, equipos especializados pueden ayudar a tu empresa en todas las etapas de la gobernanza de datos y en las etapas siguientes, de preparación de las bases de datos para el uso de Machine Learning e Inteligencia Artificial. ¿Quieres hablar con un especialista? ¡No tienes más que pedirlo!