Reservatórios de Dados, Big Data & Armazenamento
A importância de se ter reservatórios para cada propósito
Antigamente, quando falávamos em reservatório de dados logo vinha à mente um lugar para guardar os dados transacionais e estruturados, de forma a permitir uma análise das informações sem impactar o dia a dia da empresa. Esse conceito se ampliou e hoje inclui diferentes dados, não apenas os estruturados.
No Data Warehouse, convertemos os dados normalizados do modelo transacional para o modelo de estrela ou flocos de neve, utilizados para serem consumidos pelas ferramentas de Business Intelligence (BI).
Para criar um Data Warehouse, nossos analistas precisam ter em mente quais os tipos de insights serão mostrados nas análises, pois é preciso que os dados sejam salvos em esquemas específicos e isso pode deixar as análises um pouco travadas. Uma forma de melhorar essa abordagem é com a criação de Data Marts, onde são extraídos dados do Data Warehouse e criados modelos específicos para um setor da empresa. Assim, cada setor fica com os dados exclusivos para atender suas demandas e não com os dados da empresa em geral, ganhando performance e agilidade nas análises.
Data Lakes
Com o avanço das tecnologias, foram surgindo formas variadas de dados no dia a dia das empresas, tais como, dados oriundos de redes sociais, de sensores, de feedback de comunicação etc. Ou seja, não somente os dados transacionais e estruturados são importantes para o funcionamento da empresa, mas também um vasto tipo diferente de dados, fontes e grandes volumes. Isso fez com que fosse necessário armazenar informações em um reservatório, a partir do qual os dados seriam tratados, quando necessário, surgindo assim os Data Lakes.
Os Data Lakes são grandes reservatórios de dados que armazenam todo tipo de dado (estruturados, semiestruturados, não estruturados) na sua forma original e recebem os devidos esquemas de dados somente quando forem consumidos pelas ferramentas de Big Data (como por exemplo o Apache Hive, que realiza consultas aos dados do Data Lake e cria visões desses dados). Os Data Lakes não substituem os Data Warehouse, as duas soluções de armazenamento se completam, já que cada uma armazena um tipo de dado para uma finalidade diferente.
Benefícios
O principal benefício na construção de um reservatório de dados é criar uma cópia dos dados da empresa para que a equipe de Analytics consiga trabalhar sem se preocupar com corromper os dados de produção da empresa, além de não concorrer em processamento com as demandas dos clientes finais.
Empresas de todos os segmentos que necessitem gerar insights para melhorar sua performance operacional e aumentar as vendas são beneficiadas com a solução de um reservatório de dados.