Análises

O dado é o novo petróleo! Mas você vai usar petróleo no seu carro???? E qual a relação disso com preparação de dados? Entenda!

Publicado em 27 de novembro de 2020 por Redação Zoop
4.4/5 - (8 votes)

Escrito por Clovis Chedid, Coordenador de Engenharia de Dados da Zoop

Recentemente, nosso colega Juliano Mendes preparou um artigo bem legal sobre Big Data e a ideia de que os dados representam para a economia atual o que o petróleo representou no século passado. 

Agora, quero pegar uma carona no assunto, mas vou focar nas refinarias de petróleo e lhe explicar o que isso tem a ver com preparação de dados. 

Então, vamos lá?

Entendendo o processo de refinamento do petróleo

Vamos começar pelo título: você usaria petróleo no seu carrão? Claro que não! Você vai escolher aquela gasolina premium com alta octanagem, que confere mais potência ao motor e reduz a emissão de poluentes — como gosta de propagandear aquela distribuidora famosinha, da concha, sabe?

Então, existe um longo processo industrial do poço de petróleo até sair aquela gasolina maneira na bomba do posto perto da sua casa. Aliás, existe muito mais história antes mesmo do poço de petróleo!

Acompanhando desde o começo, milhões de anos de decomposição e acúmulo de sedimentos foram necessários para que um poço de petróleo se formasse, depois inúmeros estudos geológicos até que um poço pudesse ser explorado.

E esse trajeto  continua… horas e horas de extração em uma plataforma para se obter um barril de petróleo de boa qualidade.

O petróleo extraído vai passar por um processo de refinamento longo e caro. Vários produtos primários serão obtidos, entre eles, a gasolina pura é beneficiada e se torna a gasolina comum, aquela que conhecemos, mas ainda faltam os processos de agregação de valor, até chegar naquela gasolina premium lá da bomba. 

Olha que mercado lucrativo! 

Um barril de petróleo tem aproximadamente 160 litros do produto bruto, ao custo atual de R$ 244,00. Desse volume, 18% ou 28 litros, R$ 43,00 é o que conseguimos de gasolina. 

Depois de todo beneficiamento e agregação de valor, a gente compra a gasolina premium no posto a R$ 6,00, mais ou menos. Em uma conta rápida, os R$ 43,00 dos 28 litros se transformaram em R$ 168,00. 

Considerando os outros produtos do petróleo, repare no valor agregado! Beleza, mas chega da indústria petroquímica, o que isso tem a ver preparação de  dados? Tudo!!! 

A relação entre o refinamento do petróleo e a preparação de dados

Ninguém usa petróleo no carro, usa gasolina, e o mesmo vale para os dados! Quando interagimos com um sistema de recomendação — da Netflix, por exemplo — , estamos consumindo o produto final da indústria de refinamento de dados. 

Segue o raciocínio sobre a preparação de dados.

Diariamente, produzimos bilhões de registros a respeito dos nossos comportamentos, de nossas transações, das transações de nossos clientes, dos clientes dos nossos clientes. Mas tudo isso é dado bruto. 

É um volume enorme, nunca imaginado há 20 ou 30 anos atrás. 

Coletar essa massa envolve processos especializados, que precisam ser fiscalizados e protegidos, pois temos dados sensíveis e vazamentos são desastrosos, como lá no petróleo.

Esses dados não servem para o consumo, mas são matéria-prima essencial para uma infinidade de produtos que podemos pensar — por esse motivo a importância da preparação de dados.

Assim como não dá para refinar o petróleo lá na boca do poço, também não dá para fazer isso direto na origem dos dados. 

Por isso, coletamos os dados dos nossos sistemas e aplicações e armazenamos tudo em um repositório gigante, do jeito que recebemos. Essa área de armazenagem é o que chamamos de Data Lake. 

Data Lake: o poço de petróleo da era dos dados 

Um Data Lake é um repositório parecido com um banco de dados, mas que pode armazenar qualquer tipo de dado, registros transacionais, textos, imagens, tweets, vídeos, o que conseguirmos capturar.

A partir desse primeiro conjunto de dados começa o trabalho de refino, como lá na refinaria de petróleo.

Diariamente, nós analisamos os dados recebidos, organizamos, limpamos, catalogamos e separamos em diferentes tipos: dados de cliente, dados de transação, dados de navegação etc. 

Vários desses dados já estão disponíveis para o consumo. Muitas vezes precisamos entender o que aconteceu com uma transação de um parceiro —  os dados, com esse primeiro refino, já estão prontos para esse tipo de consumo. 

Isso é igual na refinaria, a nafta é separada e já consumida para fazer plástico!

Na sequência, temos novos processos de refino. Agora, o objetivo é preparar os dados para consumos específicos, como o faturamento. 

Os dados das transações, planos de preço, clientes e valores transacionados são consolidados para gerar dados mais agregados, como o faturamento de um parceiro nosso. 

Podemos utilizar os dados da etapa anterior para visualizar o faturamento? Claro! Mas será mais complexo e demorado, pois lidamos com dados menos preparados.

E o processo de preparação de dados continua

Mais uma rodada de refino, obtemos dados prontos para apoiar as decisões da direção da empresa. São os indicadores, métricas e os dashboards, dados extremamente agregados e refinados que trazem uma visão precisa da saúde da empresa.

Todas essas etapas de refino produzem zonas do nosso Data Lake. Zonas mais primárias são consumidas e as zonas mais ricas são criadas, tudo com tecnologias que permitem processamento paralelo e podem ser rastreadas. 

Ahhh, esse é um ponto importante. Sabe aquela notícia que um posto de gasolina foi flagrado vendendo gasolina adulterada? Temos isso também para os dados! 

Cada etapa de refino recebe um “selo de qualidade e origem”. Cada time é responsável por um tipo de dado, então, exija sempre que aquele indicador importante tenha sido disponibilizado pelo time certo!

Voltando ao Data Lake, temos agora várias zonas de dados, cada uma com sua característica de qualidade e sua finalidade. 

Podemos agora avançar para os processos de agregação de valor!

Momento de agregar valor 

É a hora que os analistas de dados, analistas de negócio e cientistas de dados entram no circuito e consomem vários dados refinados para criar produtos de consumo — como a gasolina premium, ou melhor, aquele sistema de recomendação ou um relatório de tendência de vendas que chega no e-mail do CEO toda segunda de manhã.

Chegou até aqui? Volto com a pergunta: você usaria  petróleo no seu carro? Pegaria  um dado bruto para tomar uma decisão de meio milhão de reais? Claro que não! 

Busque as fontes de dados corretas na empresa, com a qualidade adequada para sua necessidade e, se não existir, é a hora de empreender e investir em uma nova refinaria!

Para finalizar o raciocínio, se o dado é o que movimenta a economia atual, é nas refinarias está a fortuna! 

Utilizar dados bem preparados e de origem garantida é um bom começo para criar uma experiência de usuário ainda melhor. 

E sobre o petróleo? Os dados são muito melhores, não poluem e podem ser reaproveitados infinitas vezes!

4.4/5 - (8 votes)
Diga como podemos lhe ajudar!
Avalie o artigo