Skip to content

Wellikiandre/Extract-and-Load-a-Lake-Engenharia-de-dados-Com-Python-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 

Repository files navigation

Artigo com mais detalhes: https://www.linkedin.com/pulse/extract-load-lake-engenharia-de-dados-com-python-wellikiandre%3FtrackingId=403c8PFoRrOeDJ01%252FXrUbg%253D%253D/?trackingId=403c8PFoRrOeDJ01%2FXrUbg%3D%3D

Primeiramente, gostaria de explicar qual era o problema que precisava ser solucionado. Precisava fazer uma conversão em massa de vários arquivos .parquet para .delta, onde as localizações dentro do data lake eram totalmente diferentes, e isso tudo em um único código.

Após analisar a estrutura dos diretórios, identifiquei 774 arquivos .parquet. No entanto, precisava trabalhar com 144 arquivos específicos, que continham dados e tipos diferentes.

Neste código, que consiste em 5 passos, explicarei como solucionar esse problema. Além disso, mostrarei como modificar o código, que é altamente escalável, para ser utilizado em aproximadamente 80% dos processos de engenharia de dados que envolvem transformação entre diferentes camadas (BRONZE, PRATA e GOLD).

Se ficou interessado, me chame no privado.