Um modelo genérico de E-commerce para validação de conhecimentos da matéria de Engenharia de Dados.
Essas instruções permitirão que você obtenha uma cópia do projeto em operação na sua máquina local para fins de desenvolvimento e teste.
Para que o projeto funcione devidamente é necessário que seja instalado em um computador com as seguintes configurações:
Memoria Ram: 16gb
Processador: Intel Core i5 6gh ou superior
Espaço em disco: 6gb
Além disto é necessário a prévia instalação e configuração do Docker: https://docs.docker.com/engine/install/
Para realizar a instalação, rode o comando
docker compose up
Este comando irá subir todos os containers que farão o processo funcionar devidamente
Após instalado, será necessário a configuração das conexões do Apache Spark e do banco base PostgreSql. Esta configuração poderá ser feita dentro da aba de conexões do Apache Airflow, localizada em:
admin > Connections
- PostgreSQL - Banco de dados relacional
- Python - Linguagem de programação utilizada para criar os scripts de extração, transformação e carga de dados
- Docker - Containerização de aplicações
- Apache Spark - Processamento de dados em larga escala
- Apache Airflow - Orquestrador de tarefas
- Visual Studio Code - Editor de código
- Astro CLI - Ferramenta de linha de comando para gerenciamento de infraestrutura
- Minio - Armazenamento de objetos
O principal intuíto deste projeto é a validação de conhecimentos adquiridos na matéria de Engenharia de Dados, por isso, a colaboração é essencial para o desenvolvimento do projeto.
Leia abaixo como você pode colaborar com o projeto e ajudar compartilhando seu conhecimento e experiência.
Nosso código de conduta é derivado do Contributor Covenant, versão 2.1, disponível em CODE OF CONDUCT.
Leia o CONTRIBUTING para entender o processo de contribuição ao desenvolvimento do nosso projeto, auxiliando com possíveis bugfixes e melhorias.
Para se familiarizar com o projeto, você pode começar verificando as issues com o rótulo "good first issue". Estas possuem bugs ou aprimoramentos mais simples de serem resolvidos, geralmente com escopos limitados e perfeito para quem está começando a contribuir com o nosso projeto.
O versionamento é feito com base na metodologia SEMVER. Explore as tags neste repositório para ver todas as versões disponíveis e o CHANGELOG.md para saber mais sobre as alterações em cada versão.
- Angelo José da Rosa - Orquestração
- Danilo Formanski - Documentação
- João Victor Miotelli Vitali - Orquestração
- Lucas de Oliveira Alano - Orquestração
- Vinicius Albino dos Santos - Data Visualization
- Vitor Loch Mafei Rosa - DBA
- Vitor Loch Mafei Rosa - DBA
- Vitor Minatto Barp - Data Visualization
- Yuri Lopes Machado - Documentação
Você também pode ver a lista de todos os colaboradores que participaram deste projeto.
Este projeto está sob a licença MIT - veja o arquivo LICENSE para detalhes.