Python Web Scraping Pipeline Orchestrated With Airflow

This project creates a data pipeline that scraps podcast data into a Google Cloud SQL-managed Postgresql database. The Airflow-orchestrated pipeline also uploads the audio files of each podcast episode into a Google Cloud Storage bucket.

GCP resources are provisioned using Terraform.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
dags		dags
terraform		terraform
README.md		README.md
docker-compose.yaml		docker-compose.yaml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python Web Scraping Pipeline Orchestrated With Airflow

About

Releases

Packages

Languages

uche-madu/podcast_scraping_pipeline

Folders and files

Latest commit

History

Repository files navigation

Python Web Scraping Pipeline Orchestrated With Airflow

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages