Emulated-Data-File-System

• Implemented a distributed file system using Python and PySpark for rapid analysis of millions of data rows. • Managed Spark clusters on Google Dataproc and hosted data on GCS buckets. • Performed ad-hoc analysis using BigQuery on a cloud data warehouse with 500k+ rows

Video Presentation : https://www.youtube.com/watch?v=C9lxvqlx-7g&ab_channel=SaiRaina

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
__pycache__		__pycache__
backend		backend
css		css
frontend		frontend
img		img
js		js
mongo-dump/dsci		mongo-dump/dsci
ADMISSIONS.csv		ADMISSIONS.csv
ICUSTAYS.csv		ICUSTAYS.csv
PATIENTS.csv		PATIENTS.csv
PRESCRIPTIONS.csv		PRESCRIPTIONS.csv
README.md		README.md
SERVICES.csv		SERVICES.csv
SearchAnalytics .ipynb		SearchAnalytics .ipynb
Spark_Cluster.py		Spark_Cluster.py
admissions_cleanup.py		admissions_cleanup.py
admissions_data.csv		admissions_data.csv
analyse.py		analyse.py
icustays_cleanup.py		icustays_cleanup.py
icustays_data.csv		icustays_data.csv
patient_cleanup.py		patient_cleanup.py
patients1.csv		patients1.csv
patients_data.csv		patients_data.csv
prescriptions_cleanup.py		prescriptions_cleanup.py
prescriptions_data.csv		prescriptions_data.csv
put.sql		put.sql
services_cleanup.ipynb		services_cleanup.ipynb
services_data.csv		services_data.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Emulated-Data-File-System

About

Releases

Packages

Languages

saitiger/Emulated-Data-File-System

Folders and files

Latest commit

History

Repository files navigation

Emulated-Data-File-System

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages