Examen Diagnostico Python to Big Data

cuentas con 24 horas para resolver el ejercicio

Instrucciones

Realizar un fork de este repositorio a tu cuenta de github.
Crear una rama que por nombre lleve tus iniciales a partir de la rama solution.
Realizar los ejercicios solicitados abajo.
Enviar por correo electrónico la notificación de finalización y el link al repositorio de solución. No debes hacer PULL REQUEST

¿Qué evaluaremos?

Resuelva con el API de SparkSQL el ejercicio planteado.
El uso de sentencias SQL queda estrictamente prohibido.
El uso de cadenas en las clases que implementan la lógica de solución están muy mal vistos por nuestra area de QA, sea cuidadoso.
Amamos las pruebas de calidad, es necesario que el método 4 cuente con una prueba unitaria que valide que se han filtrado correctamente los jugadores.
Modularice sú código lo suficiente de tal forma que cada método haga una sola cosa.
Hemos soñado con poder leer las rutas de entrada y salida desde un archivo de configuración, sería increible tener uno! (leer el archivo params)

Ejercicio

La tabla de salida debe contener las siguientes columnas: short_name, long_name, age, height_cm, weight_kg, nationality, club_name, overall, potential, team_position
Agregar una columna player_cat que responderá a la siguiente regla (rank over Window particionada por nationality y team_position y ordenada por overall):
- A si el jugador es de los mejores 3 jugadores en su posición de su país.
- B si el jugador es de los mejores 5 jugadores en su posición de su país.
- C si el jugador es de los mejores 10 jugadores en su posición de su país.
- D para el resto de jugadores.
tip para resolver este ejercicio, mire el método de ejemplo exampleWindowFunction incluido en el código.
Agregaremos una columna potential_vs_overall con la siguiente regla:
- Columna potential dividida por la columna overall
Filtraremos de acuerdo a las columnas player_cat y potential_vs_overall con las siguientes condiciones:
- Si player_cat esta en los siguientes valores: A, B
- Si player_cat es C y potential_vs_overall es superior a 1.15
- Si player_cat es D y potential_vs_overall es superior a 1.25
Agregar un parametro al archivo params que de ser 1 realice todos los pasos únicamente para los jugadores menores de 23 años y en caso de ser 0 que lo haga con todos los jugadores del dataset.
Por favor escriba la tabla resultante de los pasos anteriores particionada por la columna nationality, la salida debe estar escrita en formato parquet y debe usarse el método coalese(1) para obtener solo un archivo por partición.

¡Buena suerte!

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.idea		.idea
minsait		minsait
resources/data		resources/data
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Examen Diagnostico Python to Big Data

Instrucciones

¿Qué evaluaremos?

Ejercicio

About

Releases

Packages

Languages

jdiegodcp/diagnostico_pyspark

Folders and files

Latest commit

History

Repository files navigation

Examen Diagnostico Python to Big Data

Instrucciones

¿Qué evaluaremos?

Ejercicio

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages