Máster en Ciencia de Datos e Ingeniería de Computadores. Prácticas de BigData y Cloud Computing. Curso 2016-2017.
Manuel J. Parra Royón (manuelparra@decsai.ugr.es) & José. M. Benítez Sánchez (j.m.benitez@decsai.ugr.es)
Manuel J. Parra Royón (manuelparra@decsai.ugr.es) & José. M. Benítez Sánchez (j.m.benitez@decsai.ugr.es)
Antes de comenzar, descarga la MV que contiene todo para poder trabajar (spark, R, hadoop, rstudio, jupyter, etc):
https://drive.google.com/file/d/0ByPBMv-S_GMEakRCVVRTejZKVm8/view?usp=sharing
Los objetivos del taller de SparkR son los siguientes:
- Conocer la problemática del procesamiento masivo de datos.
- Fijar concepto y práctica sobre uso R sobre Spark para el procesado masivo de datos.
- Instalar y configurar el sistema completo para poder trabajar con R y Spark.
- Trabajar con datos masivos (filtrado, agregado, transformaciones), procesar datasets masivos son SparkSQL, etc..
- Analizar datasets con las librerías de Machine Learning de los paquetes SparkR y sparklry
- Utilizar herramientas para visualizar los datos de datasets masivos.
En el taller de procesamiento masivo de datos con SparkR veremos lo siguiente:
1.- Introducción al procesamiento de datos masivos.
Breve introducción al procesamiento de datos, el problema de trabajar con grandes conjuntos de datos, Hadoop,Motivación de Spark, características, etc...
2.- Notas sobre R, Spark y SparkR
Introducción a R, motivación de R para datos 'pequeños' y datos 'grandes', Spark y sus características, biblioteca de SparkR para análisis de datos masivos con R.
3.- Instalación de las herramientas necesarias para el taller
Veremos todas las herramientas necesarias para poder trabajar con el entorno de SparkR, así como la instalación y puesta en marcha de toda la infraestructura necesaria para el taller. Inicio del entorno de trabajo habitual para trabajar en el taller.
4.- Entorno de trabajo del taller
Detalles del manejo del entorno de trabajo con JupyterNotebooks y Spark + R
5.- Inicio del entorno de trabajo
Flujo de trabajo con Spark + R
6.- Primeros pasos con SparkR
Trabajo con ejemplos de uso de Spark + R
7.- Lectura y Escritura de datos con SparkR
Trabajo con fuentes de datos, y tipos de conjuntos de datos, CSV, JSON, Parquet, ... Lectura y Escritura. Esquemas, y breve trabajo con SparkSQL.
8.- Operaciones y procesado de SparkDataFrames
Trabajamos y procesamos conjuntos de datos masivos con SparkSQL y funciones de agregación, filtrado, selección, etc. Usamos flujos de trabajo con magrittr. Revisamos la funcionalidad completa de la biblioteca de SparkR.
9.- Minería de datos con la biblioteca de SparkR
Aplicamos las técnicas de minería de datos y Machine Learning que proporciona SparkR: GLM, KMeans, NaiveBayes y AFT.
10.- Minería de datos con la biblioteca sparklyr
Utilizamos la funcionalidad de la biblioteca sparklyr
para procesar conjuntos de datos. Aplicamos los métodos de minería de datos y otras operaciones.
Puedes empezar el taller práctico tanto desde Jupyter como RStudio, siguiendo los siguientes enlaces a la documentación:
-
Parte 1. Teoría: Presentación del taller, Procesamiento masivo de datos, R+Spark+SparkR, Instalación de las herramientas, Entorno de trabajo
-
Parte 2. S05. Minería de datos y Machine Learning con SparkR
-
Parte 2. S06. Minería de datos y Machine Learning con sparklyr
-
Parte 2. S07. Visualización de datos masivos con SparkR y Zeppelin