Máster en Ciencia de Datos e Ingeniería de Computadores. Prácticas de BigData y Cloud Computing. Curso 2016-2017.

Manuel J. Parra Royón (manuelparra@decsai.ugr.es) & José. M. Benítez Sánchez (j.m.benitez@decsai.ugr.es)

UGR | DICITS | SCI2S | DECSAI

Manuel J. Parra Royón (manuelparra@decsai.ugr.es) & José. M. Benítez Sánchez (j.m.benitez@decsai.ugr.es)

Primeros pasos SparkR

Antes de comenzar, descarga la MV que contiene todo para poder trabajar (spark, R, hadoop, rstudio, jupyter, etc):

https://drive.google.com/file/d/0ByPBMv-S_GMEakRCVVRTejZKVm8/view?usp=sharing

Objetivos

Los objetivos del taller de SparkR son los siguientes:

Conocer la problemática del procesamiento masivo de datos.
Fijar concepto y práctica sobre uso R sobre Spark para el procesado masivo de datos.
Instalar y configurar el sistema completo para poder trabajar con R y Spark.
Trabajar con datos masivos (filtrado, agregado, transformaciones), procesar datasets masivos son SparkSQL, etc..
Analizar datasets con las librerías de Machine Learning de los paquetes SparkR y sparklry
Utilizar herramientas para visualizar los datos de datasets masivos.

Contenido

En el taller de procesamiento masivo de datos con SparkR veremos lo siguiente:

1.- Introducción al procesamiento de datos masivos. Breve introducción al procesamiento de datos, el problema de trabajar con grandes conjuntos de datos, Hadoop,Motivación de Spark, características, etc...

2.- Notas sobre R, Spark y SparkR
Introducción a R, motivación de R para datos 'pequeños' y datos 'grandes', Spark y sus características, biblioteca de SparkR para análisis de datos masivos con R.

3.- Instalación de las herramientas necesarias para el taller
Veremos todas las herramientas necesarias para poder trabajar con el entorno de SparkR, así como la instalación y puesta en marcha de toda la infraestructura necesaria para el taller. Inicio del entorno de trabajo habitual para trabajar en el taller.

4.- Entorno de trabajo del taller
Detalles del manejo del entorno de trabajo con JupyterNotebooks y Spark + R

5.- Inicio del entorno de trabajo
Flujo de trabajo con Spark + R

6.- Primeros pasos con SparkR
Trabajo con ejemplos de uso de Spark + R

7.- Lectura y Escritura de datos con SparkR
Trabajo con fuentes de datos, y tipos de conjuntos de datos, CSV, JSON, Parquet, ... Lectura y Escritura. Esquemas, y breve trabajo con SparkSQL.

8.- Operaciones y procesado de SparkDataFrames
Trabajamos y procesamos conjuntos de datos masivos con SparkSQL y funciones de agregación, filtrado, selección, etc. Usamos flujos de trabajo con magrittr. Revisamos la funcionalidad completa de la biblioteca de SparkR.

9.- Minería de datos con la biblioteca de SparkR
Aplicamos las técnicas de minería de datos y Machine Learning que proporciona SparkR: GLM, KMeans, NaiveBayes y AFT.

10.- Minería de datos con la biblioteca sparklyr
Utilizamos la funcionalidad de la biblioteca sparklyr para procesar conjuntos de datos. Aplicamos los métodos de minería de datos y otras operaciones.

Taller práctico de SparkR.

Puedes empezar el taller práctico tanto desde Jupyter como RStudio, siguiendo los siguientes enlaces a la documentación:

Parte 1. Teoría: Presentación del taller, Procesamiento masivo de datos, R+Spark+SparkR, Instalación de las herramientas, Entorno de trabajo
Parte 2. S01. Inicio del entorno de trabajo
Parte 2. S02. Primer ejemplo con SparkR
Parte 2. S03. Lectura y Escritura de datos en SparkR
Parte 2. S04. Operaciones con SparkDataFrames
Parte 2. S05. Minería de datos y Machine Learning con SparkR
Parte 2. S06. Minería de datos y Machine Learning con sparklyr
Parte 2. S07. Visualización de datos masivos con SparkR y Zeppelin

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

starting_sparkR.md

starting_sparkR.md

Máster en Ciencia de Datos e Ingeniería de Computadores. Prácticas de BigData y Cloud Computing. Curso 2016-2017.

Primeros pasos SparkR

Objetivos

Contenido

Taller práctico de SparkR.

Files

starting_sparkR.md

Latest commit

History

starting_sparkR.md

File metadata and controls

Máster en Ciencia de Datos e Ingeniería de Computadores. Prácticas de BigData y Cloud Computing. Curso 2016-2017.

Primeros pasos SparkR

Objetivos

Contenido

Taller práctico de SparkR.