Skip to content

Proyecto #3 - Big Data de la materia tópicos especiales de telematica

Notifications You must be signed in to change notification settings

jloaiz16/big-data-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PROYECTO 3 - Big Data

Tópicos especiales en telemática

Miembros del equipo:

  • Juan David Loaiza Botero
  • Juan Camilo Gomez Ruiz
  • Jorge Iván Ortiz Serna

Problema elegido

Problema1: Descubrimiento de temas basados en texto.

Se usarán técnicas de procesamiento natural de lenguaje para hacer análisis de texto en el dataset airlines.csv con Spark, esto con la finalidad de reconocer en los registros del dataset las emociones que hay en los clientes de la aerolinea al dar sus opiniones del servicio y sus experiencias con el.

Carga de datos en HDFS

cargar_datos1 = sc.textFile("hdfs:///user/jgomez88/datasets/airlines.csv")


cargar_datos1.saveAsTextFile("hdfs:///user/jgomez88/BigDataProyecto_3")

Leer datos en spark

 >>> data = spark.read.load('/user/jgomez88/datasets/airlines.csv',format='csv', header=True)
 >>> data.show(10);

data

Procesamiento de texto y limpieza para tranformación

  • Código de limpieza

limpieza

  • Mostrar tabla

Table

  • Generación de la nueva tabla con nuevos campos

Generacion

  • Generar TFIDF

Generacion4

  • LDA

Generacion2

Generacion3

  • Tabla de registro para SparkSQL

Generacion5

Modelo de analítica basado en Spark ML

Clasificación de comentarios

Para el modelo de analítica clasificamos manualmente 450 registros, esta clasificación se repartió entre los tres miembros del equipo, cada miembro verificó 150 registros y de acuerdo al comentario de cada cliente se clasifico como negativo, neutro y positivo.

Entrenamiento

Para el entrenamiento del modelo, vamos a usar la transformación del 80% (360 registros) de los comentarios realizados en el numeral anterior, así el modelo aprenderá que ciertas palabras están relacionadas con un tipo de comentario.

Testeo

Para probar el modelo usaremos el 20% (90 registros) restante de los comentarios transformados, así verificaremos las precisión del modelo.

Visualización de resultados

About

Proyecto #3 - Big Data de la materia tópicos especiales de telematica

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages