- Juan David Loaiza Botero
- Juan Camilo Gomez Ruiz
- Jorge Iván Ortiz Serna
Se usarán técnicas de procesamiento natural de lenguaje para hacer análisis de texto en el dataset airlines.csv con Spark, esto con la finalidad de reconocer en los registros del dataset las emociones que hay en los clientes de la aerolinea al dar sus opiniones del servicio y sus experiencias con el.
cargar_datos1 = sc.textFile("hdfs:///user/jgomez88/datasets/airlines.csv")
cargar_datos1.saveAsTextFile("hdfs:///user/jgomez88/BigDataProyecto_3")
>>> data = spark.read.load('/user/jgomez88/datasets/airlines.csv',format='csv', header=True)
>>> data.show(10);
- Código de limpieza
- Mostrar tabla
- Generación de la nueva tabla con nuevos campos
- Generar TFIDF
- LDA
- Tabla de registro para SparkSQL
Para el modelo de analítica clasificamos manualmente 450 registros, esta clasificación se repartió entre los tres miembros del equipo, cada miembro verificó 150 registros y de acuerdo al comentario de cada cliente se clasifico como negativo, neutro y positivo.
Para el entrenamiento del modelo, vamos a usar la transformación del 80% (360 registros) de los comentarios realizados en el numeral anterior, así el modelo aprenderá que ciertas palabras están relacionadas con un tipo de comentario.
Para probar el modelo usaremos el 20% (90 registros) restante de los comentarios transformados, así verificaremos las precisión del modelo.