El objetivo de este trabajo es construir un clasificador que aprenda a distinguir entre tweets positivos o negativos.
- El documento que describe todo el presente trabajo, lo encuentras en este repositorio documentacion/Artículo_final.pdf.
- La presentación que utilizada en documentacion/Presentación.pdf.
Los datos que utilizaremos fueron datos recolectados de twitter acerca del Huracán Harvey y tweets con intención negativa o seria.
-
Fuente: Referencia 1, Referencia 2.
-
Número observaciones: 1,600,000.
-
Variables:
target
: Polaridad del tweet, positivo o negativo.ids
: ID tweet.date
: Fecha y hora del tweet.flag
: Si hubo algún tipo de QUERY.user
: Usuario del tweettext
: Texto del tweet.
-
La variable que utilizaremos para entrenar es
text
, y como etiquetatarget
.
Para instalar nuestro paquete de limpieza de tweets:
pip install "git+https://github.com/ElenaVillano/sentiment_analysis_tweets.git#egg=nlptweet&subdirectory=src"
El código lo puedes observar en la carpeta de notebooks, que viene desde la implementación de la limpieza, hasta ejemplos de los mejores modelos.
- Clasificación de texto para análisis de sentimiento con el clasificador Naive Bayes
- Análisis de sentimientos en Twitter utilizando python y NLTK
- Aprendizaje de máquina con H20, Twitter y python
Utilizaremos python y por ahora nuestros notebooks serán probados en Google Colab
.