El dataset Multilingual Emoji Prediction (Barbieri et al. 2010, test y trial sets descargables con este link, train set descargable con este otro link) contiene alrededor de 500k tweets, todos conteniendo un emoji, de un conjunto de 20 comúnmente usados. El desafío de base es predecir el emoji en cuestión desde el texto del tweet. Esta tarea puede ser interpretada como una de análisis de sentimiento multimodal puesto a que el emoji comúnmente denota información no verbal del mensaje o contexto, muchas veces emocional.
Barbieri, F., Camacho-Collados, J., Ronzano, F., Espinosa Anke, L., Ballesteros, M., Basile, V., ... & Saggion, H. (2018). Semeval 2018 task 2: Multilingual emoji prediction. In 12th International Workshop on Semantic Evaluation (SemEval 2018) (pp. 24-33). Association for Computational Linguistics. http://dx.doi.org/10.18653/v1/S18-1003
Versión de python: 3.8.13
Para clasificador basado en transformers se necesita la librería pytorch. Los comandos de instalación dependen de cada computador y se pueden encontrar en este link.
Para el resto de las bibliotecas ejecutar
pip install -r requirements.txt
Clasificador con Naive Bayes
Clasificador con Transformers (Hito 3):
Clustering (Hito 3)
- word2vec: Inglés - Español
- Tf-idf: Inglés - Español
- Bag-of-words: Inglés - Español
- Transformers: bertweet-base-US - beto
Análisis con regresiones lineales
Clasificadores version Hashtags
Hito 1
Hito 2
Hito 3
- Presentación Canva
- Video
- Informe: Notebook - html