- Entrenamiento: (Notebook)
- Test y visualizaciones: (Notebook)
Nuestra motivación es crear un modelo de transferencia de estilo para texto, utilizando herramientas de NLP (transformers) y aprovechando la capacidad los Autoencoders Variacionales de generar un espacio contínuo. Para ello reprodujimos la arquitectura del paper https://ieeexplore.ieee.org/document/8852155 [1] como punto de partida.
Dataset (Notebook)
-
Seleccionamos 120 libros de diferentes generos: técnicos, narrativos, y poéticos
-
Los separamos en líneas de entre 35 y 160 caracteres
-
Las filtramos y pre procesamos, definiendo algunas reglas con REGEX
-
Enmascaramos Nombres propios y números (@name @number)
-
Aplicamos un análisis de sentimiento Positivo, Neutral y Negativo a cada linea
-
Tokenizamos cada línea por sub words
-
Finalmente aplicamos padding hasta alcanzar nuestra longitud máxima (32 tokens x línea)
-
En ésta oportunidad la longitud la estamos contando en nº de Tokens y no en caracteres
Sampleo del Dataset resultante:
El tokenizador se puede encontrar en el siguiente archivo pkl: tokenizer.pkl.
Una breve explicación del proceso de armado del modelo puede ser consultado en la siguiente presentacion. El siguiente es un equema del modelo final construído [1].
Utilizamos para el proceso de sampling dos tipos de distribución: Normal (izq.) y Von Mises-Fisher (der.) que se encuentra todavía en entrenamiento y desarrollo (notebook).
- Distribucion de la longitud (Tokens)
- Distribucion de lineas con atributo 'Poesía'
- Distribucion de lineas con signos [!, ¡, ¿, ?]
[1] A Transformer-Based Variational Autoencoder for Sentence Generation1 st Danyang Liu, 2 nd Gongshen Liu (2019)