Skip to content

Adrok24/Proyecto-T-VAE

Repository files navigation

Autoencoder Variacional Transformer-Based para Generación de frases

grafico_1

Autores:

Adrián Di Paolo
Patricio Guinle

Notebooks Principales

Motivación

Nuestra motivación es crear un modelo de transferencia de estilo para texto, utilizando herramientas de NLP (transformers) y aprovechando la capacidad los Autoencoders Variacionales de generar un espacio contínuo. Para ello reprodujimos la arquitectura del paper https://ieeexplore.ieee.org/document/8852155 [1] como punto de partida.

Dataset (Notebook)

  • Seleccionamos 120 libros de diferentes generos: técnicos, narrativos, y poéticos

  • Los separamos en líneas de entre 35 y 160 caracteres

  • Las filtramos y pre procesamos, definiendo algunas reglas con REGEX

  • Enmascaramos Nombres propios y números (@name @number)

  • Aplicamos un análisis de sentimiento Positivo, Neutral y Negativo a cada linea

  • Tokenizamos cada línea por sub words

  • Finalmente aplicamos padding hasta alcanzar nuestra longitud máxima (32 tokens x línea)

  • En ésta oportunidad la longitud la estamos contando en nº de Tokens y no en caracteres

Sampleo del Dataset resultante:

grafico_2

El tokenizador se puede encontrar en el siguiente archivo pkl: tokenizer.pkl.

Modelo utilizado

Una breve explicación del proceso de armado del modelo puede ser consultado en la siguiente presentacion. El siguiente es un equema del modelo final construído [1].

grafico_3

Funciones de Distribución

Utilizamos para el proceso de sampling dos tipos de distribución: Normal (izq.) y Von Mises-Fisher (der.) que se encuentra todavía en entrenamiento y desarrollo (notebook).

grafico_4 grafico_5

Visualizaciones

  • Distribucion de la longitud (Tokens)

grafico_6

  • Distribucion de lineas con atributo 'Poesía'

grafico_7

  • Distribucion de lineas con signos [!, ¡, ¿, ?]

grafico_7

presentación.

[1] A Transformer-Based Variational Autoencoder for Sentence Generation1 st Danyang Liu, 2 nd Gongshen Liu (2019)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published