Redes generativas antagónicas para la síntesis y generación de texto imagen: Un análisis cuantitativo y cualitativo de codificadores de procesamiento de lenguaje natural para el idioma español

Yauri Lozano, Eduardo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/20.500.14076/26927

Título :	Redes generativas antagónicas para la síntesis y generación de texto imagen: Un análisis cuantitativo y cualitativo de codificadores de procesamiento de lenguaje natural para el idioma español
Autor :	Yauri Lozano, Eduardo
Asesor :	Castillo Cara, José Manuel
Palabras clave :	Redes generativas;Procesamiento del lenguaje natural (Informática)
Fecha de publicación :	2023
Editorial :	Universidad Nacional de Ingeniería
Resumen :	En la actualidad, los avances en las técnicas de Inteligencia Artiﬁcial (IA) para la síntesis y generación de imágenes a partir de texto han experimentado un crecimiento y desarrollo constantes. Un caso especiﬁco es la síntesis texto a cara mediante Redes Generativas Antagónicas (GANs), que consiste en generar una imagen facial a partir de una descripción textual de características físicas. Siguiendo este enfoque, las investigaciones se han centrado en dos áreas principales, en Procesamiento del Lenguaje Natural (PLN) codiﬁcadores para la síntesis texto-cara, y en visión por computador, GANs para la generación texto-cara. Sin embargo, la mayoría de los codiﬁcadores se han desarrollado para el idioma inglés. En este contexto, este trabajo presenta un primer estudio de tres codiﬁcadores texto-cara diferentes, el modelo preentrenado RoBERTa, y los modelos Sent2Vec y RoBERTa, entrenados con un corpus descriptivo en español del conjunto de datos CelebA. Además, se presenta un modelo personalizado de Redes Generativas Antagónicas Convolucionales Profundas condicionadas (cDCGANs) entrenado con el conjunto de datos CelebA para la síntesis texto-cara en español. Para la validación de los resultados obtenidos, se realiza una evaluación cualitativa con un análisis visual y una evaluación cuantitativa basada en las métricas IS, FID y LPIPS. Nuestra investigación muestra resultados prometedores con respecto a la literatura mejorando las métricas numéricas de FID en un 5 % y LPIPS en un 37 %. Además, esta misma investigación también muestra, a través de una comparación cuantitativa-cualitativa de las épocas de entrenamiento de cDCGAN, que la métrica IS no es una métrica objetiva adecuada para ser considerada en la evaluación de trabajos similares. El generador implementado puede ser usado como una herramienta valiosa para la elaboración del retrato hablado de una persona y tiene múltiples áreas de aplicación. Siendo una de los principales el ámbito Policial. Dado que para la identiﬁcación de criminales es necesario realizar bocetos de dichas personas.
URI :	http://hdl.handle.net/20.500.14076/26927
Derechos:	info:eu-repo/semantics/openAccess
Aparece en las colecciones:	Maestría

Ficheros en este ítem:

Fichero	Tamaño	Formato
yauri_le.pdf	2,9 MB	Adobe PDF	Visualizar/Abrir
informe_de_similitud.pdf	670,59 kB	Adobe PDF	Visualizar/Abrir
yauri_le(acta).pdf	455,94 kB	Adobe PDF	Visualizar/Abrir
carta_de_autorización.pdf	220,73 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

Indexado por: