Diseño e implementación de un sistema inteligente para el análisis de la demanda laboral Peruana en carreras de ingeniería usando modelado de tópicos

Bello Medina, Kevin Segundo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/20.500.14076/8234

Título :	Diseño e implementación de un sistema inteligente para el análisis de la demanda laboral Peruana en carreras de ingeniería usando modelado de tópicos
Autor :	Bello Medina, Kevin Segundo
Asesor :	Coronado Matutti, Alberto
Palabras clave :	Procesamiento de datos;Métodos estadísticos;Sistemas inteligentes;Algoritmos de aprendizaje
Fecha de publicación :	2017
Editorial :	Universidad Nacional de Ingeniería
Resumen :	En la actualidad existen sistemas inteligentes cada vez más sofisticados, tales como: sistemas de reconocimiento de objetos, reconocimiento de voz, sistemas de recomendación, entre otros. Estos sistemas consisten en modelos que usan datos (texto, audio, imágenes, etc.) para encontrar patrones y poder realizar tareas de predicción más complejas. El campo que estudia estos problemas se conoce como machine learning (aprendizaje automático). Dentro del campo, existen varios paradigmas de aprendizaje, de los cuales dos de ellos son conocidos como, supervisado y no-supervisado, siendo ambos, utilizados en esta tesis. En aprendizaje supervisado se provee al modelo datos previamente etiquetados, por ejemplo, para el caso de reconocimiento de objetos, la etiqueta viene a ser el objeto que se muestra en cada imagen. El modelo de aprendizaje supervisado usado en esta tesis se conoce como modelo oculto de Markov, este modelo se usó para representar la tarea de extracción de entidades semánticas, uno de los componentes del sistema. Por el contrario, el aprendizaje no-supervisado no cuenta con datos previamente etiquetados, por lo que la tarea generalmente es más compleja de evaluar, ya que no se dispone con alguna etiqueta “correcta”. El modelo de aprendizaje no-supervisado usado en este trabajo se conoce como latent Dirichlet allocation, este modelo encuentra una estructura oculta de temas (tópicos) que intenta explicar la generación de una colección de documentos. En muchas situaciones, el uso de este tipo de sistemas permite realizar tareas que una persona no puede hacer debido a la inmensa cantidad de datos que se dispone. También permite revelar información que un humano por simple inspección no puede detectar, por el mismo hecho de ser complicado el hacer un seguimiento de grandes cantidades de datos. El sistema propuesto en esta tesis usa datos basados en avisos de trabajo en el Perú publicados en la web. La idea es tomar ventaja de estos modelos, para revelar información que puede estar siendo ignorada al momento de realizar un análisis al mercado laboral peruano. Para este estudio, se ha organizado el trabajo en cuatro capítulos que son expuestos de la siguiente forma: En el Capítulo 1 se realiza una introducción a esta tesis, los objetivos, alcances, limitaciones, y un recuento de trabajos desarrollado por otros autores relacionados al tema. En el Capítulo 2 se presentan los detalles de los componentes del sistema (procesamiento de datos, el analizador sintáctico superficial y el modelado de tópicos). También se provee una descripción de los modelos de aprendizaje automático utilizados, su representación, el proceso de inferencia, y los algoritmos de aprendizaje. Estos conceptos son necesarios para entender como funciona el sistema completo propuesto en esta tesis. El Capítulo 3 presenta la configuración de los experimentos para la sintonización de los parámetros del modelo oculto de Markov, y el modelo latent Dirichlet allocation. También se muestran los resultados obtenidos, y un análisis cuantitativo y cualitativo para el caso del modelado de tópicos. Finalmente, se determina la selección del modelo a explorar. En el Capítulo 4 se describe la forma en la que se presenta el contenido del visualizador, detallando todas las páginas disponibles, así como, los cálculos para el orden de presentación de los elementos de cada página. En el Apéndice A se provee un pequeño recuento del campo de probabilidades, enfatizando el tema de variables aleatorias, así como, las distribuciones usadas en los modelos de aprendizaje automático. El Apéndice B muestra el comportamiento de las variables aleatorias en una red de Bayes, es decir, el mapa de dependencias en la red. Estos apéndices fueron incluidos con el objetivo de aclarar los conceptos en los que se basan los modelos.
URI :	http://hdl.handle.net/20.500.14076/8234
Derechos:	info:eu-repo/semantics/restrictedAccess
Aparece en las colecciones:	Ingeniería Mecatrónica

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
bello_mk.pdf		5,63 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

Indexado por: