Diseño de un modelo de Data Mining para incrementar la disponibilidad de entrega de documentos en una empresa financiera

Guillén Vásquez, Aníbal Javier

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/20.500.14076/21296

Título :	Diseño de un modelo de Data Mining para incrementar la disponibilidad de entrega de documentos en una empresa financiera
Autor :	Guillén Vásquez, Aníbal Javier
Asesor :	Oporto Díaz, Samuel Alonso
Palabras clave :	Metodología CRISP-DM;Ciclo de minería de Datos;Algoritmos de Árboles de decisión
Fecha de publicación :	2019
Editorial :	Universidad Nacional de Ingeniería
Resumen :	Esta tesis tiene como uno de sus objetivos identificar y clasificar los documentos que deben de permanecer en el Archivo In House al momento de realizar el proceso de transferencia, de tal manera que el indicador de Disponibilidad del Archivo In House aumente por encima del 90%. Los documentos que deben de permanecer en el Archivo In House son aquellos con mayor probabilidad de ser solicitados por los usuarios. Dicha identificación es llevada a cabo con el uso de algoritmos de clasificación de Minería de Datos, que son un tipo de problema de Minería de Datos que cataloga a un conjunto de datos, generalmente con un valor binario, con el fin de predecir su comportamiento; este valor es conocido como la variable Target. Se hace uso de la metodología CRISP-DM que es una hoja de ruta que permite, a través de 6 etapas, cubrir el ciclo de Minería de Datos y obtener el resultado esperado. Dichas etapas son: Comprensión del negocio, Comprensión de los datos, Preparación de los datos, Modelado, Evaluación y Despliegue. Se opta por evaluar 4 algoritmos de clasificación: Árboles de decisión, Naive Bayes, Inducción de reglas y Regresión logística, y se opta por aquel algoritmo que cuente con el mayor indicador de Exactitud y el menor indicador de Especificidad, en este caso el algoritmo de Árboles de decisión. Se verifica que el indicador de Disponibilidad del Archivo In House se incrementa a un 92% con el modelo diseñado y el algoritmo escogido, por encima de la meta planteada de 90%. This thesis has as one of its objectives the identification and classification of the documents that must remain in the In House Archive at the time of the transfer process, so that the indicator of Availability of the In House Archive increases above 90 %. The documents that must remain in the In House Archive are those most likely to be requested by users. Such identification is carried out with the use of Data Mining classification algorithms, which are a type of Data Mining problem that catalogs a set of data, usually with a binary value, in order to predict its behavior; This value is known as the Target variable. The CRISP-DM methodology is used, which is a road map that allows, through 6 stages, to cover the Data Mining cycle and obtain the expected result. These stages are: Understanding the business, Understanding the data, Preparing the data, Modeling, Evaluation and Deployment. It is decided to evaluate 4 classification algorithms: Decision trees, Naive Bayes, Rule induction and Logistic regression, and it is chosen that algorithm that has the highest Accuracy indicator and the lowest Specificity indicator, in this case the algorithm of Decision trees Implementing the model with the chosen algorithm, it is verified that the indicator of Availability of the In House Archive is increased to 92%, above the target set of 90%.
URI :	http://hdl.handle.net/20.500.14076/21296
Derechos:	info:eu-repo/semantics/restrictedAccess
Aparece en las colecciones:	Ingeniería de Sistemas

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
guillen_va.pdf		1,46 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

Indexado por: