Please use this identifier to cite or link to this item: http://cybertesis.uni.edu.pe/handle/uni/21296
Title: Diseño de un modelo de Data Mining para incrementar la disponibilidad de entrega de documentos en una empresa financiera
Authors: Guillén Vásquez, Aníbal Javier
Advisors: Oporto Díaz, Samuel Alonso
Keywords: Metodología CRISP-DM;Ciclo de minería de Datos;Algoritmos de Árboles de decisión
Issue Date: 2019
Publisher: Universidad Nacional de Ingeniería
Abstract: Esta tesis tiene como uno de sus objetivos identificar y clasificar los documentos que deben de permanecer en el Archivo In House al momento de realizar el proceso de transferencia, de tal manera que el indicador de Disponibilidad del Archivo In House aumente por encima del 90%. Los documentos que deben de permanecer en el Archivo In House son aquellos con mayor probabilidad de ser solicitados por los usuarios. Dicha identificación es llevada a cabo con el uso de algoritmos de clasificación de Minería de Datos, que son un tipo de problema de Minería de Datos que cataloga a un conjunto de datos, generalmente con un valor binario, con el fin de predecir su comportamiento; este valor es conocido como la variable Target. Se hace uso de la metodología CRISP-DM que es una hoja de ruta que permite, a través de 6 etapas, cubrir el ciclo de Minería de Datos y obtener el resultado esperado. Dichas etapas son: Comprensión del negocio, Comprensión de los datos, Preparación de los datos, Modelado, Evaluación y Despliegue. Se opta por evaluar 4 algoritmos de clasificación: Árboles de decisión, Naive Bayes, Inducción de reglas y Regresión logística, y se opta por aquel algoritmo que cuente con el mayor indicador de Exactitud y el menor indicador de Especificidad, en este caso el algoritmo de Árboles de decisión. Se verifica que el indicador de Disponibilidad del Archivo In House se incrementa a un 92% con el modelo diseñado y el algoritmo escogido, por encima de la meta planteada de 90%.
This thesis has as one of its objectives the identification and classification of the documents that must remain in the In House Archive at the time of the transfer process, so that the indicator of Availability of the In House Archive increases above 90 %. The documents that must remain in the In House Archive are those most likely to be requested by users. Such identification is carried out with the use of Data Mining classification algorithms, which are a type of Data Mining problem that catalogs a set of data, usually with a binary value, in order to predict its behavior; This value is known as the Target variable. The CRISP-DM methodology is used, which is a road map that allows, through 6 stages, to cover the Data Mining cycle and obtain the expected result. These stages are: Understanding the business, Understanding the data, Preparing the data, Modeling, Evaluation and Deployment. It is decided to evaluate 4 classification algorithms: Decision trees, Naive Bayes, Rule induction and Logistic regression, and it is chosen that algorithm that has the highest Accuracy indicator and the lowest Specificity indicator, in this case the algorithm of Decision trees Implementing the model with the chosen algorithm, it is verified that the indicator of Availability of the In House Archive is increased to 92%, above the target set of 90%.
URI: http://cybertesis.uni.edu.pe/handle/uni/21296
Rights: info:eu-repo/semantics/embargoedAccess
Appears in Collections:Ingeniería de Sistemas

Files in This Item:
File Description SizeFormat 
guillen_va.pdf1,46 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons

Indexado por:
Indexado por Scholar Google LaReferencia Concytec BASE renati ROAR ALICIA RepoLatin UNI