Please use this identifier to cite or link to this item:
http://hdl.handle.net/20.500.14076/22825
Title: | Redes neuronales artificiales y máquina con soporte vectorial para clasificar a los solicitantes de microcrédito |
Authors: | Canelo Sotelo, César Aldo |
Advisors: | Espinoza Haro, Pedro Celino |
Keywords: | Redes neuronales artificiales;Microcrédito;Gestión del riesgo crediticio |
Issue Date: | 2021 |
Publisher: | Universidad Nacional de Ingeniería |
Abstract: | Las entidades crediticias constantemente se enfrentan al problema de controlar el riesgo de crédito al que se exponen al desarrollar sus operaciones crediticias, en tal sentido, siempre han requerido apoyarse en modelos predictivos que les ayuden a tomar decisiones acertadas para la aceptación o el rechazo de una solicitud de crédito. Los modelos predictivos que emplean las instituciones financieras para calificar a los solicitantes de crédito son los conocidos modelos clásicos basados en técnicas estadísticas y los modelos basados en técnicas de máquinas de aprendizaje.
En esta investigación, con el objetivo de clasificar a los solicitantes de microcrédito y contribuir a la mejora de la gestión del riesgo crediticio, se trabaja con la Base de datos de una Caja Municipal de Ahorro y Crédito (CMAC) que contiene 15,569 registros, cada uno con 27 variables, en donde las primeras 26 variables son los datos del cliente, y la última es la variable de aceptación o rechazo del crédito (V27). Al estudiar la Base de datos, se determinó que la variable Días de atraso de la última cuota pagada (V8) tiene la más alta correlación (0.78) con la Aceptación o el rechazo del crédito, y luego de un estudio más detenido de la Base de datos se descubrió que aquellos que tenían días de atraso de la última cuota superior a los 30 días se constituían en los clientes rechazados y los que no, en aceptados, por esta razón, las pruebas empleando las técnicas de máquinas de aprendizaje, se hacen con la Base de datos que, en unos casos incluyen esta variable y en otros casos la excluyen.
En primer lugar, se emplean las Redes Neuronales Artificiales (RNA) Backpropagation, para predecir el comportamiento crediticio de los prestatarios ante una entidad de microfinanzas. En segundo lugar, se emplean las Redes Self-Organizing- Maps (RNA-SOM) para agrupar los prestatarios en clústeres, y estudiar qué variables han influido en la conformación de los clústeres; y, en tercer lugar, se emplean las Máquinas con Soporte Vectorial (MSV) para separar los registros de la Base de datos.
Con la RNA Backpropagation se hicieron pruebas con diversas arquitecturas de la red, y se determinó que con una red de 4 capas con 14, 10, 8 y 1 neuronas respectivamente, se obtuvo una precisión 0.97682 que fue la mayor obtenida en todas las pruebas hechas con la Base de datos completa. Luego se han hecho pruebas con la Base de datos en la que la variable V8 sustituye a la variable V27, y la precisión obtenida es menor, pero sigue siendo una buena precisión de la red, y finalmente, se excluye de la Base de datos a la variable V8, obteniéndose una precisión menor, y de esta manera se comprueba que la variable V8 es la más realista.
Con Redes Self-Organizing-Maps (RNA-SOM) de dos neuronas se han hecho dos pruebas, una con topología Gridtop y métrica Dist, y otra prueba cambiando a la topología Hextop y a la métrica Linkdist. Los resultados obtenidos que están respaldados por las medidas estadísticas de las variables en cada clúster y los coeficientes de correlación en la formación de los clústeres, concluyen que, con el cambio de topología y métrica, no hay diferencias sustanciales en la composición de los clústeres, sólo ha habido el desplazamiento de un pequeño grupo de prestatarios entre los clústeres.
Con Redes Self-Organizing-Maps (RNA-SOM) de tres neuronas se han hecho dos pruebas, una con topología Gridtop y métrica Dist, y otra prueba cambiando a la topología Hextop y a la métrica Linkdist. Las medidas estadísticas de las variables en cada clúster y los coeficientes de correlación en la formación de los clústeres, permiten concluir que, con el cambio de topología y métrica, no hay diferencias sustanciales en la composición de los clústeres, sólo se ha producido el desplazamiento de un pequeño grupo de prestatarios entre los clústeres contiguos.
Finalmente, con la Máquina con Soporte Vectorial con núcleo lineal, se han separado a los prestatarios en dos grupos: aceptados y rechazados. Se han hecho dos pruebas, una con la Base de datos completa, y otra prueba eliminando la variable V8. En ambas pruebas se ha logrado la separación con un reducido número de vectores soporte en las fronteras, es decir se ha encontrado un hiperplano de separación óptima que ha dado lugar a la separación de dos grupos de clientes bien definidos. Credit institutions constantly face the problem of controlling the credit risk to which they are exposed when developing their credit operations, in this sense, they have always required to rely on predictive models that help them make the right decisions for the acceptance or rejection of a loan. credit request. The predictive models that financial institutions use to rate loan applicants are the well-known classical models based on statistical techniques and models based on machine learning techniques. In this research, in order to classify microcredit applicants and contribute to improving credit risk management, we work with the Database of a Municipal Savings and Credit Fund (CMAC) that contains 15,569 records, each one with 27 variables, where the first 26 variables are the customer's data, and the last one is the credit acceptance or rejection variable (V27). When studying the Database, it was determined that the variable Days of arrears of the last installment paid (V8) has the highest correlation (0.78) with Acceptance or rejection of credit, and after a more detailed study of the Base of data, it was discovered that those who were days late in the last installment greater than 30 days became rejected customers and those who did not, accepted, for this reason, tests using machine learning techniques are made with the Database which, in some cases, includes this variable and in other cases they exclude it. First, Backpropagation Artificial Neural Networks (ANNs) are used to predict the credit behavior of borrowers before a microfinance institution. Second, Self-Organizing-Maps Networks (RNA-SOM) are used to group borrowers into clusters, and study which variables have influenced the formation of the clusters; and, thirdly, the Vector Supported Machines (MSV) are used to separate the records from the Database. With RNA Backpropagation, tests were carried out with various network architectures, and it was determined that with a 4-layer network with 14, 10, 8 and 1 neurons respectively, a precision of 0.97682 was obtained, which was the highest obtained in all the tests carried out. with the complete Database. Then tests have been done with the Database in which the variable V8 replaces the variable V27, and the precision obtained is lower, but it is still a good precision from the network, and finally, the database is excluded from the variable V8, obtaining a lower precision, and in this way it is verified that the variable V8 is the most realistic. With Self-Organizing-Maps Networks (RNA-SOM) of two neurons, two tests have been carried out, one with Gridtop topology and Dist metric, and another test changing to Hextop topology and Linkdist metric. The results obtained, which are supported by the statistical measures of the variables in each cluster and the correlation coefficients in the formation of the clusters, conclude that, with the change in topology and metric, there are no substantial differences in the composition of the clusters, there has only been the movement of a small group of borrowers between the clusters. With Self-Organizing-Maps Networks (RNA-SOM) of three neurons, two tests have been done, one with Gridtop topology and Dist metric, and another test changing to Hextop topology and Linkdist metric. The statistical measures of the variables in each cluster and the correlation coefficients in the formation of the clusters, allow us to conclude that, with the change in topology and metric, there are no substantial differences in the composition of the clusters, only the displacement has occurred. of a small group of borrowers among the contiguous clusters. Finally, with the Linear Core Vector Supported Machine, borrowers have been separated into two groups: accepted and rejected. Two tests have been done, one with the complete Database, and another test eliminating the variable V8. In both tests, separation has been achieved with a reduced number of support vectors at the borders, that is, an optimal separation hyperplane has been found that has resulted in the separation of two well- defined groups of clients. |
URI: | http://hdl.handle.net/20.500.14076/22825 |
Rights: | info:eu-repo/semantics/openAccess |
Appears in Collections: | Doctorado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
canelo_sc.pdf | 4,74 MB | Adobe PDF | View/Open | |
canelo_sc(acta).pdf | 95,36 kB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License
Indexado por: