Hoy en día se tienen varias innovaciones en productos crediticios. Uno de los productos con mayor tracción en la industria fintech se basa en la modalidad de buy now, pay later (BNPL). La rapidez en la cual se debe generar el crédito en la modalidad BNPL generalmente impide una validación exhaustiva de la información compartida por el cliente.
Una forma de “validar” el valor proporcionado del nivel de ingreso del solicitante es comparar el valor reportado con el resultado de un modelo entrenado con los datos históricos. En esta actividad, se tienen un conjunto de datos con los valores reportados del nivel de ingreso de varios solicitantes de crédito y su información demográfica asociada. Se supondrá que este conjunto de datos ha sido previamente validado por un experto en riesgo crediticio, por lo que, se puede utilizar para entrenar un modelo de regresión con la capacidad de predecir el nivel de ingreso, dado la información contextual (demográfica) del solicitante.
Para la resolución de este problema se utiliza un conjunto de datos, dividido en tres particiones y disponible en este repositorio en la nube aquí
La descarga de la información se realiza programáticamente con Python utilizando el siguiente código:
Enseguida se incluye el texto para fines prácticos:
import os
import pandas as pd
url _base = (
“https://gist.github.com/RHDZMOTA/”
“406bb08e1a33469eceb66e5d6bf78e27/raw/a5f5d03c731df8a08e0574b150fe877f0abcc564/”
)
dataset_names = [
“annual – income – category – low.json”,
“annual – income – category -medium.json”,
“annual – income – category – hight.json”,
]
dataset = pd.contact ( [pd.read_json(f”{url_base}/{name}”). T for name in dataset_names]) \
.sample(frac=1 , random_state=888). reset_index (drop=true)
print(dataset.shape)
dataset.head()
(222416, 6)
Considera los siguientes pasos para generar el modelo de regresión:
Reporte ejecutivo que contiene las siguientes secciones: