Hoy en día se tienen varias innovaciones en productos crediticios. Uno de los productos con mayor tracción en la industria fintech se basa en la modalidad de buy now, pay later (BNPL). La rapidez en la cual se debe generar el crédito en la modalidad BNPL generalmente impide una validación exhaustiva de la información compartida por el cliente.

Una forma de “validar” el valor proporcionado del nivel de ingreso del solicitante es comparar el valor reportado con el resultado de un modelo entrenado con los datos históricos. En esta actividad, se tienen un conjunto de datos con los valores reportados del nivel de ingreso de varios solicitantes de crédito y su información demográfica asociada. Se supondrá que este conjunto de datos ha sido previamente validado por un experto en riesgo crediticio, por lo que, se puede utilizar para entrenar un modelo de regresión con la capacidad de predecir el nivel de ingreso, dado la información contextual (demográfica) del solicitante.

  • Identificar las diferencias en el análisis de información de los modelos predictivos supervisados en la toma de decisiones.

Para la resolución de este problema se utiliza un conjunto de datos, dividido en tres particiones y disponible en este repositorio en la nube aquí

La descarga de la información se realiza programáticamente con Python utilizando el siguiente código:

Enseguida se incluye el texto para fines prácticos:

import os
import pandas as pd

url _base = (
        “https://gist.github.com/RHDZMOTA/”
        “406bb08e1a33469eceb66e5d6bf78e27/raw/a5f5d03c731df8a08e0574b150fe877f0abcc564/”
)
dataset_names = [
     “annual – income – category – low.json”,
     “annual – income – category -medium.json”,
     “annual – income – category – hight.json”,
]
dataset = pd.contact ( [pd.read_json(f”{url_base}/{name}”). T for name in dataset_names]) \
.sample(frac=1 , random_state=888). reset_index (drop=true)
  
print(dataset.shape)
dataset.head()
(222416, 6)

Considera los siguientes pasos para generar el modelo de regresión:

  1. Realiza un análisis exploratorio de los datos sobre el conjunto de datos completo.
  2. Particiona el conjunto de datos en subconjuntos de entrenamiento (70 % train) y prueba (30 % test) y contesta:
    1. ¿Por qué es importante dividir los datos en estos dos conjuntos? Justifica con una investigación propia.
    2. Registra el tamaño de ambos conjuntos de datos y muestra el código de implementación.
  3. Escoge una sola variable y haz una regresión lineal. Utiliza el conjunto de entrenamiento (train) para generar el modelo.
    1. ¿Cuál es el rendimiento predictivo del modelo de regresión con una sola variable? Calcula e interpreta el error cuadrado medio en ambos conjuntos: entrenamiento y prueba.
    2. ¿Cuál fue la metodología para seleccionar la variable utilizada? Justifica con investigación propia.
  4. Entrena un modelo de regresión lineal multivariable. Utiliza el conjunto de entrenamiento (train) para generar el modelo.
    1. ¿Cuál es el rendimiento predictivo del modelo de regresión multivariable? Calcula e interpreta el error cuadrado medio en ambos conjuntos: entrenamiento y prueba.
    2. ¿Utilizar las demás variables mejoró el rendimiento del modelo? ¿Se omitieron algunas variables o se usaron todas las disponibles? ¿Se tuvieron que hacer transformaciones adicionales a los datos?
  5. Escoge un modelo de regresión no lineal disponible en el catálogo de modelos supervisados de scikit-learn aquí. Utiliza el conjunto de entrenamiento (train) para generar el modelo.
    1. Explica el tipo de modelo seleccionado. Utiliza una investigación propia para brevemente explicar los fundamentos del modelo seleccionado.
    2. ¿Cuál es el rendimiento predictivo del modelo de regresión no lineal? Calcula e interpreta el error cuadrado medio en ambos conjuntos: entrenamiento y prueba.
    3. ¿El modelo no lineal tiene un mejor o peor rendimiento en el conjunto de prueba respecto a los dos modelos lineales anteriores? Explica e interpreta los resultados.
  6. Conclusiones.
    1. Genera una tabla comparativa con el resultado de los tres modelos (lineal, multivariable y no lineal).
    2. ¿Cuál modelo utilizarías y por qué?

Reporte ejecutivo que contiene las siguientes secciones:

  1. Introducción.
  2. Análisis exploratorio de los datos.
  3. Estrategia de particionamiento de datos.
  4. Modelo de regresión supervisado i - regresión lineal simple.
  5. Modelo de regresión supervisado ii - regresión lineal multivariable.
  6. Modelo de regresión supervisado iii - modelo no lineal.
  7. Conclusiones.