PROYECTO FINAL

1. OBTENCION DE DATOS

2. AED( Análisis exploratorio de datos )

2.1 Preguntas

Hay 3 tipo de tipos de datos ( Float, integer, objeto )

El porcentaje de 'nulls' para todas las columans es igual a 0, no hay datos nulos.

Los unicos atributos categoricos son: Geography, Gender. Apartando a Surname, CustomerId y RowNumber que son datos unicos lo cual se sacara del analisis.

La distribución de el BALANCE(Saldo) no es del todo normal, asi como EstimatedSalary y Tenure

En gran parte estos datos son de clientes que se encuentran en France, tanto clientes que se fueron o se quedaron.

Hay mucha mas cantidad de clientes que se quedaron, tanto para cada pais. Lo cual a un temprano analisis, se destaca que la banca no le fue tan mal, de acuerdo a los estadares normales.

En cuanto a clientes que se fueron hay una simliar de cantidad de clientes por cada pais.

En cuanto a clientes que se quedaron hay un mayor porcentaje de clientes en Francia.

De los 3 atributos categoricos, hay un pequeño desbalance ya que la cantidad de clientes que abandonan y no abandonan no son muy equitativos, es decir en el análisis las cantidades son no balanceadas.

Antes de balancear los datos tener en cuenta que las columnas categoricas 'Gender' y 'Geography' deberian ser numericas para poder relacionarlas de mejor manera con las demas columnas, esto con la funcion get_dummies:

Ahora aplicaremos el Oversampling para balancear estas dos tipos de clases de la clumna Exited:

Esta matriz de correlacion me ayuda a deducir que probalemente la edad y el saldo(balance) tenga un mayor efecto en si el cliente abandona o no.

despues de convertir los datos categoricos a numericos se sigue estableciendo que la edad y el saldo siguen teniendoe efecto, pero a esta se anade, a clientes que estan Alemania.

3. MODELAMIENTO

3.1 Split: Train / Valid / Test

Como algunas de las columnas tienen valores 0/1 pero otras tienen valores grandes, se sugiere convertir estos valores en una forma estándar para que el DL algo converse rápidamente

LogisticRegression Con datos Sin Escalar:

LogisticRegression Con datos Escalados:

Red neuronal:

4. RESULTADOS