PORTFOLIO OSWALDO L. ZÁRATE


logo

PREDICCION DE GASTOS POR SEGUROS

Importamos todas las librerias necesarias

Lectura del Dataset


Descrición de los datos

Identificación de valores faltantes

Ingeniería de Funciones y Análisis Exploratorio de Datos (E.D.A.)

Codificación de las características ('sex', 'smoker', 'region')

La salida de arriba muestra el cambio de etiquetas de los objetos 'sex', 'smoker', 'region' que tenian valores no estructurados, y se lo cambio a valores categoricos como 0,1,2,3

Por lo tanto hemos codificado la caracteristica 'sex' como: '0' para mujer & '1' para hombre.

Para la característica 'smoker' : '0' para no & '1' para yes.

Para la característica 'region': '0' para northeast, '1' para southwest, '2' para southeast & '3' para northwest.

El resumen puede verse a continuación:

sex :

smoker :

region :

Guardar el conjunto de datos limpio y codificado


Dividiendo el conjunto de datos en variables independientes y dependientes

Escala de características

Estandarizar datos

Train/Test split



Countrucción de Modelos

- 1.Linear Regression



A lo largo del módulo, designamos el vector w = (w_1, ..., wp) como `coefy w_0 comointercept_`.

y ^ ( w , x ) = w 0 + w 1 x 1 + . . . + w p x p

De los Coeficientes de encima podemos observar que las caracteristicas : smoker, age y bmi tienen el mayor efecto en los cargos del seguro,

lo cual es correcto porque incluso en el mundo real: la edad, la obesidad y los hábitos de fumar tienen una influencia significativa sobre los riesgos para la salud. y, por tanto, mayores gastos de seguro.

Trazando 'Actual' y 'Predicted'


2. Decision Tree


Resumeniendo las metricas de precision de todos los modelos.



Dado que el modelo Random Forest funciona mejor en mi conjunto de datos, usaré Random Forest como modelo final para implementar y predecir los cargos del seguro en función de los atributos de una persona.



Ahora usaremos otro notebook llamado 'predecir cargos de seguro'