Evaluando el error en los modelos de regresión

Con un modelo de regresión, predecimos o estimamos el valor numérico de una cantidad desconocida, de acuerdo con unas características dadas. La diferencia entre la predicción y el valor real es el error, este es una variable aleatoria, que puede depender de las características dadas.

En la actualidad hay algunas formas para estimar el rendimiento y evaluar el ajuste del modelo, algunas de ellas son: el error cuadrático medio (RMSE, por sus siglas en inglés, root mean squared error), error absoluto medio (MAE, mean absolute error), R-cuadrado. Comencemos a explicar cada unas de ellas para entenderlas mejor.

Error cuadrático medio (RMSE)

La métrica más comúnmente utilizada para las tareas de regresión es el error cuadrático medio y representa a la raíz cuadrada de la distancia cuadrada promedio entre el valor real y el valor pronosticado.

Evaluando-el-error-en-los-modelos-de-regresión-1

Indica el ajuste absoluto del modelo a los datos, cuán cerca están los puntos de datos observados de los valores predichos del modelo. El error cuadratico medio o RMSE es una medida absoluta de ajuste.

Como la raíz cuadrada de una varianza, RMSE se puede interpretar como la desviación estándar de la varianza inexplicada, y tiene la propiedad útil de estar en las mismas unidades que la variable de respuesta.

Los valores más bajos de RMSE indican un mejor ajuste. RMSE es una buena medida de la precisión con que el modelo predice la respuesta, y es el criterio más importante para ajustar si el propósito principal del modelo es la predicción.

Error absoluto medio (MAE)

Evaluando-el-error-en-los-modelos-de-regresión-2

Es el promedio de la diferencia absoluta entre el valor observado y los valores predichos. El error absoluto medio o MAE es un puntaje lineal, lo que significa que todas las diferencias individuales se ponderán por igual en el promedio. Por ejemplo, la diferencia entre 10 y 0 será el doble de la diferencia entre 5 y 0.

R2

R-cuadrado indica la bondad o la aptitud del modelo, a menudo se utiliza con fines descriptivos y muestra que también las variables independientes seleccionadas explican la variabilidad en sus variables dependiente. R2 se define como:

Evaluando-el-error-en-los-modelos-de-regresión-3

R-cuadrado tiene la propiedad útil de que su escala es intuitiva, va de 0 a 1, con 0 indicando que el modelo propuesto no mejora la predicción sobre el modelo medio y 1 indica una predicción perfecta. La mejora en el modelo de regresión da como resultado aumentos proporcionales en R-cuadrado.

Una de las dificultades de R-cuadrado es que solo puede aumentar a medida que se agregan predictores al modelo de regresión. Este aumento es artificial cuando los predictores no mejoran el ajuste del modelo. Para remediar esto, una estadística relacionada es R-cuadrado ajustado, incorpora los grados de libertad del modelo. El R-cuadrado ajustado disminuirá a medida que agreguen predictores si el aumento en el ajuste del modelo no compensa la pérdidas de grados de libertad. Asimismo, aumentará a medida que se agreguen predictores si vale la pena el aumento en el ajuste del modelo. El R-cuadrado ajustado siempre se debe usar con modelos con más de una variable de predicción. Se interpreta como la proporción de la varianza total que se explica por el modelo.

Limitaciones importante de RMSE y MAE

Cada una de estas medidas es meramente un promedio o la raíz cuadrada de ese promedio de las realizaciones de los errores de prueba. El error es una variable aleatoria numérica y no se puede captar todo el comportamiento de una variable aleatoria con una sola agregación de observaciones. El error es solo una variable aleatoria, a menudo es una variable aleatoria muy sesgada. Cuando predecimos resultados sesgados, como precios, ingresos, ventas de artículos y muchos más, lo más probable es que el error también sea sesgado, lo que significa que en la mayoría de los casos el error es muy pequeño, pero hay relativamente pocos ejemplos que pueden tener errores extremadamente grandes. Cuando el error es muy sesgado, el promedio a menudo no dice nada.

R-cuadrado ajustado sobre R-cuadrado

Hay algunos problemas con R-cuadrado que se resuelven con R-cuadrado ajustado. Un R-cuadrado ajustado considerará la mejora marginal agregada por un término adicional en el modelo. Por lo tanto, aumentará si agrega los términos útiles y disminuirá si agrega predictores menos útiles. Sin embargo, R-cuadrado aumenta con el aumento de los términos a pesar de que el modelo en realidad no está mejorando.

La mejor medida del ajuste del modelo depende de los objetivos del desarrollado, y más de uno a menudo es útil. Tienes que tomar en cuando que las formas de evaluación discutidas anteriormente son aplicables a los modelos de regresión.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *