Regresión Lineal Múltiple – Teoría

En una entrada anterior explicamos cómo resolver un modelo de Regresión Lineal simple, en donde utilizábamos una variable independiente para predecir una variable dependiente, este es un buen comienzo, pero en el mundo real es utilizada en muy pocos escenarios. Por lo general, una variable dependiente depende de múltiples factores, por ejemplo, para predecir el precio de una vivienda depende de muchos factores, como el lugar en donde se encuentre, el tamaño, el número de habitaciones, entre otros.

La Regresión Lineal Múltiple es muy parecida a la simple, pero acá se manejan múltiples variables independientes que contribuyen a la variable dependiente. Se manejan múltiples coeficientes y a su vez es computacionalmente más compleja debido a las variables añadidas.

La ecuación de la Regresión Lineal múltiple es la siguiente:

Teoría Regresión Lineal Multiple 1

Como podemos observar es muy parecida a la de Regresión Lineal simple solamente que acá incluimos las n variables independientes con su respectivo coeficiente.

Generalmente, cuando se trata de Regresión Lineal múltiple no incluimos todas las variables independientes a la vez y posteriormente comenzamos a minimizar la función de error. Lo primero que se debe hacer es enfocarse en seleccionar las mejores variables independientes que puedan contribuir a la variable dependiente. Para esto, debemos construir una matriz de correlación para todas las variables independiente e incluimos la variable dependiente.

El valor de correlación nos da una idea de qué variable es significativa y por qué factor. A partir de esta matriz, elegimos las variables independientes en orden decreciente de valor de correlación y ejecutamos el modelo de regresión para estimar los coeficientes minimizando la función de error. Nos detenemos cuando no hay mejora destacada en la función de estimación mediante la inclusión de la siguiente característica independiente. Este método aún puede complicarse cuando hay un gran número de características independientes que tienen una contribución significativa al decidir nuestra variable dependiente. Este método es explicado mucho mejor en otra entrada de este mismo blog.

Lo importante que tienes que tomar en cuenta con este método es que agregar más variables independientes no significa que la regresión sea mejor u ofrece mejores predicciones. La Regresión Lineal múltiple y simple tiene diferentes casos de uso, uno no es superior. En algunos casos, agregar más variables independientes puede empeorar las cosas, esto se conoce como ajuste excesivo.

Por otra parte, cuando se agrega más variables independientes se crean relaciones entre ellas. Entonces, no solo las variables independientes están potencialmente relacionadas con la variable dependiente, sino que también están potencialmente relacionadas entre sí, esto se conoce como multicolinealidad. El escenario óptimo es que todas las variables independientes de correlacionen con la variable dependiente, pero no entre sí.

Toma en cuenta que muchas de las suposiciones explicadas para la Regresión Lineal Simple se aplican acá por lo que te recomiendo que verifiques ese tutorial para que complementes la información acá presentada.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *