Regresión Lineal Simple – Teoría

El modelo de Regresión Lineal es tan simple que muchos argumentan que no es digno de ser clasificado como Machine Learning. Este algoritmo es un método estadístico que nos permite resumir y estudiar las relaciones entre dos variables continuas cuantitativas.

La Regresión Lineal es una técnica paramétrica utilizada para predecir variables continuas, dependientes, dado un conjunto de variables independientes. Es de naturaleza paramétrica porque hace ciertas suposiciones basadas en el conjunto de datos. Si el conjunto de datos sigue esas suposiciones, la regresión arroja resultados increíbles, de lo contrario, tiene dificultades para proporcionar una precisión convincente.

Matemáticamente, la regresión usa una función lineal para aproximar o predecir la variable dependiente dada como:

Teoría Regresión Lineal Simple 1

Donde:

y – es la variable dependiente o la variable a predecir.

x – es la variable independiente o la variable que usamos para hacer una predicción.

a – es la pendiente o el valor que debe ser determinado, se le conoce como coeficiente y es una especie de magnitud de cambio que pasa por y cuando x cambia.

b – es la constante que debe ser determinada, se le conoce como intercepto porque cuando x es igual a 0, entonces y = b.

Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo hay una variable independiente involucrada, que vendría siendo “x”.

Teoría Regresión Lineal Simple 2

El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre todos los datos y nuestra línea, por lo tanto, para determinar la mejor línea, debemos minimizar la distancia entre todos los puntos y la distancia de nuestra línea.  Existen muchos métodos para cumplir con este objetivo, pero todos estos métodos tienen un solo objetivo que es el de minimizar la distancia.

Una forma en que el modelo de regresión encuentre la mejor línea de ajustes es utilizando el criterio de mínimos cuadrados para reducir el error.

El error es una parte inevitable del proceso de predicción, no importa cuán poderoso sea el algoritmo que elijamos, siempre habrá un error irreductible. Sabemos que no podemos eliminar por completo el error, pero aún podemos intentar reducirlo al nivel más bajo. Justamente es en este momento en que se usa la técnica conocida como mínimos cuadrados.

La técnica de mínimos cuadrado intenta reducir la suma de los errores al cuadrado, buscando el mejor valor posible de los coeficientes de regresión.

Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal pero se selecciona debido:

  • Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que es más fácil diferencias y calcular el descenso del gradiente.
  • Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse rápidamente a conjuntos de datos que tienen miles de características.
  • La interpretación es mucho más fácil que otras técnicas de regresión.

Comprendamos en detalle como usar estas formulas con un ejemplo:

Se nos da un conjunto de datos con 100 observaciones y 2 variables, altura y peso. Necesitamos predecir el peso dada la altura.  La ecuación sería el de Regresión Lineal simple ya que solamente cuenta con una variable independiente y se puede escribir de la siguiente forma:

y = ax + b

Donde:

y – es el peso

x – es la altura

a, b son los coeficientes a ser calculados

Al usar Python o cualquier lenguaje de programación no necesitas saber cómo se calculan estos coeficientes e inclusive el error, razón por la cual a la mayoría de las personas no les importa el cómo calcularla, pero es mi consejo que debes por lo menos tener un conocimiento al respecto para de esta forma te acerques a ser un maestro en estos temas.

La formula para calcular estos coeficientes es fácil inclusive si solamente tienes los datos y no tienes acceso a ninguna herramienta estadística para el cálculo podrás hacer la predicción.

La fórmula para calcular coeficientes es la siguiente:

Regresión-Lineal-simple-teoría-4

donde:

i = 1 al número de datos

Regresión-Lineal-simple-teoría-5

Suposiciones sobre la Regresión Lineal

La regresión es una técnica paramétrica, por lo que hace suposiciones, veamos algunas de ellas:

  • Existe una relación lineal y aditiva, entre las variables dependientes e independientes. Por lineal, significa que un cambio en la variable dependiente por 1 cambio de unidad en la variable independiente es constante. Por aditivo, se refiere al efecto de “x” y “y” son independientes de otras variables.
  • No debe haber correlación entre las variables independientes. La presencia de correlación en variables independientes conduce a multicolinealidad. Si las variables están correlacionadas, se vuelve extremadamente difícil para el modelo determinar el verdadero de las variables independientes sobre las variables dependientes.
  • Los términos de error deben poseer varianza constante, ni deben correlacionarse. La presencia de correlación en términos de error se conoce como autocorrelación y afecta de manera drástica los coeficientes de regresión y los valores de error estándar, ya que se basan en la suposición de los términos de error no correlacionados.
  • La variable dependiente y los términos de error deben tener una distribución normal.

La presencia de estos supuestos hace que la regresión sea bastante restrictiva, es decir el rendimiento de un modelo de regresión está condicionado al cumplimiento de estas suposiciones.

Una vez que se violan estas suposiciones, la regresión hace predicciones tendenciosas y erráticas por lo que se debe tener en cuenta cuando se este trabajando con este algoritmo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *