Aprendizaje Supervisado: Linear Regression

La regresión es una forma estadística de establecer una relación entre una variable dependiente y un conjunto de variables independientes.

Es un enfoque muy simple para el aprendizaje supervisado. Aunque puede parecer algo aburrido en comparación con algunos de los algoritmos más modernos, este algoritmo sigue siendo un método de aprendizaje estadístico útil y ampliamente utilizado.

La regresión lineal o linear regression es un método para predecir la variable dependiente (y) en función de los valores de las variables independientes (X). Se puede usar para los casos donde queremos predecir alguna cantidad continua, por ejemplo, predecir el tráfico en una tienda minorista, predecir el tiempo de permanencia de un usuario o el número de páginas visitas en un blog, etc.

Pero, ¿qué son las variables dependientes y las variables independientes?

Aprendizaje Supervisado: Linear Regression

Variables independientes (características): es una variable que se manipula para determinar el valor de una variable dependiente. Simplemente, son las características que queremos usar para predecir algún valor dado de y.

Variable dependiente (objetivo): la variable dependiente depende de los valores de la variable independiente. En pocas palabras, es la característica que estamos tratando de predecir. Esto también se puede conocer comúnmente como una variable de respuesta.

Aprendizaje Supervisado: Linear RegressionEste algoritmo consiste en hallar una línea recta que mejor encaje en un conjunto de datos dados, este conjunto de datos comprende las variables independientes e dependiente. Para esto podremos utilizar métodos matemáticos como el de los mínimos cuadrados, para buscar minimizar la distancia vertical de todos los puntos a la línea recta.

Una vez obtenida esta línea recta, seremos capaces de hacer predicciones hipotéticas sobre cuál será el valor de “y” dado “X”.

Aprendizaje Supervisado: Linear Regression

Para ajustar una línea de regresión lineal, los datos deben satisfacer algunas suposiciones básicas pero importantes, si sus datos no siguen los suposiciones, sus resultados pueden ser incorrectos y engañosos.

Linealidad y aditivo. Debe existir una relación lineal, los datos deben satisfacer algunas suposiciones básicas pero importantes. Si los datos no siguen las suposiciones, los resultados pueden ser incorrectos y engañosos.

Suposición lineal. La regresión lineal supone que la relación entre la entrada y salida es lineal. No es compatible con nada más. Esto puede ser obvio, pero es bueno recordar cuando tenemos muchos atributos.

Eliminar el ruido. La regresión lineal asume que sus variables de entrada y salida no son ruidosas. Consideremos usar operaciones de limpieza de datos que permitan exponer mejor y aclarar la señal en los datos.

Eliminar la colinealidad. La regresión lineal se ajustará demasiado a los datos cuando tenga variables de entrada altamente correlacionadas. Considera calcular correlaciones por pares para sus datos de entrada y eliminar los más correlacionados.

Distribuciones gaussianas. La regresión lineal hará predicciones más confiables si sus variables de entrada y salida tienen una distribución normal. Podemos obtener algún beneficio utilizando transformaciones en sus variables para hacer que su distribución tenga un aspecto más gaussiano.

Aprendizaje Supervisado: Linear Regression

 

Respuesta a la pregunta del video: ¿Cuál de los siguientes ejemplos podemos aplicar el algoritmo de regresión lineal?

Opción 1: Predecir el precio de una acción de la bolsa de valores, utilizando los valores históricos. Respuesta Correcta. Con este algoritmo se puede calcular el precio tomando la data antigua de la acción, aunque no será el mejor algoritmo para predecir este valor, la razón es que en ocasiones la data no será completamente lineal, ya el precio tendrá subidas y bajadas, por lo que es preferible seleccionar otro algoritmo.

Opción 2: Predecir si una persona esta enferma tomando en cuenta su altura, peso y temperatura. Respuesta Incorrecta. Con este algoritmo no se puede predecir esto, ya que este es un algoritmo de regresión por lo que la predicción es un número, en cambio en este problema se debe predecir si la persona está enferma o no por lo que es un problema de clasificación.

Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Incorrecta. Con este algoritmo no se puede predecir esto, ya que este es un algoritmo de regresión por lo que la predicción es un número, en cambio en este problema se debe predecir si la persona vive o muere en el hundimiento del Titanic por lo que es un problema de clasificación.

 

ebook introducción a machine learning

6 thoughts on “Aprendizaje Supervisado: Linear Regression”

  1. Hola Ricardo, la opción 1 correctamente puede ser solucionada utilizando el algoritmo de regresión líneal, por su parte para la opción 2 no se puede utilizar ningún algoritmo de regresión ya que acá se va a evaluar si una persona está enferma o no por lo que se debe emplear un algoritmo de clasificación.
    Saludos.

  2. La respuesta a la opción 1 es correcta, por su parte la respuesta dada para la opción 3 no lo es, este es un problema de clasificación. Saludos.

  3. Hola, una duda:
    En el análisis múltiple, ¿cómo se representan gráficamente los resultados? ¿se hace una recta de regresión por cada variable independiente o se crea una tabla con la relación que hay entre cada par de variables?

    Gracias.

  4. Hola, para graficar los resultados con datos múltiples es un poco más complicado que con la regresión lineal simple, en este caso puedes presentarlos por medio de una tabla pero hay personas que los grafican, pero para obtener esta gráfica tienes que tener un conocimiento mas avanzado de programación, ya que acá deberás buscar relaciones en los datos y empezar a programar, no se hace a través de librerías de Python. Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *