Aprendizaje Supervisado: Logistic Regression

La regresión logística o Logistic Regression es un algoritmo de clasificación que se utiliza para predecir la probabilidad de una variable dependiente categórica. En la regresión logística, la variable dependiente es una variable binaria que contiene datos codificados como 1 – 0, sí – no, abierto – cerrado, etc.

Aprendizaje Supervisado: Logistic RegressionEste modelo logístico binario se utiliza para estimar la probabilidad de una respuesta binaria basada en una o más variables predictoras o independientes. Permite decir que la presencia de un factor de riesgo aumenta la probabilidad de un resultado dado un porcentaje específico.

Como todos los análisis de regresión, la regresión logística es un análisis predictivo. Se usa para describir datos y explicar la relación entre una variable binaria dependiente y una o más variables independientes nominales, ordinales, de intervalo o de nivel de razón.

La regresión logística requiere tamaños de muestra bastante grandes.

La razón por la cual la regresión logística es ampliamente utilizada, a pesar de los algoritmos avanzados como redes neuronales profunda, es porque es muy eficiente y no requiere demasiados recursos computacionales que hacen que sea asequibles ejecutar la producción.

Algunas de las características que debes considerar para este algoritmo son las siguientes:

Variable de salida binaria. Esto puede ser obvio, pero la regresión logística está destinada a problemas de clasificación binarios (dos clases). Predicará la probabilidad de que una instancia pertenezca a la clase predeterminada, que puede dividirse en una clasificación 0 ó 1.

Eliminar ruido. La regresión logística no asume ningún error en la variable de salida (y). Considera la eliminación de los valores atípicos y posiblemente las instancias más clasificadas de sus datos de entrenamiento.

Distribución gaussiana. La regresión logística es un algoritmo lineal, con una transformación no lineal en la salida. Las transformaciones de datos de sus variables de entrada que exponen mejor esta relación lineal pueden dar como resultado un modelo más preciso.

Eliminar entradas correlacionadas. Al igual que la regresión lineal, el modelo puede sobreajustarse si tiene múltiples entradas altamente correlacionadas. Consideremos calcular las correlaciones por pares entre todas las entradas y eliminar las entradas altamente correlacionadas.

No se puede converger. Es posible que el proceso de estimación de probabilidad esperado aprenda que los coeficientes no convergen, esto puede suceder si hay muchas entradas altamente correlacionadas en sus datos o si los datos son muy escasos.

Aprendizaje Supervisado: Logistic Regression

Respuesta a la pregunta del video: ¿Cuál de los siguientes ejemplos podemos aplicar el algoritmo de regresión logística?

Opción 1: Predecir la temperatura de un lugar específico de acuerdo a los datos históricos. Respuesta Incorrecta. Con este algoritmo no se puede predecir la temperatura de un lugar ya que para ello se requiere utilizar un algoritmo de regresión y este es un algoritmo de clasificación.

Opción 2: Predecir si una acción de la bolsa de valores va a subir o bajar, utilizando los valores histórico. Respuesta Correcta. Con este algoritmo se puede predecir si una acción de la bolsa va a subir o bajar, ya que le predicción siempre será una de estas dos condiciones.

Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Correcta. Con este algoritmo se puede determinar si una persona puede vivir o morir el hundimiento del Titanic, ya que la predicción será una de estas dos condiciones.
ebook introducción a machine learning

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *