Aprendizaje Supervisado: Decision Tree Regression

Los algoritmos de aprendizaje basados en árbol se consideran uno de los mejores y más utilizados métodos de aprendizaje supervisado. Potencian modelos predictivos con alta precisión, estabilidad y facilidad de interpretación.

Aprendizaje Supervisado: Decision Tree RegressionCrear un árbol de decisiones es en un proceso de dividir los datos de entrada, este es un procedimiento numérico en el que se alinean todos los valores y se prueban diferentes puntos de división utilizando distintos métodos. Todas las variables de entrada y todos los puntos de división posibles se evalúan y se elige la que tenga mejor resultado.

Este algoritmo es muy bueno en el manejo de datos tabulares con características numéricas o características categóricas con menos de cientos de categorías. A diferencia de los modelos lineales, los árboles de decisiones pueden capturar la interacción no lineal entre las características y el objetivo.

Aprendizaje Supervisado: Decision Tree Regression

Las ventajas que tiene este tipo de algoritmo son:

Fácil de entender. La salida del árbol de decisión es muy fácil de entender, incluso para personas con antecedentes no analíticos, no se requiere ningún conocimiento estadístico para leerlos e interpretarlos.

Útil en la exploración de datos. El árbol de decisiones es una de las forma más rápidas para identificar las variables más significativas y la relación entre dos o más. Con la ayuda de los árboles de decisión podemos crear nuevas variables o características que tengan mejor poder para predecir la variable objetivo.

Se requiere menos limpieza de datos. Requiere menos limpieza de datos en comparación con algunas otras técnicas de modelado. A su vez, no esta influenciado por los valores atípicos y faltantes en la data.

El tipo de datos no es una restricción. Puede manejar variables numéricas y categóricas.

Método no paramétrico. Es considerado un método no paramétrico, esto significa que los árboles de decisión no tienen suposiciones sobre la distribución del espacio y la estructura del clasificador.

Ya vista las ventajas, ahora se deben mencionar las desventajas que posee este algoritmo:

Sobreajuste. Es una de las dificultades más comunes que tiene este algoritmo, este problema se resuelve colocando restricciones en los parámetros del modelo y eliminando ramas en el análisis.

No apto para variables continuas. Al trabajar con variables numéricas continuas, el árbol de decisiones pierde información cuando categoriza variables en diferentes categorías.

Los modelos basados en árboles no están diseñados para funcionar con características muy dispersas. Cuando se trata de datos de entrada dispersos (por ejemplo, características categóricas con una gran dimensión), podemos preprocesar las características dispersas para generar estadísticas numéricas, o cambiar a un modelo lineal, que es más adecuado para dichos escenarios.

Aprendizaje Supervisado: Decision Tree Regression

Respuesta a la pregunta del video: ¿Cuál de los siguientes ejemplos podemos aplicar el algoritmo de árbol de decisión – regresión?

Opción 1: Predecir la temperatura de un lugar específico de acuerdo a los datos históricos. Respuesta Correcta. Con este algoritmo se puede predecir la temperatura de un sitio utilizando como variables independientes los datos históricos.

Opción 2: Predecir si una acción de la bolsa de valores va a subir o bajar, utilizando los valores histórico. Respuesta Incorrecta. Con este algoritmo no se puede predecir si una acción de la bolsa va a subir o bajar ya que para esto requiere un algoritmo de clasificación y no un algoritmo de regresión.

Opción 3: Predecir si una persona puede vivir o morir en el hundimiento del Titanic tomando en cuenta la edad, sexo y ubicación de su cabina. Respuesta Incorrecta. Con este algoritmo no se puede determinar si una persona puede vivir o morir el hundimiento del Titanic, ya que para ello se requiere utilizar un algoritmo de clasificación y este es un algoritmo de regresión.

 

ebook introducción a machine learning

2 thoughts on “Aprendizaje Supervisado: Decision Tree Regression”

  1. Hola Ligdy que algoritmo me recomendarías para segmentar mejor mis campañas de facebook teniendo como datos de entrada los informes de campañas anteriores (edad, sexo, ubicación, clics, alcance, cpc, etc..). muchas gracias y saludos

  2. Hola Carlos, para darte respuesta a esto tendrías que contratar una asesoría conmigo para evaluar el proyecto y toda la información disponible. Para obtener información sobre la asesoría me puedes escribir un correo a través de la página y con gusto te envío la información. Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *