Bosque Aleatorios Regresión – Teoría

Los Bosques Aleatorios es un algoritmo de Machine Learning flexible y fácil de usar que produce, incluso sin ajuste de parámetros, un gran resultado la mayor parte del tiempo. También es uno de los algoritmos más utilizados, debido a su simplicidad y al hecho de que se puede usar tanto para tareas de clasificación como de regresión.

Los Bosques Aleatorios es un algoritmo de aprendizaje supervisado que, como ya se puede ver en su nombre, crea un bosque y lo hace de alguna manera aleatorio. Para decirlo en palabras simples: el Bosque Aleatorio crea múltiples árboles de decisión y los combina para obtener una predicción más precisa y estable. En general, mientras más árboles en el bosque se vea, más robusto es el bosque.

En este algoritmo se agrega aleatoriedad adicional al modelo, mientras crece los árboles, en lugar de buscar la característica más importante al dividir un nodo, busca la mejor característica entre un subconjunto aleatorio de características. Esto da como resultado una amplia diversidad que generalmente resulta en un mejor modelo.

Por lo tanto, en Bosques Aleatorios, el algoritmo para dividir un nodo solo tiene en cuenta un subconjunto aleatorio de las características. Incluso puede hacer que los árboles sean más aleatorios, mediante el uso adicional de umbrales aleatorios para cada función en lugar de buscar los mejores umbrales posibles, como lo hace un árbol de decisión normal.

Diferencia entre Árboles de Decisión y Bosques Aleatorios

Como ya se menciono anteriormente, los Bosques Aleatorios es una colección de Árboles de Decisión, pero existe varias diferencias entre uno y el otro.

Si se ingresa un conjunto de datos de entrenamiento con características y etiquetas en un árbol de decisión, formulará un conjunto de reglas, que se utilizarán para hacer las predicciones.

Por ejemplo, si deseas predecir si una persona hará clic en un anuncio en línea, puedes recopilar información sobre el anuncio, la persona que hizo clic en el pasado y algunas características que describen su decisión. Si colocamos estas características en un Árbol de Decisión, generará algunas reglas para luego predecir si se hará clic en el anuncio o no. Por su parte un Bosque Aleatorio selecciona al azar las observaciones y características para construir varios Árboles de Decisión y luego promedia los resultados.

Otra diferencia es que cuando los Árboles de Decisión son muy profundos pueden sufrir de sobreajuste. Por su parte los Bosques Aleatorios evita el exceso de adaptación la mayor parte del tiempo, creando subconjuntos aleatorios de las características y construyendo árboles más pequeños utilizando estos subconjuntos, posteriormente combina los subárboles. Ten en cuenta que esto no funciona todas las veces y que también hace que el cálculo sea más lento, dependiendo de cuántos árboles genere el bosque al azar.

Ventajas y Desventajas de los Bosques Aleatorios

Los Bosques Aleatorios se considera un algoritmo muy útil y fácil de usar ya que los parámetros predeterminados a menudo producen un buen resultado de predicción. De igual forma, el número de parámetros tampoco es tan alto y son fáciles de entender.

Uno de los grandes problemas en Machine Learning es el sobreajuste, pero la mayoría de las veces esto no será tan fácil para un algoritmo de Bosques Aleatorios, esto se debe a que, si hay suficientes árboles en el bosque, el algoritmo no se adaptará al modelo.

La principal limitación de Bosques es que una gran cantidad de árboles puede hacer que el algoritmo sea lento e ineficiente para las predicciones en tiempo real. En general, estos algoritmos son rápidos para entrenar, pero bastante lentos para crear predicciones una vez que están entrenados. Una predicción más precisa requiere más árboles, lo que resulta en un modelo más lento. En la mayoría de las aplicaciones del mundo real, el algoritmo de Bosque Aleatorio es lo suficientemente rápido, pero ciertamente puede haber situaciones en las que el rendimiento en tiempo de ejecución es importante y se prefiera otros enfoques.

Adicionalmente, los Bosques Aleatorios es una herramienta de modelado predictivo y no una herramienta descriptiva. Eso significa que, si estás buscando una descripción de las relaciones en los datos, deberás elegir otro algoritmo.

En resumen, los Bosques Aleatorios es un gran algoritmo para entrenar temprano en el proceso de desarrollo del modelo, para ver cómo se desempeña y es difícil construir un mal modelo con este algoritmo debido a su simplicidad. Es una excelente opción, si necesita desarrollar un modelo en un corto periodo de tiempo, además de eso, proporciona un buen indicador de la importancia que asigna a sus características.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *