Métodos de Selección de Características

Todos hemos visto los conjuntos de datos, en ocasiones pueden ser pequeños mientras que otros son tremendamente grandes en tamaño, en especial cuando cuentan con un gran número de características, ocasionando que sean muy difícil de procesar.

Cuando se tiene este de tipo de conjuntos de datos de alta dimensión y se utilizan todas para la creación de modelos de Machine Learning puede ocasionar:

  •      Las características adicionales actúan como un ruido para el cual el modelo de Machine Learning puede tener un rendimiento extremadamente bajo.
  •       El modelo tarda más tiempo en entrenarse.
  •       Asignación de recursos innecesarios para estas características.

Por todo esto, se debe implementar la selección de características en los proyectos de Machine Learning. 

La Selección de Características es el proceso de seleccionar las más importante y/o relevante características de un conjunto de datos, con el objetivo de mejorar el rendimiento de predicción de los predictores, proporcionar predictores más rápidos y más rentables y proporcionar una mejor comprensión del proceso subyacente que generó los datos.

A continuación, analizaremos varias metodologías y técnicas que puedes utilizar para que tus modelos funcionen mejor y de manera más eficiente.

Métodos de Filtro

La siguiente imagen describe mejor los métodos de selección de características basados en filtros:

Métodos de Selección de Características 1

Los métodos de filtro se utilizan generalmente como un paso de preprocesamiento de datos, la selección de características es independiente de cualquier algoritmo de Machine Learning.

Las características se clasifican según los puntajes estadísticos que tienden a determinar la correlación de las características con la variable de resultado, ten en cuenta que la correlación es un término muy contextual y varía de un trabajo a otro.  

En la siguiente tabla puedes utilizarla para definir los coeficientes de correlación para diferentes tipos de datos, en este caso, continuo y categórico. 

Selección-de-Características-2

Correlación de Pearson: se usa como una medida para cuantificar la dependencia lineal entre dos variables continuas X e Y, su valor varía de -1 a +1.

 LDA: el análisis discriminante lineal se usa para encontrar una combinación lineal de características que caracteriza o separa dos o más clases, o niveles, de una variable categórica.

 ANOVA: significa análisis de la varianza y es similar a LDA, excepto por el hecho de que opera mediante una o más funciones independientes categóricas y una función dependiente continua. Proporciona una prueba estadística de si las medias de varios grupos son iguales o no.

 Chi-cuadrado: es una prueba estadística que se aplica a los grupos de características categóricas para evaluar la probabilidad de correlación o asociación entre ellos utilizando su distribución de frecuencia. 

Una cosa que debes tener encuentra es que los métodos de filtro no eliminan la multicolinealidad, por lo tanto debes lidiar con ellos también antes de entrenar modelos para tus datos.

Métodos de envoltura

Al igual que los métodos de filtro, te muestro una gráfica en donde se explica mejor este método: 

Métodos de Selección de Características 2

Como puedes observar, un método de envoltura necesita un algoritmo de Machine Learning y utiliza su rendimiento como criterio de evaluación. Este método busca una característica que sea más adecuada para el algoritmo y tiene como objetivo mejorar el rendimiento.

Por lo tanto, tratamos de usar un subconjunto de características y entrenamos un modelo usándolos, basándonos en las inferencias que extraemos del modelo anterior, decidimos agregar o eliminar características de su subconjunto. El problema se reduce esencialmente a un problema de búsqueda. Estos métodos suelen ser computacionalmente muy caros.

Algunos ejemplos comunes de Métodos de Envoltura son los siguientes:

Selección hacia delante (Forward Selection): es un método iterativo en el que comenzamos sin tener ninguna característica en el modelo. En cada iteración, seguimos agregando la función que mejor mejora nuestro modelo hasta que la adición de una nueva variable no mejore el rendimiento del modelo.

Eliminación hacia atrás (Backward Selection): comenzamos con todas las características y eliminamos la característica menos significativa en cada iteración, lo que mejora el rendimiento del modelo. Repetimos esto hasta que no se observe ninguna mejora en la eliminación de características. 

Eliminación de características recursivas (Recursive Feature Elimination): es un algoritmo de optimización que busca encontrar el subconjunto de funciones con mejor rendimiento. Crea repetidamente modelos y deja de lado la mejor o la peor característica de rendimiento en cada iteración. Construye el siguiente modelo con las características de la izquierda hasta que se agotan todas las características, luego clasifica las características según el orden de su eliminación.

Métodos Integrados

Combina las cualidades de los métodos de filtro y envoltura. Se implementa mediante algoritmos que tienes sus propios métodos de selección de características incorporados. 

Algunos de los ejemplos más populares de estos métodos son la regresión LASSO y RIDGE, que tienen funciones de penalización incorporadas para reducir el sobreajuste.

Diferencias entre métodos de filtro y envoltura

Las principales diferencias entre los métodos de filtro y envoltura para la selección de características son:

  • Los métodos de filtro no incorporan un modelo de Machine Learning para determinar si una característica es buena o mala, mientras que métodos de envoltura si lo utilizan y lo capacitan para decidir si es esencial o no.
  • Los métodos de filtro son mucho más rápidos en comparación con los métodos de envoltura, ya que no implican la capacitación de los modelos. Por otro lado, los métodos de envoltura son computacionalmente costosos, y en el caso de conjuntos de datos masivos, los métodos de envoltura no son el método de selección de características más efectivo a considerar.
  • Los métodos de filtro pueden no encontrar el mejor subconjunto de características en situaciones en las que no hay suficiente datos para modelar la correlación estadística de las características, pero los métodos de envoltura siempre pueden proporcionar el mejor subconjunto de características debido a su naturaleza exhaustiva.
  • El uso de características de los métodos de envoltura en su modelo final de Machine Learning puede llevar a un ajuste excesivo, ya que los métodos de envoltura ya capacitan a los modelos de Machine Learning con las características y afectan el verdadero poder del aprendizaje. Pero las características de los métodos de filtro no conducirán a sobreajustes en la mayoría de los casos.

Con esta entrada te has dado una buena idea de cómo puedes realizar la Selección de Características para obtener lo mejor de tus modelos. Estas son las categorías amplias que se usan comúnmente para la selección de características. Con esto puedes mejorar potencialmente tus modelos.

2 thoughts on “Métodos de Selección de Características”

  1. ¿En un conjunto de datos que son las características? Por ejemplo de los datos usados para la regresión líneal, los datos de los precios de las casas de Londres, allí cuales son las características?

  2. Hola, las características son aquellos datos que se utilizan para desarrollar un proyecto en Machine Learning, por ejemplo en un proyecto para predecir el precio de una casa, las características vendrían siendo los datos de ubicación, número de habitaciones, tamaño de la vivienda, entre otros; todos estos datos o características se utilizan para obtener la predicción del precio de la casa. Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *