Cuando utilizar clustering para el Aprendizaje no Supervisado

El Clustering no siempre es apropiada para los conjuntos de datos. Si estás interesado en aventurarte en el mundo del Aprendizaje no Supervisado con clustering debes seguir estas cinco pautas para ver si el clustering es realmente una solución adecuada para tus datos.

¿Tus datos ya tienen una etiqueta de clase potencial?

El uso de la etiqueta de clase existente en los datos suele ser mejor que intentar crear una nueva etiqueta para los datos a partir de la agrupación en clústeres. Si tienes la opción, el Aprendizaje Supervisado casi siempre supera al Aprendizaje no Supervisado en las tareas de clasificación.

Si tienes datos, pero no tienes forma de organizarlos en grupos significativos, entonces la agrupación en grupos tiene sentido. Pero si ya tienen una etiqueta de clase intuitiva en el conjunto de datos, es posible que las etiquetas creadas por un análisis de agrupación no funcionen tan bien como la etiqueta original.

¿Tus datos son categóricos o continuos?

Muchos algoritmos de clustering utilizan una medición de distancia para calcular la similitud entre las observaciones. Debido a esto, ciertos algoritmos de agrupación de clúster funcionarán mejor con atributos continuos. Sin embargo, si tienes datos categóricos, puedes codificar los atributos o utilizar un algoritmo de agrupamiento creado para datos categóricos. Debes tener en cuenta que no tiene mucho sentido calcular la distancia entre variables binarias.

Saber cómo se comportan los diferentes algoritmos de agrupación en diferentes tipos de datos es esencial para decidir si la agrupación en clúster tiene sentido para los datos.

¿Cómo son los datos?

Una simple visualización de los datos con un gráfico de dispersión pueden proporcionar información sobre si los datos son adecuados para la agrupación en clústeres. Por ejemplo, a continuación, se muestra una gráfica de dispersión de la altura y el peso de los atletas olímpicos. Claramente, los dos atributos tienen una fuerte correlación positiva y forman un denso grupo central, aparte de algunos valores atípicos.

1

Después de ejecutar varios algoritmos de agrupamiento en estos datos, no se formaron grupos distintos o significativos y se determinó que estos atributos no eran adecuados para el agrupamiento. Sin embargo, simplemente visualizando los datos al principio del análisis, esta conclusión podría haberse hecho antes.

Si la visualización revela que los datos no tienen ninguna cantidad de separación o grupos distintos, entonces el agrupamiento puede no ser apropiado.

¿Se tiene una manera de validar el algoritmo de clustering?

Para confiar en los resultados del algoritmo de clustering, debes tener un método para medir el rendimiento del algoritmo.

Para tener confianza en el modelo de Machine Learning, debes tener una métrica consistente para medir el rendimiento del modelo. El agrupamiento no es diferente. Debes tener una manera de evaluar cuantitativamente qué tan bien el modelo está agrupando los datos.

Antes de realizar un análisis de clustering, considera qué tipo de validación y qué métrica tiene más sentido para los datos. Algunos algoritmos pueden funcionar engañosamente bien con ciertas métricas de validación, por lo que puede ser necesario una combinación de métricas de rendimiento para negar este problema. Si sistemáticamente se logra un rendimiento deficiente del modelo, entonces la agrupación en clústeres no es una buena opción para los datos.

¿Proporciona la agrupación en clúster una nueva perspectiva de los datos?

Digamos que cumples con todas las consideraciones anteriores: tienes datos continuos sin etiquetas de clase, visualiza los datos y hay cierta separación, y eliges una métrica de validación que tenga sentido para el análisis. Se ejecuta un algoritmo de agrupación en los datos y se obtiene una puntuación razonablemente alta. Perfecto, pero aún así no has terminado tu trabajo.

Después de realizar un análisis de clustering, es crucial examinar las observaciones en los clústeres individuales. Este paso te permite evaluar si los clústeres proporcionan o no una nueva perspectiva de los datos.

¿Realmente el algoritmo encontró grupos similares de observaciones?

Una manera fácil de examinar los clústeres es calcular estadísticas sencillas para las observaciones de cada clúster, como la media. A continuación, se muestra la estatura y el peso promedio de los atletas olímpicos para tres grupos como resultado de la agrupación de K-means.

2

¿Notas algo extraño?

Las alturas y pesos medios son casi idénticos. Esto demuestra que, mientras que el algoritmo agrupó los datos, los clústeres no son sustancialmente diferentes entre sí.

Si la agrupación en clúster no produce ninguna información nueva o útil sobre los datos, entonces los datos no son adecuados para la agrupación en clúster.

Como cualquier tarea de Machine Learning, no se puede simplemente lanzar un algoritmo a los datos. Debes entender los datos y entender las intenciones originales del algoritmo. Incluso si los datos no son adecuados para la agrupación en clústeres, puede probarlos. Nunca está de más explorar los datos y, de todas formas, uno aprende algo nuevo cada día.

2 thoughts on “Cuando utilizar clustering para el Aprendizaje no Supervisado”

  1. Hola Lidgi…

    Tengo una base de datos de clasificación de averías de máquina, donde los datos que clasifican estas averías están en texto.
    Como se puede hacer un ejercicio de clustering con datos de texto?
    Mil gracias…

  2. Hola Ivan, tienes que convertir el texto en números de esa forma podrás utilizar la información en algún algoritmo de aprendizaje no supervisado. Saludos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *