Todo sobre aprendizaje no supervisado en Machine Learning

Machine Learning tiene varias clasificaciones, como ya explicamos anteriormente en el aprendizaje supervisado realizamos predicciones utilizando ejemplos etiquetados, es decir el entrenamiento del modelo se realiza con datos en donde se conoce el resultado. Por su parte, en el aprendizaje no supervisado, las variables de entrada se proporcionan sin etiquetas de salida, pero expliquemos más esto.

Algoritmos de aprendizaje no suspervisado 1

En el aprendizaje no supervisado, un algoritmo segrega los datos en un conjunto de datos en el que no están etiquetados en función de algunas características ocultas en los datos. Esta función puede ser útil para descubrir la estructura oculta de los datos y para tareas como la detección de anomalías.

Los algoritmos de aprendizaje no supervisados agrupan los datos en un conjunto de datos sin etiquetas en función de las características ocultas subyacentes en los datos. Debido a que no hay etiquetas, no hay forma de evaluar el resultado, una diferencia clave entre los algoritmos de aprendizaje supervisado. Al agrupar datos a través del aprendizaje no supervisado, aprendes algo acerca de los datos en bruto que, de otro modo, no serían visibles, en conjuntos de datos de grandes dimensiones, este problema es aún más pronunciado.

Clasificación de aprendizaje no supervisado

El aprendizaje no supervisado se puede clasificar en dos categorías:

Aprendizaje no supervisado paramétrico

En este caso, suponemos una distribución paramétrica de datos. Supone que los datos de muestra provienen de una población que sigue una distribución de probabilidad basada en un conjunto fijo de parámetros. Teóricamente, en una familia normal de distribuciones, todos los miembros tienen la misma forma y están parametrizados por la media y la desviación estándar, eso significa que, si conoce el promedio y la desviación estándar y que la distribución es normal, conoce la probabilidad de cualquier observación futura. El aprendizaje no supervisado paramétrico implica la construcción de modelos de mezclas gaussianas y el uso del algoritmo de maximización de expectativas para predecir la clase de la muestra en cuestión. Este caso es mucho más difícil que el aprendizaje supervisado estándar porque no hay etiquetas de respuesta disponibles y, por lo tanto, no hay una medida exacta de precisión disponible para verificar el resultado.

Aprendizaje no supervisado no paramétrico

En esta versión, los datos se agrupan en grupos, donde cada grupo dice algo acerca de las categorías y clases presentes en los datos. Este método se usa comúnmente para modelar y analizar datos con pequeños tamaños de muestra. A diferencia de los modelos paramétricos, los modelos no paramétricos no requieren que el modelador haga suposiciones sobre la distribución de la población, y a veces se los conoce como un método libre de distribución.

Agrupamiento o Clustering en el aprendizaje no supervisado

El agrupamiento puede considerarse el problema de aprendizaje no supervisado más importante, entonces, como cualquier otro problema de este tipo, se trata de encontrar una estructura en una colección de datos sin etiqueta. Una definición amplia de clustering podría ser, el proceso de organizar objetos en grupos cuyos miembros son similares de alguna manera. Un clúster es, por lo tanto, una colección de objetos que son similares entre ellos y son diferentes a los objetos que pertenecen a otros clústeres.

Algoritmos de aprendizaje no suspervisado 2

Los algoritmos de agrupación se pueden clasificar como se detalla a continuación:

Agrupamiento exclusivo: los datos se agrupan de manera exclusiva, de modo que si un cierto punto de datos pertenece a un grupo definido, entonces podría no ser incluido en otro clúster.

Superposición de clústeres: usa conjuntos difusos para agrupar datos, de modo que cada punto puede pertenecer a dos o más clústeres con diferentes grados de membresía. En este caso, los datos se asociarán con un valor de membresía apropiado.

Agrupamiento jerárquico: se basa en la unión entre los dos clústeres más cercanos. La condición de inicio se realiza estableciendo cada punto de datos como un clúster, después de algunas iteraciones alcanza los clústeres finales deseados.

Agrupación probabilística: utiliza un enfoque probabilístico.

Algoritmos de aprendizaje no suspervisado 3

Los algoritmos de agrupamiento más comunes incluyen:

Agrupación de clústeres k-Means: divide datos en clústeres distintos según la distancia al centroide de un clúster.

Agrupamiento jerárquico: crea una jerarquía multinivel de clústeres mediante la creación de un árbol de clústeres.

Mezclas de modelos gaussianos: clústeres de modelos como una mezcla de componentes de densidad normal multivariante.

Importancia de aprendizaje no supervisado

Algoritmos de aprendizaje no suspervisado 4

El aprendizaje no supervisado pretende descubrir patrones previamente desconocidos en los datos, pero la mayoría de las veces estos patrones son aproximaciones pobres de lo que puede lograr el aprendizaje supervisado. Por ejemplo, los algoritmos no supervisados segmentarán a los clientes en grupos grandes en lugar de tratarlos como individuos y permitir que las empresas entreguen comunicaciones altamente personalizadas. La definición del aprendizaje no supervisado es que no se sabe cuál será el resultado para un modelo predictivo, lo que significa que el aprendizaje supervisado es más aplicable a contextos del mundo real.

El mejor momento para utilizar el aprendizaje no supervisado es cuando no tiene datos sobre los resultados deseados, como determinar un mercado objetivo para un producto completamente nuevo que tu empresa nunca haya vendido anteriormente, sin embargo, si solo estás tratando de obtener una mejor comprensión de la base de consumidores existente, el aprendizaje supervisado es la técnica óptima.

Aplicaciones de los algoritmos de aprendizaje no supervisado

Los algoritmos de agrupamientos se pueden aplicar en muchos campos, por ejemplo:

Marketing: encontrar grupos de clientes con un comportamiento similar dada una gran base de datos de clientes que contienen sus propiedades y registros de compras anteriores.

Biología: clasificación de plantas y animales dadas sus características.

Seguro: identificar fraudes.

Estudios de terremotos: aglomeración de epicentros de terremotos observados para identificar zonas peligrosas.

5 thoughts on “Todo sobre aprendizaje no supervisado en Machine Learning”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *