Matriz de Confusión

Un modelo de clasificación de Machine Learning es aquel que predice una variable “y” que es categórica como, por ejemplo, si un empleado dejará la organización o se quedará, si un paciente tiene cáncer o no o si un cliente pagará o incumplirá un préstamo.

La Matriz de Confusión es una de las métricas más intuitivas y sencillas que se utiliza para encontrar la precisión y exactitud del modelo. Se utiliza para el problema de clasificación donde la salida puede ser de dos o más tipos de clases.

matriz de confusión 1

Expliquemos esto con un ejemplo, digamos que estamos resolviendo un problema de clasificación en el que predecimos si una persona tiene cáncer o no. Démosle una etiqueta a nuestra variable objetivo:

1 – cuando una persona tiene cáncer, 0 – cuando una persona NO tiene cáncer.

Ya que hemos identificado el problema, la Matriz de confusión, es una tabla con dos dimensiones, “Actual” y “Predicción”, y conjuntos de clases en ambas dimensiones. Las filas de la matriz indican la clase observada o real y las columnas indican la clase predicha.

MATRIZ-BLOG-2

Tienes que tener en cuenta que la Matriz de Confusión en sí misma no es una medida de rendimiento como tal, pero casi todas las métricas de rendimiento se basan en ella y en los números que contiene.

A continuación, definimos varios términos que están asociados con la Matriz de Confusión:

Verdaderos Positivos (True Positives – TP)

Son los casos en los que los datos reales son 1 (Verdadero) y la predicción también es 1 (Verdadero).

Para nuestro ejemplo, si con los datos reales una persona tiene cáncer (1) y el modelo predice también que tiene cáncer (1).

matriz de confusión 2

Verdaderos Negativos (True Negatives – TN)

Son los casos en los que los datos reales con 0 (Falso) y el pronóstico también es 0 (Falso).

Para nuestro ejemplo, si con los datos reales una persona NO tiene cáncer (0) y el modelo predice también que NO tiene cáncer (0).

matriz de confusión 3

Falsos Positivos (False Positives – FP)

Son los casos en que los datos reales indica que es 0 (Falso) y la predicción indica que es 1 (Verdadero), es decir la predicción ha sido errónea. La palabra Falso es porque el modelo ha pronosticado incorrectamente y positivo porque la predicción ha sido positiva (1).

Utilizando nuestro ejemplo: una persona que NO tiene cáncer el modelo predice que para su caso si tiene cáncer.

matriz de confusión 4

Falsos Negativos (False Negatives – FN)

Son los casos en que los datos reales indica que es 1 (Verdadero) y el pronóstico es 0 (Falso), ocasionando que la predicción ha sido incorrecta. La palabra Falso es porque el modelo ha predicho incorrectamente y negativo porque predijo que era negativa (0).

Para nuestro ejemplo, una persona que tiene cáncer y el modelo predice que NO tiene cáncer.

matriz de confusión 5

El escenario ideal que todos queremos es que el modelo dé 0 falsos positivos y 0 falsos negativos, pero ese no es el caso en la vida real, ya que cualquier modelo NO será 100% preciso en la mayoría de los casos.

MATRIZ-BLOG-7

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *