Aprendizaje Automático I - Tema 3: Evaluación de modelos

3. Introducción y objetivos

La evaluación numérica es crucial para comparar algoritmos.
Las métricas de evaluación analizan el funcionamiento del algoritmo.
No hay un consenso sobre las métricas debido a varios factores.
Para clasificaciones binarias, se utilizan índices estadísticos basados en la matriz de confusión.
Precisión y F1 son métricas populares en clasificación binaria, pero pueden ser engañosas en datos desbalanceados.
Objetivo: Identificar la métrica adecuada según algoritmos, problemas y datos.
Metas:
- Conocer diferentes métricas de evaluación.
- Identificar qué métrica usar en cada caso.
- Utilizar métricas en paralelo según la predicción.

3.2. Matriz de Confusión

La matriz de confusión visualiza el rendimiento de un algoritmo de aprendizaje supervisado.
Las filas representan las clases reales y las columnas las clases predichas (o viceversa).
Es una tabla de contingencia con dimensiones "real" y "predicha".
Valores principales:
- Verdadero Positivo (TP): El valor predicho coincide con el valor real y es positivo.
- Verdadero Negativo (TN): El valor predicho coincide con el valor real y es negativo.
- Falso Positivo (FP) - Error de Tipo 1: El valor predicho es falso, el valor real es negativo, pero el modelo predijo positivo.
- Falso Negativo (FN) - Error de Tipo 2: El valor pronosticado se predijo erróneamente, el valor real es positivo, pero el modelo predijo negativo.
La matriz de confusión se utiliza para analizar problemas de predicción multiclase.

3.3. Precisión y Recall para Clasificación Binaria

La precisión (precision) resume la fracción de ejemplos asignados a la clase positiva que pertenecen a esta.
Para datos imbalanceados con dos clases:
$Precisión = \frac{Verdaderos\ Positivos}{Verdaderos\ Positivos + Falsos\ Positivos}$
El recall resume lo bien que se predijo la clase positiva (coincide con la sensibilidad).
$Recall = \frac{Verdaderos\ Positivos}{Verdaderos\ Positivos + Falsos\ Negativos}$
El resultado es un valor entre 0.0 (precisión nula) y 1.0 (precisión perfecta).
Ejemplo:
- Datos: proporción 1:150 (150 minorías, 10000 mayorías).
- Predicciones: 150 ejemplos como minoría, 140 correctos y 30 incorrectos.
Precisión como métrica no lo dice todo. No indica cuántos ejemplos reales de la clase positiva se predijeron como negativos.

3.4. Precisión y Recall para Clasificación Multiclase

La precisión se extiende a problemas multiclase con datos imbalanceados.
Se calcula como la suma de verdaderos positivos en todas las clases, dividida por la suma de verdaderos positivos y falsos positivos en todas las clases:
$Precisión = \frac{\sum Verdaderos\ Positivos}{\sum (Verdaderos\ Positivos + Falsos\ Positivos)}$
Ejemplo:
- Clases: mayoritaria negativa, dos minoritarias positivas (clase 1 y clase 2).
- Datos: proporción 1:1:100 (100 ejemplos en cada clase minoritaria, 10000 en la mayoritaria).
- Predicciones: 70 ejemplos para la clase 1 (50 correctos, 20 incorrectos), 150 para la clase 2 (99 correctos, 51 incorrectos).
- Cálculo:
  $Precisión = \frac{(50 + 99)}{(50 + 99) + (20 + 51)} = \frac{149}{220} = 0.677$
El cálculo de la precisión escala con el número de clases minoritarias.

3.5. F1 Score

La precisión de la clasificación es una medida utilizada para resumir el rendimiento del modelo.
La medida F combina precisión y recall en una única medida.
Ni la precisión ni el recall cuentan toda la historia por sí solas.
La medida F expresa ambas preocupaciones con una única puntuación.
Su puntuación máxima es de 1 (precisión y recuperación perfectas) y la mínima es de 0 (confunde las clases); 0,5 indica que el modelo no discierne entre clases.
La F1 es una medida de la precisión y solidez del modelo.
$F1 = \frac{2 \times TP}{2TP + FP + FN} = \frac{2 \times precision \times recall}{precision + recall}$
La puntuación F1 busca el equilibrio entre precisión y recall.
- Precisión: número de resultados positivos correctos / número de resultados positivos predichos.
- Recall: número de resultados positivos correctos / número de todas las muestras relevantes.
Interpretación:
- Alta precisión y alto recall: detecta perfectamente la clase.
- Alta precisión y bajo recall: no detecta bien la clase, pero es fiable cuando lo hace.
- Baja precisión y alto recall: detecta bien la clase, pero incluye muestras de la otra clase.
- Baja precisión y bajo recall: no clasifica correctamente la clase.

3.6. ROC (Receiver Operating Characteristic)

Una curva ROC es un gráfico de la sensibilidad frente a la especificidad de una prueba diagnóstica.
Los puntos de la curva corresponden a diferentes puntos de corte para determinar si los resultados de la prueba son positivos.
Una curva ROC puede considerarse como el valor medio de la sensibilidad de una prueba sobre todos los valores posibles de especificidad o viceversa.
Área bajo la curva ROC (AUC):
- Resume la precisión diagnóstica global de la prueba.
- Valores de 0 a 1 (0: inexacta, 1: precisa).
- 0.5: no hay discriminación.
- 0.7 a 0.8: aceptable.
- 0.8 a 0.9: excelente.
- Mayor de 0.9: excepcional.
- Un valor de 0,5 para el AUC indica que la curva ROC caerá sobre la diagonal (es decir, la línea de 45 grados) y, por tanto, sugiere que la prueba diagnóstica no tiene capacidad discriminatoria.
- Las curvas ROC por encima de esta línea diagonal tienen una capacidad discriminatoria razonable para diagnosticar a los pacientes.
Prueba de hipótesis: H0: AUC = 0,5, frente a H1: AUC ≠ 0,5.

3.7. Coeficiente de Correlación de Matthews (MCC)

Alternativa que no se ve afectada por conjuntos de datos desequilibrados.
Calcula el coeficiente de correlación de Pearson entre valores reales y predichos.
$MCC = \frac{VP \times VN - FP \times FN}{\sqrt{(VP + FP) \times (VP + FN) \times (VN + FP) \times (VN + FN)}}$
Rango: [-1, +1].
+1: clasificación perfecta.
-1: clasificación errónea perfecta.
0: clasificador aleatorio.
Genera una puntuación alta solo si el predictor binario predice correctamente la mayoría de instancias positivas y negativas.
Si solo hay una entrada distinta de cero en la matriz, MCC = 1 si la clasificación es correcta y -1 si es incorrecta.

3.8. Kappa de Cohen para Datos Balanceados

Mide la fiabilidad entre evaluadores.
Pr(a): acuerdo observado relativo.
Pr(e): probabilidad hipotética de acuerdo por azar.
$k = \frac{Pr(a) - Pr(e)}{1 - Pr(e)}$
Si todos los evaluadores están de acuerdo, k=1; si no, k=0.
$k = \frac{\overline{P} - \overline{Pe}}{1 - \overline{Pe}}$
Kappa tiene en cuenta el factor azar.
Interpretación:
- < 0.4: deficiente.
- 0.4 - 0.75: moderado a bueno.
- > 0.75: excelente.
Se puede utilizar para evaluar el rendimiento de un modelo de clasificación.

3.9. Métricas de Evaluación de Modelos de Regresión

Existen métricas para evaluar la bondad del ajuste de las predicciones realizadas.
Mean Absolute Error (MAE) y Mean Squared Error (MSE)
- MSE: Media del cuadrado de la diferencia entre valores originales y predichos.
 $MSE = \frac{1}{N} \sum{i=1}^{N} (yi - \hat{y_i})^2$
- Ventaja del MSE: es más fácil calcular el gradiente.
- MAE: Media de la diferencia absoluta entre valores originales y predichos.
 $MAE = \frac{1}{N} \sum |yi - \hat{yi}|$
- Mide la distancia entre predicciones y resultados reales.
Relative Absolute Error (RAE)
- Compara un error medio con los errores producidos por un modelo trivial o ingenuo.
  $RAE = \frac{media \ del \ valor \ absoluto \ de \ los \ errores \ de \ previsión \ reales }{media \ de \ los \ valores \ absolutos \ de \ los \ errores \ de \ previsión \ del \ modelo}$
- Un modelo razonable dará una relación inferior a uno.
- Un buen modelo de previsión producirá un ratio cercano a cero.
Coeficiente de Determinación o R2
- Mide el porcentaje de variabilidad de los valores que puede explicar el modelo de regresión.
- Un valor cercano al 100% significa que el modelo es útil.
- El R2 suele presentarse como la cantidad que estima el porcentaje de varianza de la variable de respuesta.
- El ajuste por mínimos cuadrados y el coeficiente de determinación pueden ser arbitrarios o engañosos en presencia de un único valor atípico.

3.10. Cuaderno de Ejercicios

Aplicar diferentes métodos de evaluación de algoritmos.
Importar el dataset.
Dividir el dataset en entrenamiento y test.
Aplicar un algoritmo de aprendizaje automático.
Utilizar por lo menos cuatro métricas diferentes para evaluar los resultados del algoritmo.
Pintar la matriz de confusión.