RNAYLD V06 Unidad 4 – Aprendizaje Automático y Mapas Autoorganizados

Introducción a la Unidad 4

  • Foco general: "Aprendizaje Automático" y su relación con redes neuronales.
  • Distinción de paradigmas:
    • Aprendizaje supervisado (Multi-Layer Perceptron, CNN, etc.)
    • Semi-supervisado (Redes RBF)
    • No supervisado (Mapas Autoorganizados – SOM, clustering)
  • Recordatorio: las redes neuronales no se limitan al aprendizaje supervisado; existen arquitecturas útiles para extracción de patrones sin etiquetas.
  • Aplicaciones actuales: grandes modelos de lenguaje, sistemas de recomendación (Netflix, Amazon), reconocimiento facial, foto-tagging, domótica, vehículos autónomos.
  • Dependencia crítica de:
    • Calidad y tamaño del dataset
    • Poder de cómputo (especialmente en modelos generativos a gran escala)

Fundamentos de Aprendizaje Automático

  • Objetivo: extraer conocimiento a partir de datos, entrenando modelos en vez de programar reglas fijas.
  • Ventajas frente a sistemas basados en reglas (if-then):
    • Escalabilidad en dominios complejos
    • Adaptabilidad cuando cambian los datos
    • Capacidad de generalizar
  • Definiciones clásicas:
    • Russell: un sistema inteligente debe aprender y mejorar con la experiencia.
    • Simon: cualquier cambio que mejore el desempeño futuro = aprendizaje.
    • Mitchell: un programa aprende de experiencia EE respecto a tareas TT y medida de desempeño PP si su rendimiento en TT mejora con EE medida por PP.

Tipos de Aprendizaje

  • Supervisado: ejemplos etiquetados (x<em>i,y</em>i){(x<em>i,y</em>i)}; objetivo: aproximar función f:XYf: X \to Y.
  • No supervisado: sin etiquetas; objetivo: descubrir estructura (clusters, correlaciones, anomalías).
  • Por refuerzo: el modelo interactúa con el ambiente; recibe recompensas rtr_t para aprender política óptima.
  • Relación con tareas:
    • Predicción (clasificación, regresión) ⟶ supervisado
    • Descripción (clustering, reglas de asociación) ⟶ no supervisado
    • Decisión secuencial ⟶ refuerzo

Aprendizaje Supervisado

  • Concepto de "clasificador ideal"; buscamos hipótesis hh que minimice diferencia con ff (espacio de hipótesis determinado por el modelo elegido).
  • Representaciones comunes del clasificador: combinación lineal de características, árboles de decisión, SVM, redes neuronales.
  • Pipeline típico:
    1. Recolección y etiquetado de datos.
    2. Partición en entrenamiento / validación / prueba o validación cruzada kk-fold.
    3. Entrenamiento: ajuste de parámetros.
    4. Validación: selección de hiperparámetros (capas, learning-rate, batch-size, etc.).
    5. Evaluación final en conjunto "blind" de test.

Métricas clásicas de evaluación supervisada

  • Matriz de confusión (clases reales vs. predichas).
  • Exactitud (Accuracy):Acc=<em>iTP</em>iNtotalAcc=\frac{\sum<em>i TP</em>i}{N_{total}}
  • Precisión: P=TPTP+FPP=\frac{TP}{TP+FP}
  • Recall (Cobertura): R=TPTP+FNR=\frac{TP}{TP+FN}
  • Medida F<em>1F<em>1: F</em>1=2PRP+RF</em>1=\frac{2PR}{P+R} (promedio armónico).

Sobreajuste y Subajuste

  • Generalización: buen desempeño ante datos jamás vistos.
  • Underfitting: modelo demasiado simple, alto sesgo, error elevado en train y test.
  • Overfitting: modelo demasiado complejo, gran varianza, error bajo en train pero alto en test.
  • Indicadores:
    • Demasiadas épocas ⟶ overfitting; muy pocas ⟶ underfitting.
    • Muy pocos nodos/capas ⟶ underfitting; muchos parámetros + pocos datos ⟶ overfitting.
  • Soluciones:
    • Regularización L<em>1L<em>1 / L</em>2L</em>2, Dropout.
    • Early-Stopping (cortar cuando la pérdida de validación sube).
    • Aumentar datos o ruido sintético.
    • Ajustar arquitectura/hiperparámetros.

Ejemplo práctico: CNN Perros vs. Gatos

  • Dataset: 2 000 imágenes de entrenamiento (1 000 gato + 1 000 perro) y 1 000 de validación.
  • Pre-procesado: re-escalado 150×150150\times150 px, batches de 100.
  • Arquitectura: 4 bloques Conv (32-64-128-128 filtros) + MaxPooling + Dense 512 + salida sigmoide (binaria).
  • Compilada con pérdida Binary Cross-Entropy y métrica Accuracy.
  • Entrenamiento 6 épocas ⇒ Accval0.60Acc_{val} \approx 0.60, pérdida 0.66\approx 0.66.
  • Posibles mejoras: más épocas, data-augmentation, regularización, cambio de arquitectura.

Aprendizaje No Supervisado

  • Agrupamiento = particionar datos para maximizar similitud intra-cluster y diferenciar inter-cluster.
  • Ambigüedad: un mismo dataset puede justificar 2, 4, 6 clusters según criterio.
  • Clasificación general:
    • Particional (K-Means, DBSCAN): cada punto pertenece a un único cluster.
    • Jerárquico (aglomerativo/divisivo): produce árbol de clusters anidados.

Algoritmo K-Means (particional)

  • Parámetro kk número de clusters.
  • Pasos:
    1. Inicializar kk centroides (sensibles a posición inicial).
    2. Asignar cada punto al centroide más cercano (distancia euclidiana o coseno).
    3. Recalcular centroides c<em>j=1S</em>j<em>x</em>iS<em>jx</em>ic<em>j=\frac{1}{|S</em>j|}\sum<em>{x</em>i\in S<em>j}x</em>i.
    4. Repetir hasta convergencia (centroides no cambian).
  • Riesgos: soluciones sub-óptimas si la semilla es mala; sensible a outliers; asume clusters globulares.

Algoritmo DBSCAN (densidad)

  • Parámetros: radio ε\varepsilon y mínimo de puntos MinPtsMinPts.
  • Tipos de punto:
    • Núcleo: Nε(p)MinPts|N_\varepsilon(p)| \geq MinPts.
    • Borde: en vecindario de un núcleo pero <MinPts.
    • Ruido: no pertenece a ningún vecindario denso.
  • Ventajas: detecta formas arbitrarias, infiere kk automáticamente, maneja outliers.
  • Limitaciones: sensibilidad a variación de densidades, costoso en alta dimensión.

Evaluación de Clustering

  • Interna (no supervisada):
    • Coeficiente Silhouette: s(i)=b(i)a(i)maxa(i),b(i)s(i)=\frac{b(i)-a(i)}{\max{a(i),b(i)}}, donde a(i)a(i) = distancia media a su cluster y b(i)b(i) = mínima distancia media a otros clusters.
    • Valores cercanos a 11 indican buen agrupamiento.
  • Externa (supervisada): compara con etiquetas reales mediante Accuracy, F1F_1, entropía, pureza, etc. (requiere ground-truth).

Mapas Autoorganizados (SOM / Kohonen)

  • Red neuronal no supervisada; reduce datos de Rn\mathbb R^n a mapa 2-D preservando vecindad topológica.
  • Arquitectura:
    • Capa de entrada (n neuronas = dimensión del vector).
    • Capa mapa: malla rectangular/hexagonal de neuronas sin conexiones laterales explícitas.
  • Algoritmo competitivo:
    1. Inicializar pesos aleatoriamente.
    2. Para cada vector xx elegir la Best Matching Unit (BMU) b=argmin<em>jxw</em>jb=\arg\min<em>j |x-w</em>j|.
    3. Actualizar pesos del vecindario h<em>b,j(t)h<em>{b,j}(t): w</em>j(t+1)=w<em>j(t)+α(t)h</em>b,j(t)[xw<em>j(t)]w</em>j(t+1)=w<em>j(t)+\alpha(t)\,h</em>{b,j}(t)\,[x-w<em>j(t)] con h</em>b,j(t)=exp(r<em>br</em>j22σ(t)2)h</em>{b,j}(t)=\exp\left(-\frac{|r<em>b-r</em>j|^2}{2\sigma(t)^2}\right).
    4. Disminuir α(t)\alpha(t) y σ(t)\sigma(t) gradualmente.
  • Resultados: puntos cercanos en alta dimensión quedan en nodos vecinos del mapa; útil para visualización, clustering y detección de anomalías.
  • Ejemplo Iris 4-D → mapa 7×77\times7:
    • 3 especies se agrupan en zonas contiguas; nodos sin datos quedan vacíos.

Conexiones, Implicaciones y Buenas Prácticas

  • Vínculo con estadística: regularización ≈ control de varianza; coeficiente Silhouette ≈ ANOVA intra/inter.
  • Ética y real-world: calidad de datos, sesgos y poder computacional afectan transparencia y equidad de los modelos.
  • Ingeniería: prototipo rápido con heurísticas (K-Means) y, si falla en densidades desiguales, migrar a DBSCAN o SOM para análisis visual.
  • Reutilización de notebooks vistos:
    • Clasificación CNN (perros/gatos) ↔ conceptos de overfitting/early-stopping.
    • Notebook SOM ↔ validación interna, reducción de dimensionalidad.