RNAYLD V06 Unidad 4 – Aprendizaje Automático y Mapas Autoorganizados
Introducción a la Unidad 4
- Foco general: "Aprendizaje Automático" y su relación con redes neuronales.
- Distinción de paradigmas:
- Aprendizaje supervisado (Multi-Layer Perceptron, CNN, etc.)
- Semi-supervisado (Redes RBF)
- No supervisado (Mapas Autoorganizados – SOM, clustering)
- Recordatorio: las redes neuronales no se limitan al aprendizaje supervisado; existen arquitecturas útiles para extracción de patrones sin etiquetas.
- Aplicaciones actuales: grandes modelos de lenguaje, sistemas de recomendación (Netflix, Amazon), reconocimiento facial, foto-tagging, domótica, vehículos autónomos.
- Dependencia crítica de:
- Calidad y tamaño del dataset
- Poder de cómputo (especialmente en modelos generativos a gran escala)
Fundamentos de Aprendizaje Automático
- Objetivo: extraer conocimiento a partir de datos, entrenando modelos en vez de programar reglas fijas.
- Ventajas frente a sistemas basados en reglas (if-then):
- Escalabilidad en dominios complejos
- Adaptabilidad cuando cambian los datos
- Capacidad de generalizar
- Definiciones clásicas:
- Russell: un sistema inteligente debe aprender y mejorar con la experiencia.
- Simon: cualquier cambio que mejore el desempeño futuro = aprendizaje.
- Mitchell: un programa aprende de experiencia E respecto a tareas T y medida de desempeño P si su rendimiento en T mejora con E medida por P.
Tipos de Aprendizaje
- Supervisado: ejemplos etiquetados (x<em>i,y</em>i); objetivo: aproximar función f:X→Y.
- No supervisado: sin etiquetas; objetivo: descubrir estructura (clusters, correlaciones, anomalías).
- Por refuerzo: el modelo interactúa con el ambiente; recibe recompensas rt para aprender política óptima.
- Relación con tareas:
- Predicción (clasificación, regresión) ⟶ supervisado
- Descripción (clustering, reglas de asociación) ⟶ no supervisado
- Decisión secuencial ⟶ refuerzo
Aprendizaje Supervisado
- Concepto de "clasificador ideal"; buscamos hipótesis h que minimice diferencia con f (espacio de hipótesis determinado por el modelo elegido).
- Representaciones comunes del clasificador: combinación lineal de características, árboles de decisión, SVM, redes neuronales.
- Pipeline típico:
- Recolección y etiquetado de datos.
- Partición en entrenamiento / validación / prueba o validación cruzada k-fold.
- Entrenamiento: ajuste de parámetros.
- Validación: selección de hiperparámetros (capas, learning-rate, batch-size, etc.).
- Evaluación final en conjunto "blind" de test.
Métricas clásicas de evaluación supervisada
- Matriz de confusión (clases reales vs. predichas).
- Exactitud (Accuracy):Acc=Ntotal∑<em>iTP</em>i
- Precisión: P=TP+FPTP
- Recall (Cobertura): R=TP+FNTP
- Medida F<em>1: F</em>1=P+R2PR (promedio armónico).
Sobreajuste y Subajuste
- Generalización: buen desempeño ante datos jamás vistos.
- Underfitting: modelo demasiado simple, alto sesgo, error elevado en train y test.
- Overfitting: modelo demasiado complejo, gran varianza, error bajo en train pero alto en test.
- Indicadores:
- Demasiadas épocas ⟶ overfitting; muy pocas ⟶ underfitting.
- Muy pocos nodos/capas ⟶ underfitting; muchos parámetros + pocos datos ⟶ overfitting.
- Soluciones:
- Regularización L<em>1 / L</em>2, Dropout.
- Early-Stopping (cortar cuando la pérdida de validación sube).
- Aumentar datos o ruido sintético.
- Ajustar arquitectura/hiperparámetros.
Ejemplo práctico: CNN Perros vs. Gatos
- Dataset: 2 000 imágenes de entrenamiento (1 000 gato + 1 000 perro) y 1 000 de validación.
- Pre-procesado: re-escalado 150×150 px, batches de 100.
- Arquitectura: 4 bloques Conv (32-64-128-128 filtros) + MaxPooling + Dense 512 + salida sigmoide (binaria).
- Compilada con pérdida Binary Cross-Entropy y métrica Accuracy.
- Entrenamiento 6 épocas ⇒ Accval≈0.60, pérdida ≈0.66.
- Posibles mejoras: más épocas, data-augmentation, regularización, cambio de arquitectura.
Aprendizaje No Supervisado
- Agrupamiento = particionar datos para maximizar similitud intra-cluster y diferenciar inter-cluster.
- Ambigüedad: un mismo dataset puede justificar 2, 4, 6 clusters según criterio.
- Clasificación general:
- Particional (K-Means, DBSCAN): cada punto pertenece a un único cluster.
- Jerárquico (aglomerativo/divisivo): produce árbol de clusters anidados.
Algoritmo K-Means (particional)
- Parámetro k número de clusters.
- Pasos:
- Inicializar k centroides (sensibles a posición inicial).
- Asignar cada punto al centroide más cercano (distancia euclidiana o coseno).
- Recalcular centroides c<em>j=∣S</em>j∣1∑<em>x</em>i∈S<em>jx</em>i.
- Repetir hasta convergencia (centroides no cambian).
- Riesgos: soluciones sub-óptimas si la semilla es mala; sensible a outliers; asume clusters globulares.
Algoritmo DBSCAN (densidad)
- Parámetros: radio ε y mínimo de puntos MinPts.
- Tipos de punto:
- Núcleo: ∣Nε(p)∣≥MinPts.
- Borde: en vecindario de un núcleo pero <MinPts.
- Ruido: no pertenece a ningún vecindario denso.
- Ventajas: detecta formas arbitrarias, infiere k automáticamente, maneja outliers.
- Limitaciones: sensibilidad a variación de densidades, costoso en alta dimensión.
Evaluación de Clustering
- Interna (no supervisada):
- Coeficiente Silhouette: s(i)=maxa(i),b(i)b(i)−a(i), donde a(i) = distancia media a su cluster y b(i) = mínima distancia media a otros clusters.
- Valores cercanos a 1 indican buen agrupamiento.
- Externa (supervisada): compara con etiquetas reales mediante Accuracy, F1, entropía, pureza, etc. (requiere ground-truth).
Mapas Autoorganizados (SOM / Kohonen)
- Red neuronal no supervisada; reduce datos de Rn a mapa 2-D preservando vecindad topológica.
- Arquitectura:
- Capa de entrada (n neuronas = dimensión del vector).
- Capa mapa: malla rectangular/hexagonal de neuronas sin conexiones laterales explícitas.
- Algoritmo competitivo:
- Inicializar pesos aleatoriamente.
- Para cada vector x elegir la Best Matching Unit (BMU) b=argmin<em>j∣x−w</em>j∣.
- Actualizar pesos del vecindario h<em>b,j(t):
w</em>j(t+1)=w<em>j(t)+α(t)h</em>b,j(t)[x−w<em>j(t)]
con h</em>b,j(t)=exp(−2σ(t)2∣r<em>b−r</em>j∣2).
- Disminuir α(t) y σ(t) gradualmente.
- Resultados: puntos cercanos en alta dimensión quedan en nodos vecinos del mapa; útil para visualización, clustering y detección de anomalías.
- Ejemplo Iris 4-D → mapa 7×7:
- 3 especies se agrupan en zonas contiguas; nodos sin datos quedan vacíos.
Conexiones, Implicaciones y Buenas Prácticas
- Vínculo con estadística: regularización ≈ control de varianza; coeficiente Silhouette ≈ ANOVA intra/inter.
- Ética y real-world: calidad de datos, sesgos y poder computacional afectan transparencia y equidad de los modelos.
- Ingeniería: prototipo rápido con heurísticas (K-Means) y, si falla en densidades desiguales, migrar a DBSCAN o SOM para análisis visual.
- Reutilización de notebooks vistos:
- Clasificación CNN (perros/gatos) ↔ conceptos de overfitting/early-stopping.
- Notebook SOM ↔ validación interna, reducción de dimensionalidad.