RNAYLD V06 Unidad 4 – Aprendizaje Automático y Mapas Autoorganizados

Foco general: "Aprendizaje Automático" y su relación con redes neuronales.
Distinción de paradigmas:
- Aprendizaje supervisado (Multi-Layer Perceptron, CNN, etc.)
- Semi-supervisado (Redes RBF)
- No supervisado (Mapas Autoorganizados – SOM, clustering)
Recordatorio: las redes neuronales no se limitan al aprendizaje supervisado; existen arquitecturas útiles para extracción de patrones sin etiquetas.
Aplicaciones actuales: grandes modelos de lenguaje, sistemas de recomendación (Netflix, Amazon), reconocimiento facial, foto-tagging, domótica, vehículos autónomos.
Dependencia crítica de:
- Calidad y tamaño del dataset
- Poder de cómputo (especialmente en modelos generativos a gran escala)

Objetivo: extraer conocimiento a partir de datos, entrenando modelos en vez de programar reglas fijas.
Ventajas frente a sistemas basados en reglas (if-then):
- Escalabilidad en dominios complejos
- Adaptabilidad cuando cambian los datos
- Capacidad de generalizar
Definiciones clásicas:
- Russell: un sistema inteligente debe aprender y mejorar con la experiencia.
- Simon: cualquier cambio que mejore el desempeño futuro = aprendizaje.
- Mitchell: un programa aprende de experiencia $E$ respecto a tareas $T$ y medida de desempeño $P$ si su rendimiento en $T$ mejora con $E$ medida por $P$ .

Supervisado: ejemplos etiquetados ${(xi,yi)}$ ; objetivo: aproximar función $f: X \to Y$ .
No supervisado: sin etiquetas; objetivo: descubrir estructura (clusters, correlaciones, anomalías).
Por refuerzo: el modelo interactúa con el ambiente; recibe recompensas $r_t$ para aprender política óptima.
Relación con tareas:
- Predicción (clasificación, regresión) ⟶ supervisado
- Descripción (clustering, reglas de asociación) ⟶ no supervisado
- Decisión secuencial ⟶ refuerzo

Concepto de "clasificador ideal"; buscamos hipótesis $h$ que minimice diferencia con $f$ (espacio de hipótesis determinado por el modelo elegido).
Representaciones comunes del clasificador: combinación lineal de características, árboles de decisión, SVM, redes neuronales.
Pipeline típico:
1. Recolección y etiquetado de datos.
2. Partición en entrenamiento / validación / prueba o validación cruzada $k$ -fold.
3. Entrenamiento: ajuste de parámetros.
4. Validación: selección de hiperparámetros (capas, learning-rate, batch-size, etc.).
5. Evaluación final en conjunto "blind" de test.

Generalización: buen desempeño ante datos jamás vistos.
Underfitting: modelo demasiado simple, alto sesgo, error elevado en train y test.
Overfitting: modelo demasiado complejo, gran varianza, error bajo en train pero alto en test.
Indicadores:
- Demasiadas épocas ⟶ overfitting; muy pocas ⟶ underfitting.
- Muy pocos nodos/capas ⟶ underfitting; muchos parámetros + pocos datos ⟶ overfitting.
Soluciones:
- Regularización $L1$ / $L2$ , Dropout.
- Early-Stopping (cortar cuando la pérdida de validación sube).
- Aumentar datos o ruido sintético.
- Ajustar arquitectura/hiperparámetros.

Dataset: 2 000 imágenes de entrenamiento (1 000 gato + 1 000 perro) y 1 000 de validación.
Pre-procesado: re-escalado $150\times150$ px, batches de 100.
Arquitectura: 4 bloques Conv (32-64-128-128 filtros) + MaxPooling + Dense 512 + salida sigmoide (binaria).
Compilada con pérdida Binary Cross-Entropy y métrica Accuracy.
Entrenamiento 6 épocas ⇒ $Acc_{val} \approx 0.60$ , pérdida $\approx 0.66$ .
Posibles mejoras: más épocas, data-augmentation, regularización, cambio de arquitectura.

Agrupamiento = particionar datos para maximizar similitud intra-cluster y diferenciar inter-cluster.
Ambigüedad: un mismo dataset puede justificar 2, 4, 6 clusters según criterio.
Clasificación general:
- Particional (K-Means, DBSCAN): cada punto pertenece a un único cluster.
- Jerárquico (aglomerativo/divisivo): produce árbol de clusters anidados.

Parámetro $k$ número de clusters.
Pasos:
1. Inicializar $k$ centroides (sensibles a posición inicial).
2. Asignar cada punto al centroide más cercano (distancia euclidiana o coseno).
3. Recalcular centroides $cj=\frac{1}{|Sj|}\sum{xi\in Sj}xi$ .
4. Repetir hasta convergencia (centroides no cambian).
Riesgos: soluciones sub-óptimas si la semilla es mala; sensible a outliers; asume clusters globulares.

Parámetros: radio $\varepsilon$ y mínimo de puntos $MinPts$ .
Tipos de punto:
- Núcleo: $|N_\varepsilon(p)| \geq MinPts$ .
- Borde: en vecindario de un núcleo pero <MinPts.
- Ruido: no pertenece a ningún vecindario denso.
Ventajas: detecta formas arbitrarias, infiere $k$ automáticamente, maneja outliers.
Limitaciones: sensibilidad a variación de densidades, costoso en alta dimensión.

Interna (no supervisada):
- Coeficiente Silhouette: $s(i)=\frac{b(i)-a(i)}{\max{a(i),b(i)}}$ , donde $a(i)$ = distancia media a su cluster y $b(i)$ = mínima distancia media a otros clusters.
- Valores cercanos a $1$ indican buen agrupamiento.
Externa (supervisada): compara con etiquetas reales mediante Accuracy, $F_1$ , entropía, pureza, etc. (requiere ground-truth).

Red neuronal no supervisada; reduce datos de $\mathbb R^n$ a mapa 2-D preservando vecindad topológica.
Arquitectura:
- Capa de entrada (n neuronas = dimensión del vector).
- Capa mapa: malla rectangular/hexagonal de neuronas sin conexiones laterales explícitas.
Algoritmo competitivo:
1. Inicializar pesos aleatoriamente.
2. Para cada vector $x$ elegir la Best Matching Unit (BMU) $b=\arg\minj |x-wj|$ .
3. Actualizar pesos del vecindario $h{b,j}(t)$ : $wj(t+1)=wj(t)+\alpha(t)\,h{b,j}(t)\,[x-wj(t)]$ con $h{b,j}(t)=\exp\left(-\frac{|rb-rj|^2}{2\sigma(t)^2}\right)$ .
4. Disminuir $\alpha(t)$ y $\sigma(t)$ gradualmente.
Resultados: puntos cercanos en alta dimensión quedan en nodos vecinos del mapa; útil para visualización, clustering y detección de anomalías.
Ejemplo Iris 4-D → mapa $7\times7$ :
- 3 especies se agrupan en zonas contiguas; nodos sin datos quedan vacíos.

Vínculo con estadística: regularización ≈ control de varianza; coeficiente Silhouette ≈ ANOVA intra/inter.
Ética y real-world: calidad de datos, sesgos y poder computacional afectan transparencia y equidad de los modelos.
Ingeniería: prototipo rápido con heurísticas (K-Means) y, si falla en densidades desiguales, migrar a DBSCAN o SOM para análisis visual.
Reutilización de notebooks vistos:
- Clasificación CNN (perros/gatos) ↔ conceptos de overfitting/early-stopping.
- Notebook SOM ↔ validación interna, reducción de dimensionalidad.