Conceptos Fundamentales de MLP y Redes Neuronales

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/20

Earn XP

Description and Tags

Flashcards basadas en una serie de preguntas y soluciones sobre redes neuronales multicapa (MLP), optimización, funciones de pérdida y teoría de aprendizaje profundo.

Last updated 12:59 AM on 5/9/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

21 Terms

1

New cards

¿Qué sucede si un estudiante inicializa todos los pesos y sesgos de un MLP exactamente en cero?

Todas las neuronas de una misma capa aprenden valores idénticos porque la simetría en el gradiente no se rompe y las neuronas no pueden aprender representaciones distintas.

2

New cards

Dada la red $y_2 = \text{softmax}(z_2)$ , $z_2 = W_2y_1 + b_2$ , y_1 = \text{\phi}(z_1) y $z_1 = W_1x + b_1$ con cross-entropy, ¿cuál es el gradiente $\frac{\partial L}{\partial W_1}$ ?

\frac{\partial L}{\partial W_1} = \left((W_2^{\top}(\hat{y} - y)) \odot \text{\phi}'(z_1)\right)x^{\top}

3

New cards

¿Por qué algunas neuronas ReLU dejan de activarse permanentemente durante el entrenamiento (dead neurons)?

Ocurre si el pre-activado de la neurona es negativo de forma persistente, resultando en una salida de cero y un gradiente de cero, lo que impide que la neurona siga aprendiendo.

4

New cards

¿Cuál es el efecto de usar un batch size pequeño (ej. 8) en comparación con uno grande (ej. 2048)?

El batch pequeño introduce más ruido estocástico en los gradientes, lo que suele sesgar la optimización hacia soluciones de menor curvatura efectiva o mínimos más "flat".

5

New cards

¿Cuál es el diagnóstico si un MLP con millones de parámetros tiene error de entrenamiento casi cero pero un error de test alto en un dataset pequeño?

Overfitting por exceso de capacidad, donde el modelo memoriza los datos de entrenamiento en lugar de aprender patrones generalizables.

6

New cards

¿Cuál es la diferencia clave entre la regularización $ℓ_2$ en Adam y el optimizador AdamW?

En Adam, la penalización $ℓ_2$ se reescala por los momentos adaptativos; en AdamW, el weight decay se aplica de forma desacoplada del gradiente para mantener un comportamiento de decay puro.

7

New cards

¿Qué cambio en la capacidad del modelo puede causar que el error de test suba cerca del umbral de interpolación y luego baje?

Aumentar la capacidad del modelo manteniendo lo demás fijo puede causar este fenómeno conocido como "double descent".

8

New cards

¿Cómo afecta el aumento de la temperatura $\tau$ en la función softmax?

Al aumentar $\tau$ , la distribución se vuelve más uniforme, lo que incrementa la entropía y reduce la confianza media (picos menos pronunciados).

9

New cards

Si se reemplaza el vector de logits $z$ por $z + cᵱ$ (donde $c \in \mathbb{R}$ ), ¿cómo cambian $\hat{y}$ y $\nabla_z L$ ?

No cambian ni $\hat{y}$ ni $\nabla_z L$ porque el corrimiento común se cancela durante la normalización de la función softmax.

10

New cards

En una clasificación binaria con salida \hat{y} = \text{\sigma}(z) y binary cross-entropy, ¿cuál es la derivada $\frac{\partial L}{\partial z}$ ?

$\frac{\partial L}{\partial z} = \hat{y} - y$

11

New cards

¿Qué relación existe entre los momentos $m_t$ y $\hat{m}_t$ en Adam si el gradiente $g$ es constante y $m_0 = 0$ ?

$m_t = (1 - \beta_1^t)g$ y la corrección de sesgo es $\hat{m}_t = \frac{m_t}{1 - \beta_1^t} = g$ .

12

New cards

¿Por qué una red profunda y angosta suele modelar mejor funciones jerárquicas que una ancha y poco profunda con los mismos parámetros?

Porque la profundidad permite inducir representaciones composicionales, construyendo transformaciones en múltiples niveles jerárquicos de forma más eficiente.

13

New cards

¿Qué sucede si se diseñan 8 capas fully-connected sin ninguna función de activación intermedia?

El desempeño será equivalente al de una regresión lineal simple, ya que la composición de múltiples transformaciones afines es equivalente a una sola transformación afín.

14

New cards

¿Cuál es la diferencia en la robustez a outliers entre MSE y MAE basada en sus gradientes?

El gradiente de MSE ( $r$ ) crece linealmente con el error, mientras que el gradiente de MAE ( $\text{sign}(r)$ ) tiene una magnitud constante, lo que limita la influencia de los outliers.

15

New cards

¿Cuál es la causa principal de que Batch Normalization estabilice y acelere el entrenamiento?

Reduce el desplazamiento interno de las activaciones (internal covariate shift) al reescalar y recentrar las activaciones por mini-batch.

16

New cards

Con label smoothing $\varepsilon$ , donde $y_{ls} = (1 - \varepsilon)y + \frac{\varepsilon}{K}$ , ¿cuál es el gradiente de la cross-entropy respecto a los logits?

$\nabla_z L = \hat{y} - y_{ls}$

17

New cards

En el límite de la temperatura en softmax, ¿qué sucede cuando $\tau \rightarrow 0+$ y cuando $\tau \rightarrow \infty$ ?

Cuando $\tau \rightarrow 0+$ , la distribución tiende a ser de tipo one-hot (concentrada en el valor mínimo de energía/mayor logit); cuando $\tau \rightarrow \infty$ , la distribución tiende a ser uniforme.

18

New cards

¿Cuál es el gradiente de la cross-entropy $L$ respecto a $z$ si se definen los logits escalados como $\hat{y} = \text{softmax}(\frac{z}{\tau})$ ?

$\nabla_z L = \frac{1}{\tau}(\hat{y} - y)$

19

New cards

¿Qué establece el teorema de aproximación universal sobre los MLP con una sola capa oculta?

Establece que pueden aproximar cualquier función continua en un dominio compacto; sin embargo, esto se refiere a la capacidad expresiva y no garantiza eficiencia o facilidad de entrenamiento.

20

New cards

¿Por qué las redes profundas con activaciones sigmoid pueden presentar un entrenamiento muy lento en las primeras capas?

Debido a la saturación de la sigmoid; cuando las entradas son grandes, la derivada es muy pequeña, lo que causa el desvanecimiento del gradiente (vanishing gradients) al multiplicarse en backpropagation.

21

New cards

¿Cuál es la función principal del Dropout durante el entrenamiento de un MLP?

Introduce ruido al apagar aleatoriamente activaciones, lo que actúa como regularización al reducir las co-adaptaciones y mejorar la generalización en test.