1/20
Flashcards basadas en una serie de preguntas y soluciones sobre redes neuronales multicapa (MLP), optimización, funciones de pérdida y teoría de aprendizaje profundo.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
¿Qué sucede si un estudiante inicializa todos los pesos y sesgos de un MLP exactamente en cero?
Todas las neuronas de una misma capa aprenden valores idénticos porque la simetría en el gradiente no se rompe y las neuronas no pueden aprender representaciones distintas.
Dada la red y2=softmax(z2), z2=W2y1+b2, y_1 = \text{\phi}(z_1) y z1=W1x+b1 con cross-entropy, ¿cuál es el gradiente ∂W1∂L?
\frac{\partial L}{\partial W_1} = \left((W_2^{\top}(\hat{y} - y)) \odot \text{\phi}'(z_1)\right)x^{\top}
¿Por qué algunas neuronas ReLU dejan de activarse permanentemente durante el entrenamiento (dead neurons)?
Ocurre si el pre-activado de la neurona es negativo de forma persistente, resultando en una salida de cero y un gradiente de cero, lo que impide que la neurona siga aprendiendo.
¿Cuál es el efecto de usar un batch size pequeño (ej. 8) en comparación con uno grande (ej. 2048)?
El batch pequeño introduce más ruido estocástico en los gradientes, lo que suele sesgar la optimización hacia soluciones de menor curvatura efectiva o mínimos más "flat".
¿Cuál es el diagnóstico si un MLP con millones de parámetros tiene error de entrenamiento casi cero pero un error de test alto en un dataset pequeño?
Overfitting por exceso de capacidad, donde el modelo memoriza los datos de entrenamiento en lugar de aprender patrones generalizables.
¿Cuál es la diferencia clave entre la regularización ℓ2 en Adam y el optimizador AdamW?
En Adam, la penalización ℓ2 se reescala por los momentos adaptativos; en AdamW, el weight decay se aplica de forma desacoplada del gradiente para mantener un comportamiento de decay puro.
¿Qué cambio en la capacidad del modelo puede causar que el error de test suba cerca del umbral de interpolación y luego baje?
Aumentar la capacidad del modelo manteniendo lo demás fijo puede causar este fenómeno conocido como "double descent".
¿Cómo afecta el aumento de la temperatura τ en la función softmax?
Al aumentar τ, la distribución se vuelve más uniforme, lo que incrementa la entropía y reduce la confianza media (picos menos pronunciados).
Si se reemplaza el vector de logits z por z+cᵱ (donde c∈R), ¿cómo cambian y^ y ∇zL?
No cambian ni y^ ni ∇zL porque el corrimiento común se cancela durante la normalización de la función softmax.
En una clasificación binaria con salida \hat{y} = \text{\sigma}(z) y binary cross-entropy, ¿cuál es la derivada ∂z∂L?
∂z∂L=y^−y
¿Qué relación existe entre los momentos mt y m^t en Adam si el gradiente g es constante y m0=0?
mt=(1−β1t)g y la corrección de sesgo es m^t=1−β1tmt=g.
¿Por qué una red profunda y angosta suele modelar mejor funciones jerárquicas que una ancha y poco profunda con los mismos parámetros?
Porque la profundidad permite inducir representaciones composicionales, construyendo transformaciones en múltiples niveles jerárquicos de forma más eficiente.
¿Qué sucede si se diseñan 8 capas fully-connected sin ninguna función de activación intermedia?
El desempeño será equivalente al de una regresión lineal simple, ya que la composición de múltiples transformaciones afines es equivalente a una sola transformación afín.
¿Cuál es la diferencia en la robustez a outliers entre MSE y MAE basada en sus gradientes?
El gradiente de MSE (r) crece linealmente con el error, mientras que el gradiente de MAE (sign(r)) tiene una magnitud constante, lo que limita la influencia de los outliers.
¿Cuál es la causa principal de que Batch Normalization estabilice y acelere el entrenamiento?
Reduce el desplazamiento interno de las activaciones (internal covariate shift) al reescalar y recentrar las activaciones por mini-batch.
Con label smoothing ε, donde yls=(1−ε)y+Kε, ¿cuál es el gradiente de la cross-entropy respecto a los logits?
∇zL=y^−yls
En el límite de la temperatura en softmax, ¿qué sucede cuando τ→0+ y cuando τ→∞?
Cuando τ→0+, la distribución tiende a ser de tipo one-hot (concentrada en el valor mínimo de energía/mayor logit); cuando τ→∞, la distribución tiende a ser uniforme.
¿Cuál es el gradiente de la cross-entropy L respecto a z si se definen los logits escalados como y^=softmax(τz)?
∇zL=τ1(y^−y)
¿Qué establece el teorema de aproximación universal sobre los MLP con una sola capa oculta?
Establece que pueden aproximar cualquier función continua en un dominio compacto; sin embargo, esto se refiere a la capacidad expresiva y no garantiza eficiencia o facilidad de entrenamiento.
¿Por qué las redes profundas con activaciones sigmoid pueden presentar un entrenamiento muy lento en las primeras capas?
Debido a la saturación de la sigmoid; cuando las entradas son grandes, la derivada es muy pequeña, lo que causa el desvanecimiento del gradiente (vanishing gradients) al multiplicarse en backpropagation.
¿Cuál es la función principal del Dropout durante el entrenamiento de un MLP?
Introduce ruido al apagar aleatoriamente activaciones, lo que actúa como regularización al reducir las co-adaptaciones y mejorar la generalización en test.