En econometría aplicada, se busca explicar cómo varía una variable 'y' en función de otra variable 'x'. Por ejemplo, cómo el rendimiento de cultivos de soya (y) se relaciona con la cantidad de fertilizante (x), o cómo el salario por hora (y) se relaciona con los años de educación (x).
El modelo de regresión lineal simple se define mediante la ecuación: y = β₀ + β₁x + u.
'y' es la variable dependiente, explicada, de respuesta, predicha, o regresando.
'x' es la variable independiente, explicativa, o regresor.
β₀ es el intercepto.
β₁ es la pendiente, que indica cómo cambia 'y' por cada unidad de cambio en 'x'.
'u' es el término de error o perturbación, que incluye factores no observados que afectan a 'y'.
El origen del término "regresión" no es relevante para la mayoría de las aplicaciones econométricas modernas.
Se asume que la relación entre 'y' y 'x' es lineal.
Para estimar los parámetros β₀ y β₁, se utiliza una muestra aleatoria de la población {(xᵢ, yᵢ): i = 1, ..., n}.
El método de mínimos cuadrados ordinarios (MCO) busca minimizar la suma de los cuadrados de los residuales:
∑ᵢ (yᵢ - β̂₀ - β̂₁xᵢ)².
Los estimadores MCO de la pendiente (β̂₁) y el intercepto (β̂₀) se obtienen resolviendo un sistema de ecuaciones.
La función de regresión muestral (FRM) se expresa como:
ŷ = β̂₀ + β̂₁x.
Esta es la versión estimada de la función de regresión poblacional E(y|x) = β₀ + β₁x.
La FRM cambia con cada muestra, dado que depende de los datos muestrales.
La pendiente estimada (β̂₁) es de particular interés, ya que indica el cambio en ŷ por cada unidad de cambio en x.
Los valores ajustados (ŷᵢ) y los residuales (ûᵢ) son datos importantes que se obtienen al aplicar el método MCO.
Se establece un supuesto crucial: el valor esperado del error 'u' dado 'x' es cero: E(u|x) = 0.
Este supuesto implica que la distribución de 'y' está centrada en E(y|x).
Para obtener estimaciones insesgadas de los parámetros, este supuesto es necesario.
El análisis de regresión simple se puede adaptar para incluir ciertas no linealidades mediante la transformación de las variables dependiente e independiente.
Modelos log-lineales:
La variable dependiente aparece en forma logarítmica (por ejemplo, log(wage)).
La pendiente en este caso se interpreta como el cambio porcentual en 'y' por cada unidad de cambio en 'x'.
Ejemplo: log(wage) = β₀ + β₁educ + u.
El modelo permite relaciones no lineales entre las variables originales.
Modelos log-log:
Ambas variables, dependiente e independiente, aparecen en forma logarítmica.
Ejemplo: log(salary) = β₀ + β₁log(sales) + u.
En este modelo, la pendiente se interpreta como la elasticidad de 'y' respecto a 'x'.
Modelo nivel-log: La variable independiente aparece en forma logarítmica, se le llama también modelo semielástico.
La tabla 2.3 resume las formas funcionales comunes que usan logaritmos.
Supuesto RLS.1: El modelo poblacional es lineal en los parámetros.
Supuesto RLS.2: Se obtiene una muestra aleatoria de tamaño 'n' de la población.
Supuesto RLS.3: Hay variación muestral en los valores de 'x'.
Supuesto RLS.4: La media condicional del error 'u' dado 'x' es cero: E(u|x) = 0.
Supuesto RLS.5: Homocedasticidad. La varianza del error 'u' condicional a 'x' es constante: Var(u|x) = σ².
Bajo los supuestos RLS.1 a RLS.4, los estimadores MCO son insesgados.
Bajo los supuestos RLS.1 a RLS.5, los estimadores MCO son los mejores estimadores lineales insesgados (MELI).
El teorema 2.2 presenta la varianza muestral de los estimadores MCO bajo estos supuestos.
El error estándar de los estimadores se utiliza para medir la precisión de las estimaciones y construir intervalos de confianza.
El supuesto RLS.5 (homocedasticidad) se puede probar empíricamente (capítulo 8).
En algunos casos, se puede restringir el intercepto a ser cero, lo que se conoce como regresión a través del origen.
El modelo se expresa como: ỹ = β̃₁x.
El estimador de la pendiente (β̃₁) se obtiene mediante MCO, minimizando la suma de los cuadrados de los residuales sin intercepto:
∑ᵢ (yᵢ - β̃₁xᵢ)².
La regresión a través del origen no es común en la práctica, porque si el verdadero intercepto es distinto de cero, el estimador de la pendiente es sesgado.
El capítulo introduce el modelo de regresión lineal simple y sus propiedades básicas.
Se usa el método de mínimos cuadrados ordinarios para estimar los parámetros.
Se discuten supuestos clave que garantizan la validez de las estimaciones.
El capítulo enfatiza la importancia de considerar las limitaciones del análisis de regresión simple en el análisis econométrico.