Este capítulo considera el caso más simple de una regresión lineal: una ecuación lineal con una variable dependiente (Y) y una sola variable independiente (X).
El modelo básico se representa como: Y = β₀ + β₁X + u, donde β₀ y β₁ son los parámetros respectivos, y u es el término de error.
En econometría, las relaciones entre variables no son funcionales exactas, sino aproximaciones.
En un análisis de regresión, se busca responder dos preguntas básicas:
¿Cuál es la relación estadística entre la variable dependiente (Y) y la variable independiente (X)? Esto implica obtener estimaciones de los parámetros de la recta de regresión: β₀ y β₁.
¿Qué porcentaje de la variación total en la variable dependiente se puede atribuir a la variación en la variable independiente?
El método de estimación más comúnmente empleado es el método de mínimos cuadrados.
Para visualizar la relación entre las variables, se elabora un diagrama de dispersión.
El objetivo es encontrar la recta que "mejor" se ajusta a los datos observados, minimizando la suma de los errores cuadrados.
Los estimadores de los coeficientes β₀ y β₁, denotados por b₀ y b₁, minimizan la variable:
Q = ∑(Yi - b₀ - b₁Xi)²
Aplicando cálculo para minimizar Q, se calculan las derivadas parciales respecto de b₀ y b₁ e igualando a 0, obteniendo las ecuaciones normales:
∑(Yi - b₀ - b₁Xi) = 0 ∑Xi(Yi - b₀ - b₁Xi) = 0
Resolviendo este sistema, se obtienen los valores de b₀ y b₁, que definen la recta de regresión:
Ŷ = b₀ + b₁X
b₁ es el estimador de la pendiente, indicando el cambio promedio en Y por cada unidad adicional de X.
b₀ es la ordenada en el origen, también llamado el costo fijo en el ejemplo dado.
Es importante distinguir entre Ŷ (valor calculado de Y según la recta de regresión) e Y (valor observado de la variable dependiente).
El coeficiente de determinación (R²) mide la proporción de la variación total en Y que puede ser "explicada" por la variación en X.
La variación total en Y se descompone en la variación "explicada" y la variación "no-explicada" (errores de la regresión).
Por definición de la recta de regresión: Yi = Ŷi + ei, donde ei es el error para la observación i.
Esto implica que ∑Yi = ∑Ŷi y que el promedio de las Ŷ es igual al promedio de las Y.
La variación total se puede expresar como:
∑(Yi - Ȳ)² = ∑(Ŷi - Ȳ)² + ∑eᵢ²
El coeficiente de determinación se calcula como:
R² = ∑(Ŷi - Ȳ)² / ∑(Yi - Ȳ)² = 1 - ∑eᵢ² / ∑(Yi - Ȳ)²
R² representa la proporción de la variabilidad en la variable dependiente que es explicada por el modelo, con valores entre 0 y 1. Un R² más cercano a 1 indica un mejor ajuste del modelo.
El texto también menciona que en una regresión por el origen, la suma algebraica de los errores, ∑eᵢ ya no es igual a cero, y R² puede ser negativa.