V❀

Coeficiente de Determinación

Concepto General

  • El coeficiente de determinación, denotado como , es una medida que indica qué tan bien la variable explicativa o independiente explica a la variable dependiente.

  • Mide la proporción de la variación total en la variable dependiente que es explicada por el modelo de regresión.

  • Es una medida de la bondad de ajuste del modelo de regresión.

  • R² siempre está entre 0 y 1.

    • Un R² cercano a 1 indica que el modelo explica una gran proporción de la variabilidad en la variable dependiente.

    • Un R² cercano a 0 indica que el modelo explica una pequeña proporción de la variabilidad en la variable dependiente.

  • El R² no mide causalidad.

Cálculo del R²

  • Para calcular el R², primero se requiere definir la suma total de cuadrados (STC), que mide la variación total en la variable dependiente:

    • STC = ∑ᵢ(yᵢ - ȳ

  • También se define la suma explicada de cuadrados (SEC), que mide la variación explicada por el modelo de regresión:

    • SEC = ∑ᵢ(ŷᵢ - ȳ

    • A veces también se le llama "suma de cuadrados de la regresión" o "suma de cuadrados del modelo"

  • Y la suma residual de cuadrados (SRC), que mide la variación no explicada por el modelo (también llamada "suma de cuadrados de los errores"):

    • SRC = ∑ᵢ(yᵢ - ŷᵢ)² = ∑ᵢ(ûᵢ

  • La relación entre estas sumas de cuadrados es STC = SEC + SRC.

  • El coeficiente de determinación se calcula como:

    • R² = SEC / STC

    • Alternativamente, R² = 1 - (SRC / STC)

Interpretación del R²

  • R² es la proporción de la variación total en y que es explicada por x en el modelo de regresión lineal simple.

  • Un R² de 0.75, significa que el modelo explica el 75% de la variación total en la variable dependiente, y el 25% restante no es explicado por el modelo.

  • En ciencias sociales, no es raro encontrar R² bajos en ecuaciones de regresión, especialmente con datos de corte transversal. Esto indica que hay otros factores no incluidos en el modelo que influyen en la variable dependiente.

  • Es importante recordar que un R² alto no implica necesariamente que el modelo sea bueno o que exista causalidad entre las variables.

Advertencias

  • R² no indica causalidad; solo la proporción de la variación que se explica estadísticamente por el modelo.

  • R² no puede utilizarse para comparar modelos con diferentes variables dependientes.

    • Por ejemplo, no es válido comparar el R² de un modelo con variable dependiente y con el R² de un modelo con variable dependiente log(y).

  • El R² siempre aumenta cuando se añaden más variables explicativas al modelo, aunque estas no sean relevantes. Por esta razón se usa el R² ajustado en estos casos.

R² en Regresión Múltiple

  • El concepto del R² se generaliza de manera natural al modelo de regresión múltiple, midiendo la proporción de la variabilidad total en la variable dependiente explicada por todas las variables independientes conjuntamente.

  • En la regresión múltiple, R² no indica cuánto aporta cada variable independiente individual, pero existe un caso especial donde esto sí es posible. Si la correlación entre las diferentes variables explicativas es exactamente cero, entonces la R² de la regresión múltiple será igual a la suma de las R² de las regresiones simples de cada variable independiente.