El coeficiente de determinación, denotado como R², es una medida que indica qué tan bien la variable explicativa o independiente explica a la variable dependiente.
Mide la proporción de la variación total en la variable dependiente que es explicada por el modelo de regresión.
Es una medida de la bondad de ajuste del modelo de regresión.
R² siempre está entre 0 y 1.
Un R² cercano a 1 indica que el modelo explica una gran proporción de la variabilidad en la variable dependiente.
Un R² cercano a 0 indica que el modelo explica una pequeña proporción de la variabilidad en la variable dependiente.
El R² no mide causalidad.
Para calcular el R², primero se requiere definir la suma total de cuadrados (STC), que mide la variación total en la variable dependiente:
STC = ∑ᵢ(yᵢ - ȳ)²
También se define la suma explicada de cuadrados (SEC), que mide la variación explicada por el modelo de regresión:
SEC = ∑ᵢ(ŷᵢ - ȳ)²
A veces también se le llama "suma de cuadrados de la regresión" o "suma de cuadrados del modelo"
Y la suma residual de cuadrados (SRC), que mide la variación no explicada por el modelo (también llamada "suma de cuadrados de los errores"):
SRC = ∑ᵢ(yᵢ - ŷᵢ)² = ∑ᵢ(ûᵢ)²
La relación entre estas sumas de cuadrados es STC = SEC + SRC.
El coeficiente de determinación se calcula como:
R² = SEC / STC
Alternativamente, R² = 1 - (SRC / STC)
R² es la proporción de la variación total en y que es explicada por x en el modelo de regresión lineal simple.
Un R² de 0.75, significa que el modelo explica el 75% de la variación total en la variable dependiente, y el 25% restante no es explicado por el modelo.
En ciencias sociales, no es raro encontrar R² bajos en ecuaciones de regresión, especialmente con datos de corte transversal. Esto indica que hay otros factores no incluidos en el modelo que influyen en la variable dependiente.
Es importante recordar que un R² alto no implica necesariamente que el modelo sea bueno o que exista causalidad entre las variables.
R² no indica causalidad; solo la proporción de la variación que se explica estadísticamente por el modelo.
R² no puede utilizarse para comparar modelos con diferentes variables dependientes.
Por ejemplo, no es válido comparar el R² de un modelo con variable dependiente y con el R² de un modelo con variable dependiente log(y).
El R² siempre aumenta cuando se añaden más variables explicativas al modelo, aunque estas no sean relevantes. Por esta razón se usa el R² ajustado en estos casos.
El concepto del R² se generaliza de manera natural al modelo de regresión múltiple, midiendo la proporción de la variabilidad total en la variable dependiente explicada por todas las variables independientes conjuntamente.
En la regresión múltiple, R² no indica cuánto aporta cada variable independiente individual, pero existe un caso especial donde esto sí es posible. Si la correlación entre las diferentes variables explicativas es exactamente cero, entonces la R² de la regresión múltiple será igual a la suma de las R² de las regresiones simples de cada variable independiente.