SHIN_HW 2017. 10. 14. 18:34

R-Squared



변수 y를 해석하거나 예측하기 위해 하나 또는 여러개의 독립변수를 이용하는 것이 Linear Regression 모델이다. 우리는 OLS method를 알아보았는데, 이를 통해 다음 두 경우를 각각 분석한다고 해보자.




A와 B모두 OLS method로 도출한 회귀선의 절편과 기울기가 같다. 따라서 모델상으로는 똑같은 구조를 띄게 된다. 하지만 A의 경우 Error-term이 전체적으로 큰데 비해, B의 경우 Error-term의 분산정도가 작은 것을 확인할 수 있다. 동일한 OLS regression model을 가지고 A를 분석하는 것보다 B를 분석하는 것이 더욱 정확하다고 말할 수 있는 것이다. 우리는 이에 대해 동일한 모델이 B의 경우 더욱 설명력이 높다고 말하며, 이를 수치화 하여 R-squared로 나타낸다.


다음은 R-squared의 공식이다. TSS는 Total sum of squares, RSS는 Regression sum of squares, SSE는 앞에서 다루었던 대로 Sum of squared errors를 뜻한다.



y_^로 표기한 것은 OLS method로 추정된 y값이며 다음과 같은 성질을 가진다.



TSS는 RSS + SSE이며, 증명은 다음과 같다.




R-squared는 0부터 1사이의 값을 가진다. 작을 수록 설명력이 낮은 것을, 1에 가까울 수록 설명력이 높은 것을 의미한다. R-squared가 1인 모델은 독립변수의 움직임으로 종속변수의 움직임을 정확하게 해석할 수 있다는 뜻이지만, 사회현상에 대한 모델에서는 보기 힘들다. R-squared는 설명력을 나타내는 편리한 도구이지만 어떤 모델에 어느정도의 설명력이 적절한지는 어려운 주제이다. 따라서 설명력의 절대적인 수치를 통해 일차적으로 모델의 유용성을 판별하는 것은 상당히 위험하다고 볼 수 있다. 



# Adjusted R-Squared


회귀 모형의 설명변수의 개수가 많아질 수록 R-Squared는 커진다. 극단적으로 말해, 전혀 상관 없는 새로운 변수를 설명변수로 추가한다고 해도 기존의 모델에 비해 R-Squared가 올라가게 되는 것이다. 이를 조정해주기 위해 설명변수가 2개 이상인 경우 Adjusted R-Squared를 활용해야 한다.


Adjusted R-Squared는 SSE와 TSS를 각각의 자유도(Degree of freedom)으로 나누어준 값을 사용한다.