Asset Horizon
OLS Simple Linear Regression 본문
OLS Simple Linear Regression
경제학의 모형은 수식으로 표현되는 경우가 많다. 이러한 수식을 실제 데이터를 통해 검증하기 위해 통계적 방법론이 요구된다. 경제학에 활용가능한 통계적 방법을 연구하고 이를 적용하는 것은 '계량경제학'으로 분과되었다. 또한 이러한 방법론을 금융시장에 적용하는 것을 일반적으로 '퀀트(Qunant, Quantitative)'라고 부르고 있다. 이번 글은 통계적 방법론 중에서 기초적이지만 활용도가 매우 높은 회귀분석에 대해 알아보고자 한다.
두 변수 y와 x를 생각해 보자. 이해를 돕기위해 y는 회사원 A의 월간 소비, x는 월간 소득이라고 해보자. 이것을 T 개월동안 관찰했을 때 우리는 T개의 y값과 T개의 x값을 가지게 되고 이는 Data set을 만들어낼 것이다. 하나의 대상에 대해 시간에 따라 데이터를 수집하는 경우, 이를 Time-Series Data라고 한다. 아래의 그래프는 가상의 Data set을 예시로 든 것이다.
위의 그래프를 보면 두 변수 사이에 정의 상관관계가 있는 것을 눈대중으로 알 수 있다. 하지만 그 두 변수 사이의 관계가 실제로 어떤지 정확한 수치로 나타내기 위해서는 회귀분석(Regression)이 필요하다. 우리는 분석을 통해 두 변수의 관계를 하나의 선으로 나타낼 것인데, 이를 단순선형회귀분석(Simple Linear Regression)이라고 부른다. 그래프에 적절한 하나의 선을 그려넣어서 두 변수간의 관계를 나타내고자 하는 것이다. 하나의 선은 y축 절편과 기울기를 가지고 있을 것이며, 이는 다음과 같이 나타낼 수 있다.
두 변수의 관계를 대표하는 하나의 선은 회귀선(Regression Line)이라고 불리며 특정한 y절편(Beta_0)과 기울기(Beta_1)를 가진다. 하지만 실제 실현된 데이터들의 값은 선과 겹치지 않고 떨어져 있는데, 이렇게 떨어진 정도를 Epsilon이라고 한다. 이렇게 두 변수를 모델링한 것을 식으로 적어보면 다음과 같다.
DGP는 Data Generating Process를 뜻하며, 가상의 참값(True value)을 나타내고 있다는 뜻이다. 이를 이해하기 위해 경제학 모델을 플라톤의 이데아에 빗대어 생각해보자. 이것은 형이상학적으로 존재하는 참값을 토대로 만들어진 모형이다. 참값이라는 점을 표시하기위해 위의 Beta에는 * 표시가 붙어있다. 위에서 회사원 A의 소비와 소득을 관찰했다고 하였지만, 이것은 실현된 값(Realized Value)을 나타내 주며, 이데아가 아닌 그림자를 뜻한다. 따라서 관찰된 Data set으로는 이데아에 해당하는 DGP를 알 수는 없다. 대신 우리는 관찰된 값을 통해 DGP를 추정하는 모델을 사용 할 것이다.
관찰된 Data set의 그래프 위에 임의의 한 선을 그어 보면 다음과 같다. 이는 우리가 앞에서 가정했던 DGP에 해당하는 선과는 조금 다를 것이다. 절편과 기울기는 각각 * 표시를 지우고 임의로 정해진 숫자로 대체되었다. Beta_0과 Beta_1을 임의로 움직이면, 우리는 무한히 많은 임의의 선을 그릴 수 있을 것이다.
어떤 임의로 그려진 회귀선은 다음과 같이 표현될 수 있다.
앞에서 Epsilon이었던 참값은 이제 e로 표현된다. 이는 선으로 부터 실제 데이터가 벗어난 정도를 나타내므로 error-term이라고 생각 할 수 있다. 무수히 많이 그릴 수 있는 임의의 선 중에, 전체적인 error-term의 크기를 최소화 시켜주는 선이 DGP에 대한 좋은 추정치라는 아이디어를 떠올려보자. 제법 그럴듯한 아이디어라고 생각되며, 실제로 우리는 이 아이디어를 활용 할 것이다. error-term은 양수와 음수가 동시에 생기기 때문에 단순 합으로는 크기를 알 수 없다. 이를 해결하는 방법 중 하나로 우리는 error-term의 제곱을 합하여 그 크기를 측정할 것이다. 이렇게 error-term의 제곱의 합(SSE, Sum of Squared Errors)을 최소화 시키는 Beta_0과 Beta_1을 구하는 것이 우리의 목적이다. (이러한 방식을 OLS라고 부른다.)
SSE를 풀어 도출한 Beta0과 Beta1은 위와 같다. Min 문제로 접근하여 First-Order Condition를 이용, 두 변수로 각각 편미분 해준 값이 0이 되어야 한다. 이를 통해 두 개의 방정식을 도출할 수 있어 연립풀이가 가능해진다. 도출된 Beta_0와 Beta_1은 'Solution'임을 나타내기위해 ^ 표시를 해주었다. 이렇게 우리는 OLS method를 활용하여 Regression model을 만들고 그래프상에 Regression line을 그릴 수 있게 되었다. OLS는 결국 DGP에 대한 추정치 이기 때문에, 도출된 Beta_0와 Beta_1 및 Regression line은 모두 OLS Estimator라고 부를 수 있다.
'Studies > Basic Econometrics' 카테고리의 다른 글
Dummy Variables (0) | 2017.11.08 |
---|---|
R-Squared (0) | 2017.10.14 |
Gauss-Markov Theorem (0) | 2017.10.13 |
Classical Assumptions on DGP & Statistical Properties of the OLS (0) | 2017.10.13 |
OLS Multi Linear Regression (0) | 2017.10.12 |