Studies/Basic Econometrics

Misspecified Models

SHIN_HW 2017. 11. 12. 11:57

OLS와 같은 회귀모형의 목적은 DGP를 추정하는 것이다. 하지만 현실적으로 우리에게 주어지는 데이터는 실현된 샘플이며, DGP값을 나타내므로 이를 정확히 추정하는 것은 불가능에 가깝다. DGP의 계수는 참값이기 때문에 OLS 등의 회귀모형을 통해 계수를 오차 없이 추정하는 것은 불가능하다. 하지만 앞선 글에서 OLS 모형의 계수 추정 값이 평균적으로는 값과 일치한다는 것을 살펴보았다. 따라서 추정에 있어 그렇게 큰 문제는 되지 않을 수 있다. 하지만 현실적으로 더 큰 문제가 되는 것은 DGP에 포함되는 독립 변수의 개수가 알려져 있지 않다는 점이다.

 

OLS 분석을 실시할 때 우리는 DGP에 포함되는 독립 변수의 개수 및 종류를 정확히 파악할 수 없다. 이에 따라 회귀모형이 범할 수 있는 두 가지 종류의 오류가 생긴다. 첫 번째는 ‘Omitting Relevant-Variable’ 오류이며, 두 번째는  ‘Including Irrelevant-Variable’ 오류이다.



# Omitting Relevant-Variable

 

DGP에는 k_~(=k+1)개의 독립 변수가 있었다고 해보자. (상수항도 독립 변수로 셈) 이를 정확히 파악할 수 없는 입장에서 OLS 모델에 k_1개의 독립 변수를 지정했다면, 이는 Omitting 오류로 이어진다.




DGPX를 독립 변수로 하고 있다. XX_(1)X_(2)가 포함되어 있지만, OLS 분석에 활용되는 독립 변수는 X_(1) 밖에 없다. , X_(2)에 속하는 변수는 실제로 DGP에서 설명 변수임에도 불구하고 OLS에 포함되지 않은 것이다OLS 분석에서 Omitting 오류를 범하게 되면, 결과적으로 OLS EstimatorBiased하게 도출된다. 증명은 다음과 같다.




# Including Irrelevant-Variable

 

그렇다면 DGP에 포함되지 않은 변수를 OLS에 추가할 경우 어떻게 될까? 이 경우에는 OLS EstimatorUnbiased된 상태를 유지할 수 있다. DGPIrrelevant-Variable을 포함시킨 후 계수를 ‘0’으로 두게 되면 수학적으로 여전히 동일한 DGP 식이 유지된다. 따라서 Irrelevant-Variable의 경우 OLS 회귀모형에서도 계수가 평균 0으로 추정되게 된다.




# 해석


OLS 회귀분석을 시행함에 있어 Omitting 오류는 치명적이다. 회귀모형에 포함되는 독립 변수의 개수가 많을 수록 'General Model'이 되며, 독립 변수의 개수가 작을 수록 'Simple Model'이라고 볼 수 있다. 이론적으로 Simple Model일 수록 직관성과 해석의 용이성이 뛰어나며 활용도가 높기때문에 General Model 대비 Simple Model이 선호된다. 하지만 Simple Model은 비교적 Omitting 오류를 범할 가능성이 크다는 점을 염두에 두어야 한다.


이러한 해석을 바탕으로 실제로 회귀 분석을 시행함에 있어 어떤 모델을 선택할 것인가에 대한 문제는 이후 'Model Selection Criteria'에서 다루도록 하겠다.