Review 2020/09/27 - [Statistics/Regression Analysis] - [회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares) 안녕하십니까, 간토끼입니다. 지난 포스팅까지 총 3부작으로 ANOVA를 이용해 회귀분석을 다루어보았습니다. (사실 ANOVA는 회귀분석의 특별한 형태라고 합니다.) 특히 직전 포스팅에서 F-ratio를 다루면서 모형의 적합도를 평가해보았죠. 이번 포스팅에서는 모형의 적합도를 평가하는 다른 평가 지표인 결정계수(Coefficient of Determination)에 대해서 다뤄보겠습니다. 지난 포스팅으로 잠깐
돌아가보죠. 궁극적으로는
SSR이 커진다는 것은 SSE가 작아진다는 것이고, SSE가 작아지면 설명 불가능한 변동이 작아지는 거니까, 이를 바탕으로 정의되는 결정계수(R²,R Square) 는 회귀모형 내에서 설명변수 x로 설명할 수 있는 반응변수 y의 변동 비율입니다. SST는 SSR과 SSE의 합으로 표현되니까, SSR = SST - SSE 로도 쓸 수 있겠죠? 결정계수를 좀 더 직관적으로 표현해보죠. 뭐랄까 직관적으로 이런
느낌입니다. 그래서
R²는 0부터 1사이의 값을 갖습니다. 만약
R²가 1이라면 좌측의 그래프와 같이 완벽한 선형 상관관계가 나타남을 알 수 있습니다. 그러나 R²이 거의 0에 가깝다고 하더라도 X와 Y의 관계가 전혀 없는 것은 절대 아닙니다. 이런 경우, 설명변수 X에 Polynomial Form(Ex. x² 형태)를 취해 넣어주게 되면, R²은 1에 가깝게 될 것입니다. 그리고 선형회귀분석은 인과성이 아닌 상관성에 기반하고 있는 통계 분석
기법입니다. 재밌게도 단순선형회귀모형에서 R²와 상관계수 사이에는 제곱의 관계가 성립합니다. 한번 증명해보죠. ( 중간에 SSR이 왜 저렇게 되는지 모르겠는 분은 => 여기 를 참고해주세요.) 간단하죠? 다만 끝부분에 (a)가 왜 상관계수가 되는지 혹시나 모르실 분들을 위해 설명을 준비했습니다. 쉽죠? 회귀분석을 하다 보면 R² 이 높게 나올 때도 있고, 낮게 나올 때도 있습니다. 답은 그렇지 않습니다. 하지만 사회과학에서의 연구는 그렇지 못한 경우가 많습니다. 나이가 10대, 60대 이상에 비해 30, 40대일 때 소득이 더 높다는 점에서 나이도 중요한 변수일 수 있고, 즉 사회과학에서의 연구는 모든 변수를 완전히 통제할 수 없다는 점에서 완벽한 연구는 불가능합니다. 그렇기에 만약 소득을 예측하는 회귀모형을 구성할 때 이러한 설명변수를 모두 포함하지
못한 채 분석을 한다면, 또한 시간이 지날수록 과거에 비해 상승하는 Trend를 가진 물가, GDP 등의 거시경제지표의 경우, 만약 예측을 중요시하는 머신러닝이라면 일반적으로 반응변수가 연속형 변수일 때 모형의 성능을 평가하는 지표로 R²를 사용합니다. 그러나 해석을 중요시하는 사회과학 등의 경우, Y를 얼마나 잘 예측하는지에만 기초하여 모형을 평가해서는 안 됩니다. 극단적인 예로 초콜릿 소비량과 머리카락의 길이가 매우 높은 양의 상관관계(r = 0.95)가 있다고 가정하면, 초콜릿 소비량(y) = b0 + b1 * 머리카락의 길이(x) 라는 모형의R²은 거의 1에 가깝겠죠. 그렇다고 R² 가 0이 돼도 상관없다는 의미는 아닙니다.(R² 가 0이 되면 아마 F-ratio가 유의하지 못할 겁니다.) 즉 크면야 좋기는 하겠지만, 모형을 평가하는 절대적인 기준으로써 R²가 사용되어서는 안 된다는 것이죠. 정리하면 R²는
회귀모형의 Goodness of Fit(적합도)으로 사용될 수 있으나 모형을 평가하는 데 절대적인 기준이 되지 않으며, 또한 R²은 다음과 같은 관계가 성립합니다. 다음 포스팅에서는 최소제곱추정량을 선형 추정량(Linear Estimator)로 표현하는 방법에 대해 다뤄보도록 하겠습니다. 감사합니다. - 간토끼(DataLabbit) |