본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

총변동의 분해

by 수스리 2025. 5. 19.

산점도 사지을 보자. 각 점은 특정 연도의 통화증가율(x축)과 인플레이션율(y축)을 나타낸다. 파란색 선은 이점들의 전반적인 추세를 보여주는 회귀선이다. 1993녀는 조금 특이하다. 이 해 통화증가ㅠㄹ은 17.54% 였고 인플레이션율은 6.35%. 회귀선보다 위에 있다는 것은 통화증가율만으로 예상되는 것보다 인플레이션이 더 높았다는 의미다. 다시 말해, 다른 요인들도 영향을 미쳤다.

 

총변동의 분해는 왜 중요할까?

이제 통계적으로 왜 1993년 인플레이션이 평균보다 높았는지 에 대한 분석을 해보자.

전체 기간의 평균 인플레이션은 4.5%이다. 1993년은 6.35%로 평균보다 1.85% 높다. 이 차이(1.85%)는 왜 발생할까?

이 차이를 두 부분으로 나눈다. 

1. 통화증가율로 설명되는 부분(R) : 회귀선 a+bx를 통해 예측되는 부분

2. 설명되지 않는 부분(E) : 다른 요인들(정치적 상황, 외부 충격 등)에 의한 부분

수학적으로는 : (yi - ȳ) = [(a + bxi) - ȳ] + [yi - (a + bxi)] 총변동(T) = 회귀에 의한 변동(R) + 오차(E)

 

제곱합(Sum of Squares)과 결정계수

위 식의 양변을 제곱하고 모든 관측치에 대해 합하면 아래 식이 된다.

Σ(yi - ȳ)² = Σ[(a + bxi) - ȳ]² + Σ[yi - (a + bxi)]² SST = SSR + SSE

여기서 :

  • SST(총제곱합) : 모든 데이터가 평균에서 얼마나 떨어져 있는지를 측정
  • SSR(회귀제곱합) : 회귀선이 설명할 수 있는 변동
  • SSE(오차제곱합) : 회귀선이 설명하지 못하는 변동

생활 속 예시)

반 학생들의 시험 점수가 다양하다(SST). 이 차이를 '공부시간'으로 얼마나 설명할 수 있을까요? 공부시간으로 설명되는 부븐이 SSR이고, 그래도 설명되지 않는 부분(재능 컨디션 등)이 SSE 이다.

 

더보기

결정계수(R²)와 설명변수 쉽게 이해하기

결정계수(R²)란?

결정계수는 회귀분석에서 모델의 설명력을 나타내는 값입니다. 쉽게 말해 "내가 만든 모델이 현실을 얼마나 잘 설명하는지"를 0부터 1 사이의 숫자로 보여줍니다.

예를 들어 설명하자면:

  • R² = 0.7 → "통화증가율이 인플레이션 변동의 70%를 설명할 수 있다"
  • R² = 0.3 → "통화증가율이 인플레이션 변동의 30%만 설명하고, 나머지 70%는 다른 요인의 영향이다"

수업에서 다룬 공식으로는:

  • R² = SSR/SST = 1 - SSE/SST
  • 즉, 전체 변동(SST) 중에서 회귀모델로 설명되는 부분(SSR)의 비율을 의미합니다.

설명변수란?

설명변수는 회귀분석에서 다른 변수를 설명하거나 예측하는 데 사용되는 변수입니다. 흔히 독립변수(independent variable)나 예측변수(predictor)라고도 부릅니다.

강의 예시에서:

  • 설명변수(X): 통화증가율 - 이것으로 인플레이션을 설명하려 함
  • 종속변수(Y): 인플레이션율 - 설명하고자 하는 대상

일상적인 예로 설명하면:

  • 공부시간(X)으로 시험점수(Y)를 예측할 때, '공부시간'이 설명변수입니다.
  • 키(X)로 체중(Y)을 예측할 때, '키'가 설명변수입니다.

다중회귀분석과 설명변수

강의에서 언급된 '설명변수를 추가하면 R²가 증가한다'는 내용은 다중회귀분석에 관한 것입니다.

예를 들어:

  1. 처음에는 '통화증가율'만으로 인플레이션을 설명 (단순회귀)
  2. 여기에 '실업률'이라는 설명변수를 추가 (이제 설명변수가 2개)
  3. 다시 '수입물가지수'라는 설명변수를 추가 (이제 설명변수가 3개)

설명변수를 추가할수록 R²는 항상 증가합니다. 심지어 무의미한 변수를 추가해도요! 이런 문제를 해결하기 위해 '조정된 결정계수(Adjusted R²)'를 사용합니다. 이것은 추가된 변수가 실제로 의미 있는 설명력을 갖는지 판단하는 데 도움을 줍니다.

결론적으로, 결정계수는 모델의 설명력을, 설명변수는 다른 변수를 설명하는 데 사용되는 변수를 의미합니다. 이 두 개념은 회귀분석의 핵심이며, 변수 간의 관계를 이해하는 데 중요한 도구입니다.

결정계수(R^2)의 의미

결정계수(R^2) = SSR/SST = 1 - SSE/SST

결정계수는 0과 1 사이의 값을 가지며, 독립변수(통화증가율)과 종속변수(인플레이션)의 변도을 얼마나 잘 설명하는지 나타낸다.

  • R^2 = 0.9라면? -> 통화증가율이 인플레이션 변동의 90%를 설명한다
  • R^2 - 0.3이라면? -> 통화증가율이 인플레이션 변동의 30%만 설명한다

단순회귀분석에서 R^2은 상관계수(r)의 제곱과 같다.

조정된 결정계수(Adjusted R^2)가 필요한 이유

문제점 : 설명변수를 무작정 추가하면 R^2은 항상 증가한다. 이 문제를 해결하기 위해 조정된 결정계수를 사용한다.

R̄² = 1 - [SSE/(n-k-1)] / [SST/(n-1)]

여기서 : 

  • n은 관측치 수
  • k는 설명변수의 수

조정된 결정계수는 변수 추가로 인한 자유도 감소를 반영한다. 이는 마치 "당시니 변수를 하나 더 추가했으니, 그 변수가 정말 도움이 될지 증명해야한다"라고 말하는 것과 같다.

실용적 의미: 조정된 결정계수가 오히려 감소한다면, 추가된 변수는 모델 개선에 도움이 되지 않는다는 신호

자유도(degrees of freedom)의 이해

자유도는 간단히 말해 "자유롭게 값이 변할 수 있는 데이터 포인트의 수" 입니다.

  • SST의 자유도 = n - 1 : 평균을 계산할 때 하나의 자유도를 잃는다.
  • SSE의 자유도 = n-k-1 : 회귀선의 절편(a)과 기울기(b)를 계산하는 고정에서 k+1개의 자유도를 잃는다. 
  •  

이것을 일상적 비유로 설명하면:

당신이 5개의 숫자를 자유롭게 선택할 수 있지만, 그 평균이 10이 되어야 한다면? 실제로는 4개만 자유롭게 선택할 수 있고, 마지막 하나는 평균 조건에 의해 결정됩니다. 따라서 자유도는 5-1=4입니다.

이런 방식으로, 조정된 결정계수는 설명변수가 늘어날수록 모델이 더 "엄격한 시험"을 통과해야 합니다. 변수를 추가할 때마다 자유도가 감소하고, 그 변수가 충분한 설명력을 제공하지 않으면 조정된 결정계수는 오히려 감소할 수 있습니다.

이 강의는 단순히 수식을 배우는 것이 아니라, 경제 현상(통화증가율과 인플레이션의 관계)을 통계적으로 분석하고 해석하는 방법을 보여주는 것입니다.

 

 

모든 사진 출처 : K-MOOC 강의 류근관 교수님의 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

경제통계학 1부 : 그림과 수치를 이용한 자료의 정리