본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

회귀분석의 핵심 개념 요약

by 수스리 2025. 5. 7.

회귀분석의 핵심 개념 요약

1. 기본 개념

회귀분석은 두 변수 간의 관계를 분석하는 방법입니다. 예를 들어, 중간고사 점수(x)로 기말고사 점수(y)를 예측하는 상황을 생각해 볼 수 있습니다.

2. 회귀선(Regression Line)

  • 회귀선은 데이터 포인트들을 가장 잘 대표하는 직선입니다.
  • 이 선은 x값이 주어졌을 때 예상되는 y값을 알려줍니다.
  • 예: 중간고사 70점이면 기말고사는 약 75점 정도 예상된다.

3. 편차(오차)와 RMSE

  • 실제 데이터 포인트들은 이 회귀선에서 조금씩 떨어져 있습니다.
  • 이 떨어진 거리를 '편차' 또는 '오차'라고 부릅니다.
  • RMSE(Root Mean Square Error)는 이 오차들의 대표적인 크기를 나타냅니다.
  • 쉽게 말하면 "평균적으로 예측값과 실제값의 차이가 얼마나 되는지"를 보여줍니다.

4. 표준편차와 RMSE의 관계

  • 일반적인 통계에서는 평균에서 얼마나 떨어져 있는지를 표준편차로 측정합니다.
  • 회귀분석에서는 회귀선에서 얼마나 떨어져 있는지를 RMSE로 측정합니다.
  • RMSE는 항상 표준편차보다 작거나 같습니다.
  • 상관관계(r)가 강할수록 RMSE는 더 작아집니다(예측이 더 정확해짐).

5. 예측 구간

  • 회귀선은 평균적인 예측값만 알려줍니다.
  • 구체적인 예측 구간을 알고 싶다면, RMSE를 이용합니다.
  • 예를 들어, 중간고사 80점 학생의 기말고사 점수는:
    • 평균 예측값 ± 1×RMSE 범위 안에 68% 확률로 들어갑니다.
    • 평균 예측값 ± 2×RMSE 범위 안에 95% 확률로 들어갑니다.

6. 등분산성 가정

  • 회귀분석은 모든 x값에 대해 y값들의 퍼진 정도(분산)가 동일하다고 가정합니다.
  • 쉽게 말해, 중간고사 점수가 높든 낮든 기말고사 점수의 불확실성은 같다고 봅니다.

비유로 이해하기

강의에서 사용한 기성복과 맞춤복 비유를 좀 더 설명하자면:

  • 모든 사람에게 같은 사이즈의 옷(평균값)을 주는 것 = 표준편차 사용
  • 개인의 키에 맞춰 옷(회귀선)을 제공하는 것 = RMSE 사용

맞춤복(회귀선)을 사용하면 불편함(오차)이 줄어들죠. 상관관계가 강할수록(키가 체형을 잘 설명할수록) 오차는 더 줄어듭니다.

이 회귀분석을 통해 우리는 과거 데이터를 바탕으로 미래를 예측하거나, 여러 변수 간의 관계를 이해할 수 있습니다. 예를 들어, 인플레이션 예측이나 투자 수익 예측 등 다양한 분야에서 활용됩니다.

 

 

회귀분석의 오차와 세로띠에 관한 개념 설명

강의 자료를 토대로 회귀분석의 핵심 개념들을 쉽게 설명해 드리겠습니다.

1. 회귀직선의 오차 (RMSE)

회귀직선은 x변수를 이용해 y변수를 예측하는 최적의 직선입니다. 하지만 이 예측에는 오차가 발생합니다.

  • 추정오차(잔차): 실제값과 회귀직선으로 예측한 값의 차이
  • RMSE(Root Mean Square Error): 이러한 오차들의 대표적인 크기를 나타내는 값
  • RMSE를 계산할 때는 오차를 제곱하고, 평균을 낸 다음, 제곱근을 취합니다
  • 자유도(n-2)로 나누는 이유: 회귀직선이 절편과 기울기 두 개의 매개변수로 결정되기 때문

2. 표준편차와 RMSE의 관계

  • 일반적인 통계에서는 모든 점이 y의 평균(수평선)으로부터 퍼져 있는 정도를 표준편차로 측정
  • 회귀분석에서는 점들이 회귀직선으로부터 퍼져 있는 정도를 RMSE로 측정
  • RMSE는 항상 y의 표준편차보다 작거나 같음
  • 두 변수 간 상관관계(r)가 강할수록 RMSE는 더 작아짐
  • 정확한 관계: RMSE = √(1-r²) × SD_y

3. 잔차도

잔차도는 회귀분석의 적합성을 확인하는 도구입니다:

  • 좋은 회귀모형에서는 잔차들이 무작위로 분포하며 특정 패턴을 보이지 않음
  • 잔차들의 합과 평균은 항상 0
  • 잔차도에서 비선형 패턴이 보이면 직선 회귀모형이 적절하지 않다는 신호

4. 세로띠 개념

세로띠란 특정 x값에 해당하는 y값들의 집합을 의미합니다:

  • 각 x값마다 여러 y값이 있을 수 있음 (예: 키가 170cm인 사람들의 몸무게 분포)
  • 회귀분석에서는 각 세로띠의 평균이 회귀직선 위에 있다고 가정
  • 등분산성: 모든 세로띠에서 y값들의 퍼진 정도(분산)가 동일함
  • 이분산성: 세로띠별로 y값들의 퍼진 정도가 다름

5. 세로띠별 분포의 정규분포 근사

회귀분석의 강력한 활용법은 예측 구간을 계산하는 것입니다:

  • 각 세로띠 내 y값들이 정규분포를 따른다고 가정
  • 특정 x값에 대한 y의 예측값(회귀직선의 값)을 중심으로
  • RMSE를 표준편차로 사용해 68-95-99.7% 법칙 적용 가능
  • 예측값 ± 1×RMSE 범위에 실제값이 68% 확률로 존재
  • 예측값 ± 2×RMSE 범위에 실제값이 95% 확률로 존재

실제 예시 해석

강의 자료의 예시(중간고사와 기말고사 점수)를 보면:

  1. 전체 학생 중 기말고사 66점 이상은 약 24%
  2. 중간고사 33점인 학생들 중 기말고사 66점 이상은 약 32%

이렇게 회귀분석을 통해 조건부 확률(특정 x값을 가진 집단에서의 y 분포)을 계산할 수 있습니다.

회귀분석은 이처럼 두 변수 간의 관계를 파악하고, 한 변수를 통해 다른 변수를 예측하는데 유용한 통계적 도구입니다.

'통계학 > 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리' 카테고리의 다른 글

회귀직선 수식적 이해  (1) 2025.05.14
회귀직선  (1) 2025.05.14
회귀분석 4  (0) 2025.05.06
회귀분석3  (0) 2025.05.06
회귀분석2  (0) 2025.05.06