본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

회귀분석 4

by 수스리 2025. 5. 6.

회귀효과와 표준편차선에 대한 설명

이 그림은 중간고사 점수(x축)와 기말고사 점수(y축)의 관계를 보여주며, 회귀효과를 시각적으로 설명하고 있습니다. 그림의 주요 요소와 그 의미를 자세히 설명해 드리겠습니다:

그림의 주요 요소

  1. 두 개의 직선:
    • 회귀직선(기울기가 완만한 직선): 중간고사 점수로 기말고사 점수를 예측하는 직선
    • 표준편차선(기울기가 가파른 직선): 표준화된 점수가 동일한 점들을 연결한 직선(등표준화선)
  2. 세 개의 타원형 영역:
    • 중앙 타원: 중간고사에서 평균 점수를 받은 학생들
    • 오른쪽 타원: 중간고사에서 평균보다 높은 점수를 받은 학생들
    • 왼쪽 타원: 중간고사에서 평균보다 낮은 점수를 받은 학생들

회귀효과의 의미

1. 평균 부근의 학생들

중간고사에서 평균 점수를 받은 학생들은 기말고사에서도 평균적으로 평균 점수를 받습니다. 이 학생들은 중앙 타원에 분포하며, 회귀직선과 표준편차선이 교차하는 평균점 부근에 위치합니다.

2. 평균보다 높은 점수를 받은 학생들 (오른쪽 타원)

  • 중간고사에서 높은 점수를 받은 학생들은 평균적으로 기말고사에서도 잘 봅니다.
  • 그러나 표준편차선 아래에 더 많은 점들이 분포하는 것을 볼 수 있습니다.
  • 이유: 중간고사에서 높은 점수를 받은 학생들 중에는 실력도 좋지만 운이 좋았던 학생들이 포함됨
  • 그 운이 기말고사에서도 반복될 확률은 낮기 때문에, 평균적으로 기말고사 점수는 표준편차선이 예측하는 것보다 낮아짐

3. 평균보다 낮은 점수를 받은 학생들 (왼쪽 타원)

  • 중간고사에서 낮은 점수를 받은 학생들은 평균적으로 기말고사에서도 낮은 점수를 받습니다.
  • 그러나 표준편차선 위에 더 많은 점들이 분포하는 것을 볼 수 있습니다.
  • 이유: 중간고사에서 낮은 점수를 받은 학생들 중에는 운이 나빴던 학생들이 포함됨
  • 그 불운이 기말고사에서도 반복될 확률은 낮기 때문에, 평균적으로 기말고사 점수는 표준편차선이 예측하는 것보다 높아짐

회귀직선의 특성

  1. 기울기가 완만한 이유:
    • 회귀직선의 기울기 = 상관계수 × (y의 표준편차/x의 표준편차)
    • 상관계수가 1보다 작기 때문에(완벽한 상관관계가 아님) 회귀직선은 표준편차선보다 완만해짐
    • 통계학적으로 이는 예측의 "보수성" 또는 "겸손함"을 나타냄
  2. 실용적 의미:
    • 극단적인 x값(매우 높거나 낮은)에 대해서는 y값 예측이 평균을 향해 "퇴행(regress)"함
    • 이런 현상을 "평균으로의 회귀(regression toward the mean)"라고 함
  3. 교훈:
    • 변수 간 상관관계가 완벽하지 않을 때는 예측에 있어 겸손해야 함
    • 중간고사에서 1등했다고 기말고사에서도 반드시 1등할 것이라고 예측하는 것은 과신(overconfidence)임

이 그림과 설명은 통계학에서 매우 중요한 "평균으로의 회귀" 현상을 보여주며, 예측 시 상관관계의 불완전성을 고려해야 한다는 중요한 교훈을 담고 있습니다.

 

평균으로의 회귀(Regression to the Mean)와 회귀 오류

이 강의는 "평균으로의 회귀"라는 통계적 현상과 이것을 잘못 해석할 때 발생하는 "회귀 오류(Regression Fallacy)"에 대해 설명하고 있습니다. 주요 내용을 정리해 드리겠습니다:

평균으로의 회귀 현상

  1. 등수 차이의 감소:
    • 중간고사에서 1등과 꼴등(170등) 학생의 차이: 169등
    • 기말고사에서는 이 차이가 169보다 작아짐
    • 이유: 중간고사와 기말고사 사이의 상관관계가 완벽하지 않기 때문
  2. 실제 사례들:
    • 경제 성장: 100년 전 가장 부유했던 나라와 가장 가난했던 나라의 경제 격차가 현재는 줄어듦
    • 유전학: 아버지 세대에서 키가 가장 큰 사람과 가장 작은 사람의 차이보다, 그들의 아들 세대에서의 키 차이가 더 작음
  3. 확률적 설명:
    • 실제 실력 + 운(측정 오차)으로 점수가 결정됨
    • 만약 측정 오차가 +5점 또는 -5점이라면:
      • 140점을 받은 학생은 실제 실력이 135점이고 운이 좋았거나, 145점이고 운이 나빴을 것
      • 분포상 135점인 사람의 밀도가 더 높으므로, 전자일 가능성이 더 큼
      • 따라서 이 학생이 다시 시험을 보면 평균적으로 140점보다 낮은 점수를 받을 것

회귀 오류(Regression Fallacy)

  1. 잘못된 해석:
    • 평균으로의 회귀를 근본적인 힘이나 경향으로 오해하는 것
    • 예: "시간이 지나면 모든 국가의 소득이 같아질 것이다" 같은 주장
    • 예: "세대가 지날수록 모든 사람의 키가 같아질 것이다"
  2. 오류의 본질:
    • 현재 극단적인 위치에 있는 대상이 평균을 향해 이동하는 것은 사실
    • 그러나 이는 불확실성의 결과일 뿐, 모든 것이 궁극적으로 동일해진다는 의미가 아님
    • "100년 전 꼴등과 지금의 꼴등이 같은 국가가 아니다"

상호 회귀 직선의 비교

  1. y의 x에 대한 회귀직선:
    • x를 알고 y를 예측할 때 사용
    • 회귀직선이 x축 방향으로 누워있음 (완만함)
  2. x의 y에 대한 회귀직선:
    • y를 알고 x를 예측할 때 사용
    • 회귀직선이 y축 방향으로 누워있음
  3. 본질:
    • 두 직선은 모두 "겸손함"을 반영
    • 예측하는 변수의 방향으로 차이가 줄어드는 형태를 보임

이 강의는 통계적 현상을 올바르게 해석하는 것의 중요성을 강조하며, 특히 상관관계와 불확실성의 본질을 이해하는 것이 핵심임을 보여줍니다.

'통계학 > 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리' 카테고리의 다른 글

회귀직선  (1) 2025.05.14
회귀분석의 핵심 개념 요약  (0) 2025.05.07
회귀분석3  (0) 2025.05.06
회귀분석2  (0) 2025.05.06
회귀분석  (0) 2025.05.06