회귀효과와 표준편차선에 대한 설명
이 그림은 중간고사 점수(x축)와 기말고사 점수(y축)의 관계를 보여주며, 회귀효과를 시각적으로 설명하고 있습니다. 그림의 주요 요소와 그 의미를 자세히 설명해 드리겠습니다:
그림의 주요 요소
- 두 개의 직선:
- 회귀직선(기울기가 완만한 직선): 중간고사 점수로 기말고사 점수를 예측하는 직선
- 표준편차선(기울기가 가파른 직선): 표준화된 점수가 동일한 점들을 연결한 직선(등표준화선)
- 세 개의 타원형 영역:
- 중앙 타원: 중간고사에서 평균 점수를 받은 학생들
- 오른쪽 타원: 중간고사에서 평균보다 높은 점수를 받은 학생들
- 왼쪽 타원: 중간고사에서 평균보다 낮은 점수를 받은 학생들
회귀효과의 의미
1. 평균 부근의 학생들
중간고사에서 평균 점수를 받은 학생들은 기말고사에서도 평균적으로 평균 점수를 받습니다. 이 학생들은 중앙 타원에 분포하며, 회귀직선과 표준편차선이 교차하는 평균점 부근에 위치합니다.
2. 평균보다 높은 점수를 받은 학생들 (오른쪽 타원)
- 중간고사에서 높은 점수를 받은 학생들은 평균적으로 기말고사에서도 잘 봅니다.
- 그러나 표준편차선 아래에 더 많은 점들이 분포하는 것을 볼 수 있습니다.
- 이유: 중간고사에서 높은 점수를 받은 학생들 중에는 실력도 좋지만 운이 좋았던 학생들이 포함됨
- 그 운이 기말고사에서도 반복될 확률은 낮기 때문에, 평균적으로 기말고사 점수는 표준편차선이 예측하는 것보다 낮아짐
3. 평균보다 낮은 점수를 받은 학생들 (왼쪽 타원)
- 중간고사에서 낮은 점수를 받은 학생들은 평균적으로 기말고사에서도 낮은 점수를 받습니다.
- 그러나 표준편차선 위에 더 많은 점들이 분포하는 것을 볼 수 있습니다.
- 이유: 중간고사에서 낮은 점수를 받은 학생들 중에는 운이 나빴던 학생들이 포함됨
- 그 불운이 기말고사에서도 반복될 확률은 낮기 때문에, 평균적으로 기말고사 점수는 표준편차선이 예측하는 것보다 높아짐
회귀직선의 특성
- 기울기가 완만한 이유:
- 회귀직선의 기울기 = 상관계수 × (y의 표준편차/x의 표준편차)
- 상관계수가 1보다 작기 때문에(완벽한 상관관계가 아님) 회귀직선은 표준편차선보다 완만해짐
- 통계학적으로 이는 예측의 "보수성" 또는 "겸손함"을 나타냄
- 실용적 의미:
- 극단적인 x값(매우 높거나 낮은)에 대해서는 y값 예측이 평균을 향해 "퇴행(regress)"함
- 이런 현상을 "평균으로의 회귀(regression toward the mean)"라고 함
- 교훈:
- 변수 간 상관관계가 완벽하지 않을 때는 예측에 있어 겸손해야 함
- 중간고사에서 1등했다고 기말고사에서도 반드시 1등할 것이라고 예측하는 것은 과신(overconfidence)임
이 그림과 설명은 통계학에서 매우 중요한 "평균으로의 회귀" 현상을 보여주며, 예측 시 상관관계의 불완전성을 고려해야 한다는 중요한 교훈을 담고 있습니다.
평균으로의 회귀(Regression to the Mean)와 회귀 오류
이 강의는 "평균으로의 회귀"라는 통계적 현상과 이것을 잘못 해석할 때 발생하는 "회귀 오류(Regression Fallacy)"에 대해 설명하고 있습니다. 주요 내용을 정리해 드리겠습니다:
평균으로의 회귀 현상
- 등수 차이의 감소:
- 중간고사에서 1등과 꼴등(170등) 학생의 차이: 169등
- 기말고사에서는 이 차이가 169보다 작아짐
- 이유: 중간고사와 기말고사 사이의 상관관계가 완벽하지 않기 때문
- 실제 사례들:
- 경제 성장: 100년 전 가장 부유했던 나라와 가장 가난했던 나라의 경제 격차가 현재는 줄어듦
- 유전학: 아버지 세대에서 키가 가장 큰 사람과 가장 작은 사람의 차이보다, 그들의 아들 세대에서의 키 차이가 더 작음
- 확률적 설명:
- 실제 실력 + 운(측정 오차)으로 점수가 결정됨
- 만약 측정 오차가 +5점 또는 -5점이라면:
- 140점을 받은 학생은 실제 실력이 135점이고 운이 좋았거나, 145점이고 운이 나빴을 것
- 분포상 135점인 사람의 밀도가 더 높으므로, 전자일 가능성이 더 큼
- 따라서 이 학생이 다시 시험을 보면 평균적으로 140점보다 낮은 점수를 받을 것
회귀 오류(Regression Fallacy)
- 잘못된 해석:
- 평균으로의 회귀를 근본적인 힘이나 경향으로 오해하는 것
- 예: "시간이 지나면 모든 국가의 소득이 같아질 것이다" 같은 주장
- 예: "세대가 지날수록 모든 사람의 키가 같아질 것이다"
- 오류의 본질:
- 현재 극단적인 위치에 있는 대상이 평균을 향해 이동하는 것은 사실
- 그러나 이는 불확실성의 결과일 뿐, 모든 것이 궁극적으로 동일해진다는 의미가 아님
- "100년 전 꼴등과 지금의 꼴등이 같은 국가가 아니다"
상호 회귀 직선의 비교
- y의 x에 대한 회귀직선:
- x를 알고 y를 예측할 때 사용
- 회귀직선이 x축 방향으로 누워있음 (완만함)
- x의 y에 대한 회귀직선:
- y를 알고 x를 예측할 때 사용
- 회귀직선이 y축 방향으로 누워있음
- 본질:
- 두 직선은 모두 "겸손함"을 반영
- 예측하는 변수의 방향으로 차이가 줄어드는 형태를 보임
이 강의는 통계적 현상을 올바르게 해석하는 것의 중요성을 강조하며, 특히 상관관계와 불확실성의 본질을 이해하는 것이 핵심임을 보여줍니다.
'통계학 > 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리' 카테고리의 다른 글
회귀직선 (1) | 2025.05.14 |
---|---|
회귀분석의 핵심 개념 요약 (0) | 2025.05.07 |
회귀분석3 (0) | 2025.05.06 |
회귀분석2 (0) | 2025.05.06 |
회귀분석 (0) | 2025.05.06 |