본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

회귀분석

by 수스리 2025. 5. 6.

1. 변수간의 관계

이 텍스트와 이미지들은 통계학 강의에서 회귀분석에 관한 개념을 설명하고 있습니다. 주요 내용을 상세히 설명해 드리겠습니다:

회귀분석의 기본 개념

회귀분석(regression analysis)은 점들의 평균을 분석하는 통계적 방법입니다. 회귀분석은 독립변수(x)와 종속변수(y) 간의 관계를 수학적 모델로 나타내는데, 분석 대상 변수의 수에 따라 단순회귀분석과 중회귀분석으로 나뉩니다.

상관계수가 1보다 작으면 다른 요인도 있다는 뜻. 키와 몸무게의 상관관계를 찾는 자리에서 키 말고도 몸무게에 영향을 미치는 다른 요소가 많다는 뜻이다. 예를 들어 키의 z 값이 +2 일때 몸무게의 z값은 +2보다는 작을거다. +2 z 값에 몸무게 +2 z 값이 대응하는 직선이 표준편차선인데 키에 +2라고 하는 z값, 표준화된 값에 대응하는 몸무게 z값은 +2 보다 작으니까 기울기가 완만할 수 밖에 없다. 

 

회귀직선과 표준편차선의 차이

  1. 회귀직선(regression line):
    • 평균점(x̄, ȳ)을 지나며
    • x값이 x평균보다 표준편차(SDx) 1단위 증가할 때 y값은 y평균보다 r×SDy만큼 증가함
    • 여기서 r은 상관계수(correlation coefficient)
    • 회귀직선의 기울기는 r×(SDy/SDx)
  2. 표준편차선:
    • 평균점을 지나지만
    • 표준화된 값(z-score)들이 동일한 점들을 연결한 선
    • 두 변수의 관계가 완벽하다면(r=1) 모든 점들이 이 선 위에 위치함
    • 회귀직선보다 기울기가 더 가파름

회귀효과(Regression Effect)

회귀효과는 극단적인 값들이 평균으로 회귀하는 경향을 말합니다:

  • 첫 번째 측정에서 극단적인 값(매우 높거나 낮은)을 보인 대상이 두 번째 측정에서는 덜 극단적인 값을 보이는 현상
  • 이는 측정값에 실력(지속성)과 운(비지속성)의 요소가 모두 포함되기 때문
  • 예: 중간고사에서 상위 16%(z=+1)에 속한 학생은 기말고사에서도 평균보다 잘하겠지만, 정확히 상위 16%에는 미치지 못할 가능성이 높음
  • 다른 예: 신인상(루키 오브 더 이어)을 받은 선수가 2년차에 반드시 다시 1등을 하지는 못함

현실 데이터 예시

이미지 1에 보이는 산포도는 키(x축)와 몸무게(y축)의 관계를 보여줍니다:

  • 상관계수 r=0.67
  • 키가 평균보다 표준편차 1단위 큰 사람은 몸무게가 평균보다 0.67×SDy만큼 더 나감
  • 실선은 회귀직선, 점선은 표준편차선
  • 같은 키를 가진 사람들 사이에도 몸무게 차이가 있어 완벽한 관계가 아님을 보여줌

이미지 2는 회귀직선의 기하학적 의미를 보여줍니다:

  • 평균점에서 시작하여
  • x축으로 SDx만큼, y축으로 r×SDy만큼 이동한 점을 연결한 직선
  • 이 두 점을 연결하면 회귀직선이 형성됨

상관계수 r이 1보다 작을수록(일반적인 경우) 회귀직선의 기울기는 표준편차선보다 완만해집니다. 이는 두 변수 간의 관계가 완벽하지 않기 때문입니다.

 

표준편차선 평균점으로부터 키의 표준편차 단위로 한 단위 더 키 큰 위치에 몸무게의 표준편차 단위로 몸무게가 한단위 평균보다 더 높은 점. 평균점과 키의 표준편차 단위로 키가 더 컸을때, 몸무게도 몸무게의 표준편차 단위로  평균 몸무게보다 하 단위 더 큰 그 두 점을 연결한 직선.

왜 표준편차선이 회귀직선보다 기울기가 완만할까?

 

기울기가 완만한 이유는 상관관계가 1이 아니기 때문이다. 상관관계가 완벽하지 않다는 것은 운이 작용

 

y의 x에 대한 회귀직선은 각각의  x값에 대응하는 y의 평균값을 추정한다. 

x값이 x평균값에서 1표준편차만큼 증가할 때 y값은 y 평균값에서 1 상관계수 만큼 증가한다. 그래서 회귀직선이 표준편차선보다 기울기가 완만해진다.