본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

회귀분석3

by 수스리 2025. 5. 6.

정규분포와 두 변수 간의 관계

1. 단일 변수와 정규분포

강의 초반부에서는 단일 변수가 정규분포를 따를 때 적용할 수 있는 원리를 언급하고 있습니다. 정규분포의 68-95-99.7 법칙을 통해 z값(표준화된 점수)과 백분위(상대적 등수) 간의 관계를 파악할 수 있다고 설명합니다.

2. 두 변수 간의 관계와 회귀직선

  • 두 변수가 있을 때는 하나의 변수로부터 다른 변수의 값을 예측할 수 있음
  • 회귀직선은 평균점을 지나며, 기울기는 상관계수와 관련됨
  • 구체적으로: x의 표준편차가 1단위 증가할 때, y는 y의 표준편차의 상관계수(r)배만큼 증가함

3. 상관계수의 의미와 영향

  • 상관계수는 두 변수 간 관계의 강도를 나타냄
  • 예시: 중간고사에서 상위 16%(z=+1)인 학생이 기말고사에서는?
    • 상관계수가 0.8이면 기말고사 z값은 0.8이 됨
    • 이는 상위 16%보다 낮은 순위를 의미함
    • 완벽한 상관관계(r=1)가 아니기 때문에 등수가 떨어짐

4. 극단적 사례: 무관한 변수들

  • 중간고사가 실제 능력과 무관하게 출제되었다면(운에 의해 결정)
  • 상관계수는 0에 가까워짐
  • 회귀직선은 수평선이 됨
  • 중간고사 성적으로 기말고사 성적을 전혀 예측할 수 없음
  • 이 경우 분류지표(x)는 관심변수(y)를 예측하는데 "무용지물"이 됨

5. 과학적 사고의 본질

  • 과학은 유용한 분류지표를 찾는 것이 본질
  • 복잡한 현상을 어떻게 분류하면 관심변수를 잘 예측할 수 있는지 탐구
  • 단순하면서도 예측력이 있는 분류체계를 찾는 것이 과학자의 역할

6. 일상에서의 분류 예시

  • 사과 파는 할머니가 품질에 따라 상/중/하로 분류하는 경우
    • 이는 유용한 분류체계
    • 소비자가 품질(y)을 예측하는데 도움이 됨
  • 반면 무작위로 분류했다면
    • 분류가 품질 예측에 도움이 되지 않음
    • 이는 무용한 분류체계가 됨

이 강의는 통계학적 개념을 넘어 과학적 사고의 본질에 대해 이야기하고 있습니다. 복잡한 현상을 이해하기 위해 적절한 단순화와 분류가 필요하며, 이 과정에서 현상의 본질을 훼손하지 않으면서도 예측력 있는 모델을 만드는 것이 중요함을 강조하고 있습니다.