정규분포와 두 변수 간의 관계
1. 단일 변수와 정규분포
강의 초반부에서는 단일 변수가 정규분포를 따를 때 적용할 수 있는 원리를 언급하고 있습니다. 정규분포의 68-95-99.7 법칙을 통해 z값(표준화된 점수)과 백분위(상대적 등수) 간의 관계를 파악할 수 있다고 설명합니다.
2. 두 변수 간의 관계와 회귀직선
- 두 변수가 있을 때는 하나의 변수로부터 다른 변수의 값을 예측할 수 있음
- 회귀직선은 평균점을 지나며, 기울기는 상관계수와 관련됨
- 구체적으로: x의 표준편차가 1단위 증가할 때, y는 y의 표준편차의 상관계수(r)배만큼 증가함
3. 상관계수의 의미와 영향
- 상관계수는 두 변수 간 관계의 강도를 나타냄
- 예시: 중간고사에서 상위 16%(z=+1)인 학생이 기말고사에서는?
- 상관계수가 0.8이면 기말고사 z값은 0.8이 됨
- 이는 상위 16%보다 낮은 순위를 의미함
- 완벽한 상관관계(r=1)가 아니기 때문에 등수가 떨어짐
4. 극단적 사례: 무관한 변수들
- 중간고사가 실제 능력과 무관하게 출제되었다면(운에 의해 결정)
- 상관계수는 0에 가까워짐
- 회귀직선은 수평선이 됨
- 중간고사 성적으로 기말고사 성적을 전혀 예측할 수 없음
- 이 경우 분류지표(x)는 관심변수(y)를 예측하는데 "무용지물"이 됨
5. 과학적 사고의 본질
- 과학은 유용한 분류지표를 찾는 것이 본질
- 복잡한 현상을 어떻게 분류하면 관심변수를 잘 예측할 수 있는지 탐구
- 단순하면서도 예측력이 있는 분류체계를 찾는 것이 과학자의 역할
6. 일상에서의 분류 예시
- 사과 파는 할머니가 품질에 따라 상/중/하로 분류하는 경우
- 이는 유용한 분류체계
- 소비자가 품질(y)을 예측하는데 도움이 됨
- 반면 무작위로 분류했다면
- 분류가 품질 예측에 도움이 되지 않음
- 이는 무용한 분류체계가 됨
이 강의는 통계학적 개념을 넘어 과학적 사고의 본질에 대해 이야기하고 있습니다. 복잡한 현상을 이해하기 위해 적절한 단순화와 분류가 필요하며, 이 과정에서 현상의 본질을 훼손하지 않으면서도 예측력 있는 모델을 만드는 것이 중요함을 강조하고 있습니다.
'통계학 > 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리' 카테고리의 다른 글
회귀분석의 핵심 개념 요약 (0) | 2025.05.07 |
---|---|
회귀분석 4 (0) | 2025.05.06 |
회귀분석2 (0) | 2025.05.06 |
회귀분석 (0) | 2025.05.06 |
일반 선형 회귀모델과 로그 변환 모델의 차이 (0) | 2025.05.05 |