회귀분석의 핵심 개념 요약
1. 기본 개념
회귀분석은 두 변수 간의 관계를 분석하는 방법입니다. 예를 들어, 중간고사 점수(x)로 기말고사 점수(y)를 예측하는 상황을 생각해 볼 수 있습니다.
2. 회귀선(Regression Line)
- 회귀선은 데이터 포인트들을 가장 잘 대표하는 직선입니다.
- 이 선은 x값이 주어졌을 때 예상되는 y값을 알려줍니다.
- 예: 중간고사 70점이면 기말고사는 약 75점 정도 예상된다.
3. 편차(오차)와 RMSE
- 실제 데이터 포인트들은 이 회귀선에서 조금씩 떨어져 있습니다.
- 이 떨어진 거리를 '편차' 또는 '오차'라고 부릅니다.
- RMSE(Root Mean Square Error)는 이 오차들의 대표적인 크기를 나타냅니다.
- 쉽게 말하면 "평균적으로 예측값과 실제값의 차이가 얼마나 되는지"를 보여줍니다.
4. 표준편차와 RMSE의 관계
- 일반적인 통계에서는 평균에서 얼마나 떨어져 있는지를 표준편차로 측정합니다.
- 회귀분석에서는 회귀선에서 얼마나 떨어져 있는지를 RMSE로 측정합니다.
- RMSE는 항상 표준편차보다 작거나 같습니다.
- 상관관계(r)가 강할수록 RMSE는 더 작아집니다(예측이 더 정확해짐).
5. 예측 구간
- 회귀선은 평균적인 예측값만 알려줍니다.
- 구체적인 예측 구간을 알고 싶다면, RMSE를 이용합니다.
- 예를 들어, 중간고사 80점 학생의 기말고사 점수는:
- 평균 예측값 ± 1×RMSE 범위 안에 68% 확률로 들어갑니다.
- 평균 예측값 ± 2×RMSE 범위 안에 95% 확률로 들어갑니다.
6. 등분산성 가정
- 회귀분석은 모든 x값에 대해 y값들의 퍼진 정도(분산)가 동일하다고 가정합니다.
- 쉽게 말해, 중간고사 점수가 높든 낮든 기말고사 점수의 불확실성은 같다고 봅니다.
비유로 이해하기
강의에서 사용한 기성복과 맞춤복 비유를 좀 더 설명하자면:
- 모든 사람에게 같은 사이즈의 옷(평균값)을 주는 것 = 표준편차 사용
- 개인의 키에 맞춰 옷(회귀선)을 제공하는 것 = RMSE 사용
맞춤복(회귀선)을 사용하면 불편함(오차)이 줄어들죠. 상관관계가 강할수록(키가 체형을 잘 설명할수록) 오차는 더 줄어듭니다.
이 회귀분석을 통해 우리는 과거 데이터를 바탕으로 미래를 예측하거나, 여러 변수 간의 관계를 이해할 수 있습니다. 예를 들어, 인플레이션 예측이나 투자 수익 예측 등 다양한 분야에서 활용됩니다.
회귀분석의 오차와 세로띠에 관한 개념 설명
강의 자료를 토대로 회귀분석의 핵심 개념들을 쉽게 설명해 드리겠습니다.
1. 회귀직선의 오차 (RMSE)
회귀직선은 x변수를 이용해 y변수를 예측하는 최적의 직선입니다. 하지만 이 예측에는 오차가 발생합니다.
- 추정오차(잔차): 실제값과 회귀직선으로 예측한 값의 차이
- RMSE(Root Mean Square Error): 이러한 오차들의 대표적인 크기를 나타내는 값
- RMSE를 계산할 때는 오차를 제곱하고, 평균을 낸 다음, 제곱근을 취합니다
- 자유도(n-2)로 나누는 이유: 회귀직선이 절편과 기울기 두 개의 매개변수로 결정되기 때문
2. 표준편차와 RMSE의 관계
- 일반적인 통계에서는 모든 점이 y의 평균(수평선)으로부터 퍼져 있는 정도를 표준편차로 측정
- 회귀분석에서는 점들이 회귀직선으로부터 퍼져 있는 정도를 RMSE로 측정
- RMSE는 항상 y의 표준편차보다 작거나 같음
- 두 변수 간 상관관계(r)가 강할수록 RMSE는 더 작아짐
- 정확한 관계: RMSE = √(1-r²) × SD_y
3. 잔차도
잔차도는 회귀분석의 적합성을 확인하는 도구입니다:
- 좋은 회귀모형에서는 잔차들이 무작위로 분포하며 특정 패턴을 보이지 않음
- 잔차들의 합과 평균은 항상 0
- 잔차도에서 비선형 패턴이 보이면 직선 회귀모형이 적절하지 않다는 신호
4. 세로띠 개념
세로띠란 특정 x값에 해당하는 y값들의 집합을 의미합니다:
- 각 x값마다 여러 y값이 있을 수 있음 (예: 키가 170cm인 사람들의 몸무게 분포)
- 회귀분석에서는 각 세로띠의 평균이 회귀직선 위에 있다고 가정
- 등분산성: 모든 세로띠에서 y값들의 퍼진 정도(분산)가 동일함
- 이분산성: 세로띠별로 y값들의 퍼진 정도가 다름
5. 세로띠별 분포의 정규분포 근사
회귀분석의 강력한 활용법은 예측 구간을 계산하는 것입니다:
- 각 세로띠 내 y값들이 정규분포를 따른다고 가정
- 특정 x값에 대한 y의 예측값(회귀직선의 값)을 중심으로
- RMSE를 표준편차로 사용해 68-95-99.7% 법칙 적용 가능
- 예측값 ± 1×RMSE 범위에 실제값이 68% 확률로 존재
- 예측값 ± 2×RMSE 범위에 실제값이 95% 확률로 존재
실제 예시 해석
강의 자료의 예시(중간고사와 기말고사 점수)를 보면:
- 전체 학생 중 기말고사 66점 이상은 약 24%
- 중간고사 33점인 학생들 중 기말고사 66점 이상은 약 32%
이렇게 회귀분석을 통해 조건부 확률(특정 x값을 가진 집단에서의 y 분포)을 계산할 수 있습니다.
회귀분석은 이처럼 두 변수 간의 관계를 파악하고, 한 변수를 통해 다른 변수를 예측하는데 유용한 통계적 도구입니다.
'통계학 > 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리' 카테고리의 다른 글
회귀직선 수식적 이해 (1) | 2025.05.14 |
---|---|
회귀직선 (1) | 2025.05.14 |
회귀분석 4 (0) | 2025.05.06 |
회귀분석3 (0) | 2025.05.06 |
회귀분석2 (0) | 2025.05.06 |