본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

회귀직선

by 수스리 2025. 5. 14.

1. 회귀분석과 최소자승법

1. 회귀분석 쉽게 이해하기

회귀직선은 두 변수 간의 관계를직선으로 표현한  것이다. 이 직선은 두 가지  요소로 결정된다.

절편 : 직선이 y축과 만나는지점

기울기 : 직선의 경사도

 

기울기의 의미

기울기는 x가 변할 때 y가 얼마나 변하는가를 보여주는데, 데이터를 어떻게 처리했느냐에 따라 세 가지 다른 해석이 가능합니다.

 

1. 원래 변수 그대로 사용할때

  • 의미 : x가 1단위 증가하면 y는 기울기만큼 증가
  • 예 : 교육 1년이 증가하면 월급이 12만원 증가

2. x와 y 로그 변환 했을 때

  • 의미 : 탄력성을 나타낸다.
  • x가 1% 변하면 y는 기울기% 변한다.
  • 예 : 근무시간이 1% 증가하면 생산량이 0.8% 증가

3. y만 로그변환 했을 때

  • 의미 : x가 1단위 변할 때 y의 퍼센트 변화율
  • 예 : 나폴레옹 군대가 1km 더  진격할때마다 생존자 수가 몇%씩 감소했는지를 보여준다
  • 이 경우 계수에 100을 곱해야 퍼센트로 해석 가능하다.

2. 최소승자법

🔍 최소승자법이란?

최소승자법은 "점들에 가장 가까운 직선을 찾는 방법"이다. 쉽게 말해, 모든 데이터 점에서 직선까지 거리를 최대한 줄이는 직선을 찾는거다.

📊 어떻게 작동하는가?

1. 데이터 점들 : 평면에 n개의 점들이 흩어져 있다. (x1, y1), (x2, y2)...

2. 직선의 식 : y = a + bx (a는 절편, b는 기울기)

3. 거리 측정 : 각 점에서 직선까지의 수직 거리는 |yᵢ - (a + bxᵢ)| 입니다.

4. 거리 합치기 : 단순히 더하면 (+)와 (-) 가 상쇄되므로, 거리를 제곱한다.

5. 최소화 : 모든 제곱 거리의 Σ(yᵢ - (a + bxᵢ))²을 최소화하는 a와 b를 찾는다

🧮 수학적 결과

계산을 하면 다음과 같은 결과가 나옵니다:

  1. 절편 (a): y̅ - bx̅
    • 이는 회귀선이 반드시 평균점 (x̅, y̅)을 지난다는 의미입니다
    • 평균점은 모든 x값의 평균과 모든 y값의 평균으로 이루어진 점입니다
  2. 기울기 (b): r × (SDy/SDx)
    • r: 상관계수
    • SDy: y의 표준편차
    • SDx: x의 표준편차
    • 기울기는 상관계수에 단위 조정을 한 것입니다

💡 중요한 의미

평균점을 지나는 이유

최소승자법으로 직선을 구하면, 그 직선은 항상 평균점 (x̅, y̅)을 지납니다. 이는 우연이 아니라 수학적으로 필연적인 결과입니다. 모든 점에 가장 가까운 직선을 찾다 보니 자연스럽게 평균점을 지나게 된다.

기울기와 상관계수의 관계

기울기는 사실상 상관계수와 같은 의미를가지지만 단위가 다르다.

  • 상관계수(r) : 단위가 없는 순수한 숫자(-1에서 1 사이)
  • 기울기 (b) : 'y단위/x단위'라는 단위를 가진다.

따라서 기울기 = 상관계수 * (y의 표준편차/x의 표준편차)가 됩니다.

 

기울기의 역할

기울기는 일종의 '변환기(컨버터)' 역할을 합니다. x 단위의 변화를 y 단위의 변화로 바꿔주는 것이죠. 예를 들어:

  • 교육 1년(x 단위)이 소득 12만원(y 단위)으로 변환
  • 따라서 기울기의 단위는 "y단위/x단위"(예: 원/년)

회귀분석은 만병 통치약이 아니다.

여러 변수들 관계는 제 3의 요인들에 영향을 받는다. 넓이와 둘레길이간 상관계수=0.98. 이는 넓이와 높이라는 제3의 요인들에 영향을 준다. 이런식으로 회귀분석 하는것은 잘못됐다. 그렇다면 제 3의 요인들을 통제 할 수 있다면? 이런 회귀분석을 중회귀분석이라고 한다.

 

중회귀분석: 제3의 변수 통제하기

💡 중회귀분석이란?

중회귀분석은 여러 변수를 동시에 고려하여 종속변수와의 관계를 파악하는 방법입니다. 쉽게 말해, "다른 요인들의 영향을 통제하면서 특정 변수의 진짜 효과를 파악하는 방법"입니다.

🔎 왜 필요한가?

실생활에서는 단순한 x와 y의 관계 외에 숨겨진 제3의 변수가 개입하여 결과를 왜곡시키는 경우가 많습니다. 이를 **심슨의 역설(Simpson's Paradox)**이라고 합니다.

📊 강의에서 설명한 사례들

1️⃣ 아파트 가격 사례

단순 분석: 오래된 아파트가 더 비싸게 나타남 실제 상황:

  • 오래된 아파트 → 대단지에 위치함 → 편의시설 좋음 → 가격 높음
  • 즉, 오래될수록 가격이 낮아지는 효과가 있지만, 단지 규모 효과에 가려짐

중회귀분석 결과:

  • 단지 규모 효과: (+) 긍정적
  • 나이 효과: (-) 부정적 (원래 예상했던 대로)

2️⃣ 흡연과 건강 사례

단순 분석: "계속 흡연하는 사람"이 "흡연 후 끊은 사람"보다 더 건강함 실제 상황:

  • 건강 문제 발생 → 의사 권고로 담배 끊음 (이미 건강이 나쁜 상태)
  • 건강 문제 없음 → 계속 흡연 (현재까지는 건강한 상태)
  • 즉, 건강 상태가 흡연 행동에 영향을 미치는 역인과 관계가 존재

올바른 접근법:

  • 나이, 기저질환, 생활습관 등 다른 건강 요인들을 통제한 중회귀분석

3️⃣ 학급 규모와 학업 성적 사례

단순 분석: 학급 규모가 클수록 성적이 더 좋음 (상식과 반대) 실제 상황:

  • 공부에 관심 많은 학생/학부모 → 특정 지역(강남)으로 이동 → 해당 지역 학급 규모 증가
  • 즉, 학생의 능력이나 부모의 관심도가 학급 규모와 성적 모두에 영향을 미침

올바른 접근법:

  • 부모 소득, 학력, 지역 특성 등을 통제한 중회귀분석

🧮 중회귀분석 수식

단순회귀: y = a + bx + ε 중회귀: y = a + b₁x₁ + b₂x₂ + ... + bₙxₙ + ε

여기서:

  • y: 종속변수 (예: 아파트 가격, 건강 상태, 학업 성적)
  • x₁, x₂, ..., xₙ: 여러 독립변수들
  • b₁, b₂, ..., bₙ: 각 독립변수의 계수(영향력)
  • ε: 오차항

🌟 실험 vs 관측 데이터

실험 데이터:

  • 연구자가 직접 변수를 통제/조작
  • 무작위 배정으로 집단 간 다른 특성 제거
  • 인과관계 파악 용이
  • 예: 무작위로 두 집단 나누어 한 집단에만 흡연하게 함 (현실적으로 불가능)

관측 데이터:

  • 실제 발생한 자연스러운 데이터
  • 제3의 변수 영향, 역인과관계 문제 존재
  • 선택편향(self-selection) 발생 가능
  • 중회귀분석으로 다른 변수 통제 필요