본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

상관관계

by 수스리 2025. 5. 1.

1. 산포도와 상관관계

여태 한 번에 변수 하나만 다루는 방법을 살펴봤다. 이제부터 변수 두 개의 상호관계를 분석하기 윈한 방법을 찾아본다. 남녀간의 관계처럼 많은 경우 둘간의 관계가 중요하다. 교육과 임금, 통화증가율과 물가 상승률, 학급 규모와 학교성적등.

여기서는 교육과 임금 수준의 관계를 생각해보자.

X축이 교육수준이고 Y축이 임금인 그래프가 있다고 치자. 전국민 무작위로 100명을 뽑아서 교육수준과 임금의 관계를 파악한다. 해당하는 구역에 점을 찍는다. 레고 회사의 지원을 받아 같은 점에 찍힌 구역은 레고로 쌓는다. 어떤 구역은 높고 다른 구역은 낮을 것이다. 우리는 이런 점을 공부한다. 이런 모양들을 정리해주는 보조적인 수치들이 필요하다. 앞으로 이런 수치들을 얻는 작업들을 하고  개 중 가장 기본이 상관계수이다.

상관계수에서 살펴볼 점은 두가지다.

  • 관계의 방향 
    • 두 변수가 같은 방향으로 움직이는지(양의 상관관계) 아니면 반대 방향으로 움직이는지(음의 상관관계)
    • 예를 들어, 교육 수준이 높아질수록 임금도 높아진다면 양의 상관관계다
    • 반대로 학급 규모가 커질수록 학생 성적이 낮아진다면 음의 상관관계다.
  • 관계의 강도:
    • 두 변수 간 관계가 얼마나 강한지를 나타낸다.
    • 상관계수는 -1부터 1 사이의 값을 가지며, 절대값이 1에 가까울수록 강한 관계를 의미합니다.
    • 1에 가까우면 강한 양의 상관관계, -1에 가까우면 강한 음의 상관관계, 0에 가까우면 상관관계가 약하거나 없다는 의미다.

중요: 상관관계 ≠ 인과관계

두 변수 간에 상관관계가 있다고 해서 반드시 하나가 다른 하나의 원인이 되는 것은 아니다.에

 

예시) 중간고사 성적과 기말고사 성적의 상관관계

 

중간고사와 기말고사 관계가 약할때

중간고사와 기말고사의 관계가 약할 때, 사진 = 류근관 (통계학 2013)

변수 사이의 관계가 약하면 한 변수 값이 다른 변수 값을 예측하는데 큰 도움이 안된다.

반면 변수 사이 관계가 강하면 한 변수 값이 다른 변수 값을 예측하는 데 크게 도움이 된다. 

  1. 산포도의 요약 특성 
    • 가로(x축) 방향으로 보면, 데이터의 약 95%가 x의 평균점을 기준으로 ±2SD₍ₓ₎ (x의 표준편차의 2배) 이내에 위치한다.
    • 세로(y축) 방향으로 보면, 데이터의 약 95%가 y의 평균점을 기준으로 ±2SD₍ᵧ₎ (y의 표준편차의 2배) 이내에 위치한다.
    • x의 평균과 표준편차, y의 평균과 표준편차는 x와 y의 분포를 각각 독립적으로 요약된다.
  2. 그림에서 보여주는 세 가지 관점:
    • (a) 평균점: 산포도의 중심점(x와 y의 평균이 만나는 지점)을 보여준다.
    • (b) 수평 표준편차: x축 방향으로의 데이터 퍼짐 정도를 보여줬다. 대부분의 데이터는 x의 평균에서 ±2SD₍ₓ₎ 이내에 있다.
    • (c) 수직 표준편차: y축 방향으로의 데이터 퍼짐 정도를 보여줬다. 대부분의 데이터는 y의 평균에서 ±2SD₍ᵧ₎ 이내에 있다.
  3. 타원형 모양의 의미:
    • 그림에서 타원형은 데이터 포인트들의 분포를 나타냈다.
    • 이 타원의 중심은 (x의 평균, y의 평균)이며, 타원의 폭과 높이는 각각 x와 y의 표준편차에 의해 결정됐다.
    • 타원의 경사나 방향은 두 변수 간의 상관관계를 나타냈다. 타원이 오른쪽 위나 오른쪽 아래로 기울어져 있으면 상관관계가 있음을 의미했다.

간단히 말해, 이 그림은 두 변수의 관계를 나타내는 산포도에서 데이터의 중심 위치(평균)와 퍼짐 정도(표준편차)를 이해하는 방법을 보여줬다. 이런 개념은 데이터의 분포 특성을 파악하고 두 변수 간의 관계를 분석하는 데 중요하다.

1. 상관계수 구하기, 상관계수의 특징

상관계수는 두 변수간 선형관계방향강도를 측정한다. 볼드체를 했든 중요한 점은 3가지다. 선형관계, 방향, 강도

선형관계

  • 상관관계는 선형관계만 잴 수 있다. 관계가 선형관계가 아니면 제한이 생긴다.

방향

  • 상관계수가 양수이면 한 변수가 증가할 때 다른 변수도 선형관계를 따라 증가하는 경향이 있다. 마이너스면 반대의 관계가 있다.

강도

  • 상관계수는 절대값이 1과 0사이 수를 갖는다. 1로 갈수록 선형관계가 강하고 0으로 갈 수록 약하다.

상관계수의 범위는 1부터 -1까지다. 상관계수가 -1 혹은 1이면 완전상관이라고 한다. 양의 상관관계면 점의 분포가 우상향, 음의 상관관계이면 점의 분포가 우하향이다. 두 변수의 표준편차가 모두 0이면 상관계수를 정의할 수 없다. 두 변수 중 어느 한 변수만의 표준편차가 0이면 상관계수는 0이다.

 

상관계수의 특징

1. 상광계수는 단위가 없다. 측정단위와 독립적으로 정의된다. 

  • 하나의 변수가 취하는  모든 값에 상수르 더하거나 빼는 변환을 해도 상관계수는 변하지 않는다.
  • 하나의 변수가 취하는 모든 값에 양의 상수를 곱하거나 양의 상수로 나누는 변환을 해도 상관계수는 변하지 않는다.

2. 상관계수는 방향성을 갖지 않는다. 즉 x와 y의 상관계수는 y와 x의 상관게수와 같다.

 

상관계수의 해석

상관계수의 의미

  • 상관계수 = 0.8은 산포도 상에서 80%의 점들이 하나의 선 주위에 빽빽하게 밀집해 있다는 것을 의미하지 않는다.
  • 상관계수 = 0.8은 상관계수가 0.4일 때보다 선형관게의 강도가 강하지만 두배로 강하다는 의미도 아니다.

 

상관계수가 유용하지 않은 경우

1. 이탈값이 존재하는 경우

2. 두 변수가 관계가 비선형일 경우

비선형 관계에서는 선형관계가 0이 아니라 '존재하지 않는다'가 정답이다. 상관계수는 선형관계만 보기 때문이다.