본문 바로가기
통계학/경제통계학 1부 : 그림과 수치를 이용한 자료의 정리

표준편차와 자유도

by 수스리 2025. 4. 30.

1. 표준편차와 자유도의 직관적인 의미

제곱근-평균-제곱(Root Mean Square)

계산은 표현의 역순이다. (제곱후 평균 최종적으로 제곱근을 한다.)

(1) 제곱(s) : 모든 수를 제곱하여 부호를 없앤다.

(2) 평균(m) : 제곱된 값들의 평균을 구한다.

(3) 제곱근(R) : 제곱-평균된 값에 제곱근을 취한다.

표준편차도 편차에 RMS식을 썼다. 그러나 조금 특이한개 보인다. 보통 평균은 데이터 개수만큼 나눈다. 하지만 여기서는 개수 - 1개만큼 나눠준다. 

왜 그럴까? 그러기 위해서 자유도라는 개념을 알아야 한다. 자유도는 주어진 조건 하에서 자유롭게 변화할 수 있는 개수를 의미한다. 예를들어 숫자 20,  10, 15, 15가 있다. 평균으로 부터 편차들은 5, -5, 0, 0이 된다. 그러므로 표준편차는

이 부분은 이해가 안가 AI힘을 빌렸다.

자유도(Degrees of Freedom)란?

자유도는 통계적 계산에서 독립적으로 변할 수 있는 값의 수를 의미합니다. 데이터의 제약 조건이나 이미 계산된 통계량에 따라 남은 "자유"로운 변동 가능성을 나타냅니다.

표준편차 계산에서 n-1을 사용하는 이유

모집단의 표준편차(σ)와 달리, 표본의 표준편차(s)를 계산할 때 분모에 n이 아닌 n-1을 사용합니다(여기서 n은 데이터 개수). 이를 "베셀의 수정(Bessel's correction)"이라고 합니다.

n-1을 사용하는 주요 이유:

  1. 불편 추정량(Unbiased estimator): 표본에서 모집단의 표준편차를 추정할 때, n-1로 나누면 평균적으로 참값에 더 가까운 추정값을 얻을 수 있습니다.
  2. 자유도 손실: 표본 분산을 계산할 때 우선 표본 평균을 계산하게 되는데, 이 평균값이 이미 데이터의 한 가지 특성을 결정합니다. 따라서 n개의 데이터에서 실제로 자유롭게 변할 수 있는 값은 n-1개뿐입니다.
  3. 수학적 증명: 표본 분산에 n대신 n-1을 사용하면 모분산의 불편 추정량이 됨이 수학적으로 증명되어 있습니다.

간단한 예시로 설명하자면, 세 개의 숫자가 있고 평균이 10이라고 할 때, 두 개의 숫자만 자유롭게 선택할 수 있고 세 번째 숫자는 평균이 10이 되도록 결정됩니다. 이것이 바로 자유도가 n-1(여기서는 3-1=2)인 이유입니다.

표준편차의 의미

표준편차는 관측치들이 평균으로부터 얼마나 떨어져 있는지 알려준다

68-95법칙

관측치들의 약 68% 정도가 평균으로부터 1 표준편차 이내로 떨어져 있다.

관측치들의 약 95% 정도가 평균으로부터 2 표준편차 이내로 떨어져 있다.

다만 표준정규분포와 유사할때 이 현상이 나타난다.

자유도

자유도는 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수. 

표준편차 계산하는 경우의 자유도는 '자료의 개수 -1'

표준편차 계산의 대상이 되는 편차들의 합은 0이 된다. 편차들의 합이 0이 된다는 하나의 제약조건이 자유도를 1만큼 감소 시킨것이다. 극단적인 예시를 든다. 데이터가 1개이다고 쳐보자. 0에 대해 제곱의 평균을 구하면 자유도를 고려하지 않으면 0/1 = 0이고 자유도를 고려하면 0/(1-1)으로 부정형이된다.

단 하나의 자료만을 가지고는 퍼진 정도를 알 수 없다. 이 때 퍼진 정도는 0이 아니라 '알 수 없다'가 정답이다. 자유도를 고려해야 하는 이유다.

정의

측정오차

- 관측치와 실제 값의 차이

측정오차가 존재하면 관측치 = 실제 값 + 측정오차

측정오차의 대략적인 크기는 관측치들의 표준편차를 통해 알 수 있다.

표준편차의 크기는 한 번의 관측에서 측정오차가 어느 정도 될지 알려 준다.

 

편의

방향성을 갖는 하나의 체계적인 오차

측정오차와 함께 편의가 있으면 (관측치) = (실제값) + (편의) + (측정오차)

 

이탈값