본문 바로가기
통계학/세상에서 가장 쉬운 통계학 입문

3강 분산과 표준 편차

by 수스리 2025. 2. 18.

1. 불규칙한 통계량을 아는 것이 중요

평균값은 데이터 분포 중에서 하나의 수를 꺼낸 것에 불과하고 데이터가 그 주변에 어느 정도 퍼져 있는지, 또는 흩어져 있는지 알 수 없다. 가령 평균 소득이 똑같은 나라가 있어도 어떤 나라가 더 훌륭한 나라인지 알 수는 없다. 빈부격차가 심한 나라 일 수도 있고 그렇지 않은 나라 일 수도 있기 때문이다. 

버스를 예로 들어 보자. A버스는 도착시간표 보다 2분 늦거나 2분 빨리 오는 버스고, B버스는 10분 늦거나 10분 빨리 오는 버스다. 어느 버스든 도착시간의 평균은 긑은 버스다. 보통 어느 버스를 선택할까? 아마 A버스일 것이다. B버스는 편차가 크기 때문에 타기를 주저하게 된다. 결국 중요한 건 평균값 보다 불규칙한 상태의 통계량이다.

2. 버스 도착시간으로 분산을 이해

모든 데이터는 평균은 있지만 제각각이다. 다음과 같은 숫자가 있다고 보자

32 27 29 24 33

이 수들의 평균은 31이다. 앞서 말했듯이 데이터는 제각각으로 흩으져있는데 제각각은 어느 정도 일까? 평균값()31을 기준으로 계간 해 보자

+1 -4 -2 +3 +2

우리가 할 일은 이 5개 수의 편차를 축약하고 하나의 수로 대표시키는 일 이다. 즉 편찬에 대한 평균을 구하는 방법이다. 그러나 내가 방금 구한 편차를 다 더하면 0이 된다. 이걸로 수를 구하면 어리석은 짓이다. 이것들을 더하면 0이다. 플러스와 마이너스가 상쇄돼어 평균 값이 작아진다. 

그렇다면 우리가 할 일은? 답은 나와 있다. 플러스와 마이너스가 상쇄돼지 않도록 한다. 어떻게 할까? 바로 제곱을 사용하면 된다. 

 

1 16 4 9 4

제곱하면 마이너스 부호가 없어지니 플러스 마이너스가 만날 일이 없다. 이 수들을 다 더해서 5(숫자의 총 개수)로 나누면 6.8이된다.

여기는 두가지 문제점이 있다. 첫째 흩어져 잇는 상태를 나타내는 수치로는 너무 크다. 편ㅊ차의 수치는 각가 +-4 정도인데 분산은 6.8이라 값이 상당히 크다. 둘째로 단위가 바뀐다. 원래는 '분'이 단위지만 제곱을 해서 분^2이 된다. 이런 문제점들은 분산에 루트를 씌어서 제곱평균을 구하면 된다. 루트 6.8은 2.61이 된다. 

3. 표준편차의 의미

표준펴차 2.6은 무엇을 의미할까? 저걸 버스 도착시간으로 비유하면 버스는 평균적으로 1분보다 늦게 오지만 실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각하자. 표준편차는 대표값을 기점으로 데이터가 대략 어느정도 멀리까지 위치해 있는지를 나타내는 통계량이다. 

4. 도수분포표로 표준편차를 구하는 법

나중에 필요하다고 한다. 도수분포표로 표준편차를 구하는 방법을 알아보자. 

(계급값 X 상대도수)의 합계는 평균값이다. 이렇게 도수분포표로 계산한 평균값을 계급값에서 빼면 "계급값의 편차"를 구할 수 있다. 계급값의 편차들을 갈각 제곱해 상대도수와 곱한 값들을 모두 더하면 분산이 나오고 여기서 루트를 씌우면 표준편차가 된다.