수스리 2025. 2. 19. 01:32

1. 표준편차는 "파도의 거칠기"

통계를 파도에 비유하면 이렇다. 평균은 바다의 수위 어느정도의 파도가 치느냐는 표준편차(솔직히 와 닿는 비유는 를 아니다.) 파도가 거칠게 쳐서 수위의 차가 커지는 것은 표준편차에 해당한다. 파도가 잔잔하게 쳐서 수위가 어느 정도 일정한 높이를 유지한다면 그것은 평균값이다. 반면 파도가 거칠게 쳐서 수위의 차가 커지는 것은 표준편차다. 

2. 표준편차로 데이터의 특수성을 평가

표준편차를 알면 두가지를 알 수있다. 첫째 한 데이터 세트 중에 있는 어떤 하나의 수가 갖는 의미, 둘째 여러 데이터 세트들을 서로 비교해서 나타나는 차이 이말이 무슨 말일까?

2 - 1. 데이터 세트 중 어떤 하나의 수가 갖는 의미

시험을 쳤다. 75점이 나왔다. 평균 점수는 60점이다. 평균보다 높으니 평균 이상인데 얼마나 이상일까? 표준편차가 12라고 해보자. 당신이 받은 점수는 평균점수에서 표준편차만큼 더 높은 점수이다. 표준편차는 평균값에서 떨어진 수만큼 평균화한 값이다. 이러면 시험 점수 75점은 칭찬 받을 만한 점수지만 미친듯이 좋은 성적은 아니라는이야기다.

반대로 표준편차가 8이라고 해보자. 이때는 이야기가 달라진다. +- 8점한 점수 52점과 68점에 점수가 많이 분포 되어있다. 75점은 표준편차의 대략 2배정도 떨어져 있으니 뛰어난 성적이라고 할 수 있다. 결국 어떤 하나의 데이터가 가진 특수성은 평균에서 떨어진 정도를 나타내는 수치만으로 계측할 수 없고 표준편차를 기준으로 가정해야만 알 수 있다. 

방금 시험처럼 평균점수가 표준편만큼 높은 점수를 받으면 특이성이 없지만 표준편차 2배정도 높은 경우는 특수한 데이터로 볼 수 있다.

2 - 2. 데이터 특수성의 평가기준

데이터 세트 중에 있는 어느 한 데이터의 편차가 표준편차로 계산해서 +-1배 전후라면 이것은 평범한  데이터라고 할 수 있고 +-2배로 멀리 있는 데이터일 경우 특수한 데이터라고 할 수 있다. 특수 하다는 말이 어느정도를 뜻하냐면 정규분포에 가까운 수를 말한다. 평균값에서 표준편차 +-1배의 범위 내에 약 70%의 데이터가 들어간다. 또한 펴준편차 +-2배보다 멀리 떨어진 데이터는 좌우 양쪽을 합쳐서 5%밖에 없다고 생각하면 된다. 

즉 데이터가 큰쪽으로 표준편차 2배 이상이면 전체에서 2.5% 안에 드는 데이터다. 

3. 여러 데이터 세트를 비교할 때의 표준편차

예시)

X군은 10번의 모의고사에서 평균점수가 60점이고 표준편차는 10점이다. 그리고 Y군은 X군과 같은 모의시험을 10번 본 평균점수가 50점이고 표준편차가 30점이다. 이것으로 무엇을 알수 있을까/

갑은 보통 표준편차 +-1배 정도의 폭, 대략 50~70점 범위의 점수를 맞는 학생이라 판단 할 수 있다. 반면 Y는 평균점수가 50 표준편차가 30점이다. Y는 대략 20~80점 범위의 점수를 맞는 학생이라고 볼 수 있다. X군은 안정된 점수 Y는 시험점수에 기복이 있다.

데이터에 일정한 수를 더하는 가공의 효과 

데이터의 모든 수에 일정한 수 a를 더해서 새로운 Y데이터를 만들면 Y데이터 평균값은 X데이터 평균값에 a를 더한 것이 되며, Y데이터의 분산과 표준편차는 원래 X데이터 수와 같다.

데이터에 일정한 수를 곱하는 가공의 효과

데이터의 모든 수에 일정한 수 K를 곱해서 새로운 Y데이터를 만들면, Y데이터의 평균값은 X의 평균값에 k를 곱한 것이 되고, Y데이터의 분산은 K의 제곱배, 표준편차는 K배가 된다.

 

데이터를 {(데이터)-(평균값)} / (표준편차)로 가공하면, 이 데이터로 구한 평균값은 0이고, 표준편차는 1이 된다.