본문 바로가기
통계학/세상에서 가장 쉬운 통계학 입문

07 강의 정규분포

by 수스리 2025. 2. 21.

1. 가장 많이 발견할 수 있는 데이터 분포

보통 데이터들은 불확실성의 구조를 반영한다. 대부분 현상이 불확실성 구조를 가지고 있고 생겨나는 데이터는 제각각의 값이 된는 경우가 일반적이다.

데이터 분포는 데이터가 제각각인 수치로 나타나는 것이라고 말했다. 이 중 가장 대표적인 것을 정규분포 라고 한다. 이 분포는 자연이나 사회에서 관측되는 데이터들 속에 자주 등장한다. 그 분포의 모습이 수학적으로 설명이 된다.

정규 분포 중 가장 기초가 되는 정규분포는 뭘까? 정답은 표준정규분포. 표준정규분포는 -oo 에서 oo까지 모든 수치의 데이터로 구성된다. 상대도수는 수치에 따라 다르고 많이 나타나는 데이터도 있고 그렇지 않은 데이터도 있다. 

표준 정규 분포

중요한 점은 0 주변에 데이터가 집중해 있고 +2를 웃돌고나 -2를 밑돌면 데이터 수가 급격하게 줄어든다. (히스토그램의 높이가 급격하게 낮아진다)

1-1 표준정규분포의 성질

평균값 = 0, 표준편차 = 1

그래프가 0을 중심으로 좌우대칭이라 평균이 0이다. 이 분포가 '표준'정균분포로 불리는 것은 평균이 0 표준편차가 1이 기준이 되는 수 이기 때문이다.

1-2 표준정규분포의 성질

(+1) ~ (-1) 범위의 데이터 (평균에서 표준편차 1배 이내 범위의 대이터)의 상대도수는 0.6826(약 70%다)

(+2) ~ (-2) 범위의 데이터(평균에서 표준편차 2배 이내 범위의 데이터)의 상대도수는 0.9544 (약 95%다)

2. 일반정규분포를 보는 방법

일반정규분포의 데이터세트는 단순히 표준정규분포의 모든 데이터에 일정한 수를 곱하고, 그 뒤에 일정한 수를 더하는 방법으로 얻을 수 있다. 곱하는 일정한 수 를 시그마(σ), 더하는 일정한 수를  뮤(μ)이면

일반정규분포 데이터 = σ * (표준정규분포의 데이터) + μ 이다.

표준정규분포의 평균값이 0이고, 표준편차는 1이라 그 모든 데이터에 σ를 곱해서 평균값은 0 표준편자는 1이기 떄문에 그 모든 데이터에 σ를 곱하여 데이터를 가공하면,구한 데이터의 평균값은 0그대로 표준편차는 σ가 된다. 모든 데이터에 μ를 더하면 구한 데이터 평균값은 μ 가 되면 표준편차는 σ 그대로가 된다. 

일반정규분포의 성질 1

 σ * (표준정규분포의 데이터) + μ 로 만들어진 데이터는 평균값은 μ, 표준편차는 σ가 된다.

일반정규분포의 성질 2

(μ + 1 * σ) ~ (μ - 1 * σ )의 범위 데이터(평균에서 표준편차 1배 이내 범위의 데이터)의 상대도수는 0.6826이 된다. 

(μ + 2 * σ) ~ (μ - 2 * σ )의 범위 데이터(평균에서 표준편차 2배 이내 범위의 데이터)의 상대도수는 0.9544(약 95%)가 된다.

일반정규분포를 표준정규분포로 바꾸는 공식

데이터 X가 평균값이 μ, 표준편차가 σ인 일반정규분포를 따르는 데이터일 경우 Z=(X - μ)/ σ라는 가공을 하면 데이터 Z는 표준정규분포를 따르는 데이터가 된다. 

'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글

10강 구간 추정  (0) 2025.03.03
08 강의 통계적 추정의 출발점  (0) 2025.02.24
6강. 표준편차 3  (0) 2025.02.21
5강 표준편차2  (0) 2025.02.21
04 강의. 표준편차  (0) 2025.02.19