1. 표본분산을 구하는 방법
여태 우리는 표본평균을 중심으로 추정하는 방법을 배웠다. 표본평균은 '정규모집단의 모평균을 구간추정 할 수 있다'는 의미로 모평균을 반영한 것이라고 할 수 있다. 관측된 데이터를 축약하여 얻은 통계량에서 또 한가지 중요한 것은 표준편차다. 그러면 정규모집단에서 관측된 n개의 데이터로부터 계산한 표준편차는 어떤 성질을 갖는 것일까? 그리고 이것은 모표준편차를 반영한 것일까? 오늘은 관측 데이터의 표준편차가 아니라 루트를 씌우기 전인 '분산'을 다룬다. 관측 데이터로 계산한 분산을 '표본 분산'이라고 하고, 표본분산을 계산하는 단계는 다음과 같다.
1단계. 먼저 표본평균을 계산한다.
2단계. 다음으로 각 표본에서 표본형균을 빼 편차를 구한다.
3단계. 각 편차를 제곱해서 모두 더하고, 표본 퐁 개수로 나누어 계산한다.
정규모집단에서 얻은 데이터들은 정규분포의 상대도수에 근거하여 각기 다른 값이 된다. 가운데가 볼록한 형태의 그래프로 나타나는 상대도수로 관측된다. 이런 데이터 n개에서 표본분산 계산을 반복하면, 물론 표본분산도 각기 다른 값이 된다. 그러면 이 표본분산은 어떤 분포를 할까? 표본평균은 평균이 모평균과 같은 μ, 표준편차가 모표준편차 σ의 루트(n)/1되는 정규분포를 취하지만, 표본분산도 이와 같을까?
표본분산도 모분산을 반영하는 분포가 되지만, 이것은 정규 분포가 아니다. 표본분산은 제곱을 해서 합하기 때문에 표본분산은 절대로 음수가 되지 않는다. 반면 정규분포는 음수도 나온다. 이것만으로도 정규모집단에서 표본으로 계산한 표본분산은 정규분포가 아니라고 볼 수 있다.
2. 카이제곱분포란?
표본분산이 어떤 분포가 되는지는 패스하고 다른 분포부터 설명
표본분산의 식 중에서 '제곱의 합'이라는 형식에 주목하자. 표준정규분포 하는 모집단에서 얻은 n개 데이터 제곱의 합'이라는 통계량을 분석하는 것이다.
지금 모집단이 표준정규분포인 표준정규모집단에서 3개의 데이터를 관측하고, 이 데이터를 제곱하여 모두 더한 통계량을 생각해보자.
구체적으로 관측한 데이터 x1, x2, x3에 대해서
V = (x1^2) + (x2^2) + (x3^2)을 계산해서 V를 구한다. x1, x2, x3는 관측 할 때마다 다른 값이 나와서 V도 다른 값이 나온다. 평균값도 이와 같은 통계량의 하나가 된다.

위 그림은 카이제곱 분포의 히스토그램인데 분포는 V가 0이상의 수치만으로 한정되고 비교적 0에 가까운 곳에 많은 데이터가 밀집해있다.
카이제곱 분포의 특징
하나, 0 근처의 데이터 상대도수가 크다. 이것은 정규분포가 0근처 수치의 상대도수가 크다는 것을 반영한 것이다.
둘, 자유도 n이 커지면 가운데 볼록한 높이가 낮아지고 오른쪽으로 치우쳐간다. n이 커지면 0에서 조금 떨어진 데이터가 나오는 상대도수가 높아져 감을 의미한다.
결론
카이제곱분포를 하는 V는 0이상의 값밖에 나오지 않는다. 또한 0에 가까운 수치의 상대도수가 크고, 0에서 떨어진 수치의 상대도수는 급격하게 작아진다.
'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글
18강. 표본분산의 분포는 카이제곱 분포 (0) | 2025.03.21 |
---|---|
17강 정규모집단의 모분산을 추정 (0) | 2025.03.15 |
15강 표본평균을 이용한 모평균의 구간추정 (0) | 2025.03.11 |
14강 표본평균2 (1) | 2025.03.10 |
13강 표본평균1 (0) | 2025.03.09 |