1. 정규분포에서 보이는 표본평균의 성질
앞 강의에서 데이터를 여러 번 관측하고 그 표본평균을 구하여 기록하는 것을 충분히 반복하고, 그 뒤 히스토그램을 만들면 모평균 μ에 가까운 수가 많이 나온다.
데이터 x를 여러 번 관측하여 만든 표본평균을 x̄라고 한다. 이 표본평균 x̄가 한번만 관측된 데이터 x에 비해서 모평균 μ에 더 가까운 데이터라고 설명했다. 구간추정은 '95% 신뢰구간'과 같이 '다른 리스크'를 명확하게 해야 하지만 '다른 리스크'를 명확하게 하기 위해서는 모집단의 분포와 그 데이터로 만든 표본평균의 데이터 분포에 대한 정확한 지식이 없으면 불가능하다.
일반적인 보집단은 모딥단 자체의 분포를 알고 있어도 표본평균의 분포가 이것과는 달라지기 때문에, 추정에 사용하기에는 알맞지 않다. 가령 주사위를 던져서 나오는 숫자의 데이터 모집단은 1-6의 어떤 수치이든지 상대도수가 같다. 두 개의 관측 데이터로 만든 표본평균 x̄의 히스토그램은 가운데가 볼록해지기 때운에 이미 모집단과 같은 분포가 되지 않는다.
정규 분포는 이런 성질에 영향을 받지 않는다. 정규모집단은 포본평균을 만들어도 그 분포는 정규분포 그대로유지하는 훌륭한 성질을 갖는다.
정규모집단에서의 표본평균의 성질
정규모집단의 모평균은 μ, 모표준편차를 σ라고 할 때, 여기에서 관측된 데이터 x의 n개에 대한 표본평균 x̄의 분포는 역시 정규분포 한다. x̄의 분포 평균값은 μ 그대로지만, 표준편차는 σ/루트(n)이 되어서 모집단에 비해 루트(n)분의 1로 줄어든다.
왜 그런지는
표본평균의 분포가 모평균 μ를 중심으로 하고 표준편차가 σ/√n인 정규분포를 따르는 이유는 중심극한정리(CLT, Central Limit Theorem)에 기반합니다. 이를 자세히 설명하면 다음과 같습니다:
- 모집단과 표본:
- 모집단의 평균은 μ, 표준편차는 σ입니다.
- 이 모집단에서 크기 n인 표본을 추출하고, 그 표본의 평균을 x̄라고 합니다.
- 표본평균의 기댓값:
- 표본평균 x̄의 기댓값 E(x̄)는 모평균 μ와 같습니다. 이는 표본평균이 모평균을 중심으로 분포한다는 것을 의미합니다.
- 표본평균의 분산:
- 표본평균 x̄의 분산 Var(x̄)는 모분산 σ²을 표본 크기 n으로 나눈 값입니다. 즉, Var(x̄) = σ²/n입니다.
- 따라서 표본평균의 표준편차는 σ/√n이 됩니다.
- 중심극한정리:
- 중심극한정리에 따르면, 표본 크기 n이 충분히 크면 (일반적으로 n ≥ 30), 표본평균 x̄의 분포는 정규분포에 가까워집니다.
- 이는 모집단의 분포가 정규분포를 따르지 않더라도 성립합니다.
- 표준편차 감소의 이유:
- 표본 크기 n이 증가할수록 표본평균의 표준편차 σ/√n은 감소합니다. 이는 표본평균이 모평균 μ 주변에 더 밀집되어 분포한다는 것을 의미합니다.
- 예를 들어, n=4인 경우 표준편차는 σ/2가 되고, n=9인 경우 σ/3이 됩니다. 이는 표본 크기가 클수록 표본평균의 변동성이 줄어들어 더 정확한 추정이 가능해짐을 보여줍니다.
결론적으로, 표본평균의 분포가 모평균 μ를 중심으로 하고 표준편차가 σ/√n인 정규분포를 따르는 것은 중심극한정리에 의해 설명되며, 이는 표본 크기가 증가함에 따라 표본평균의 변동성이 감소하는 원리를 나타냅니다.
여기서 표본평균 x̄의 표준편차는 'n개의 구체적인 데이터에서 표준편차를 계산한 것이 아니라는 점'에 주의해야 한다. 여기에서 이야기하는 표본평균 x̄의 표준편차란, n개의 데이터를 무한히 반복하여 관측하고, 이것들을 계산한 무수한 표본평균 x̄의 히스토그램을 만들어 여기에서 계산한 표본편차다. 그래서 무한한 x̄로 만든 모집단의 모분산과 같은 것이다.
정규분포의 모딥단에 대한 표본평균을 만들면 가운데가 높은 형태가 더 '높아지게'된다. 이것은 평균값 근처의 데이터가 더 높은 확률로 관측되고, 평균값에서 먼 데이터는 잘 관측되지 않는다는 것을 의미한다.
2. 정규모집단에서의 표본평균에 대한 95% 예언적중구간
일반정규분포의 95% 예언적중구간
평균값이 μ이고 표준편차가 σ인 정규분포의 95% 예언적중구간은 ( μ - 1.96 σ ) 이상 ( μ + 1.96 σ ) 이하. 이것을 정규모집단으로 바꾸어 모평균 μ에서 모표준편차 σ인 1.96배의 범위 내에 있는 데이터가 관측된다'고 예언하면 이것은 95%의 확률로 적중한다는 말이된다.
정규모집단에서 n개의 데이터를 관측할 경우, 이 표본평균에 대해 예언하면 어느 범위를 말하면 좋을까? 라는 형태로 이 법칙을 바꿀 수 있다. n개의 표본평균의 분포에서 평균값은 모평균 μ에서 변하지 않고 표준편차는 모표준편차 σ의 루트(n)분의 1이 되기 때문에 다음과 같은 결론이 나온다.
모평균이 μ이고, 모표준편차가 σ인 정규모집단에서 데이터 n개의 표본평균에 대한 95% 예언적중구간은
( μ - 1.96*( σ / 루트(n))) 이상 ( μ + 1.96*( σ / 루트(n))) 이하
정규모집단 -> n개 데이터의 표본평균 x̄
모집단의 데이터 -> 표본평균 x̄
μ - 1.96* σ ~ μ + 1.96* σ의 범우에 95% 데이터가 들어있다. --> ( μ - 1.96*( σ / 루트(n))) 이상 ( μ + 1.96*( σ / 루트(n))) 이하 범위에 x̄가 들어있다
표본평균을 만드는 개수가 늘어날수록 예언하는 구간이 좁아진다.
즉!!!!! 표본평균을 만들기 위해 관측한 데이터 수가 많으면 정확도가 더 높은 예언을 할 수 있다.
'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글
16강 카이제곱 분포 (0) | 2025.03.13 |
---|---|
15강 표본평균을 이용한 모평균의 구간추정 (0) | 2025.03.11 |
13강 표본평균1 (0) | 2025.03.09 |
12강 모분산과 모표준편차 (0) | 2025.03.08 |
11강. 모집단과 통계적 추정 (0) | 2025.03.05 |