1. 관측된 하나의 데이터로 무엇을 말할 수 있는가?
모집단은 불확실한 현상의 원천이다. 모집단에 어떤 수치가 어떤 상대도수로 이루어져 있는지 안다면 관측될 수치를 효과적으로 대응 할 수 있다. 그러나 모집단 수치 전체의 분포 모습을 모두 정확하게 아는 것은 불가능 하다. 모집단은 횟수가 어마어마하게 많은데 이걸 전부 관측하기가...
그러나 데이터 x가 현실에서 관측되면 우리는 모집단에 대해서 할 말이 생긴다. 모평균 μ는 이 x와 가깝다는 추정이 가능하다. 평균값은 분포 중에서 선택 된 대표적인 점이기 때문이다. 만약 모표준편차 σ를 어떤 이유로 알면 모평균 μ에 대해서 자세한 추정이 가능하다.
많은 데이터가 평균값에서 표준편차 2배 이내의 범위에 있다. 반대로 말하면 우리가 뽑은 데이터 x에서 σ * 2 정도 이내의 범위에 μ가 존재한다고 볼 수 있다. 이것은 모집단이 정규분포 하는 경우에 설득력이 높아진다.
2. 표본평균을 구하는 이유
관측된 데이터가 한 개가 아니라 여러 개일 경우는? 그 여러개가 무수히 많으면 모르겠지만 일반적으로 모집단의 분포를 재현할 만큼의 정보는 되지 않는다. 그러나 모평균 μ에 대한 추정은 한 개의 관측 데이터일 때보다 훨씬 정확도가 높다. 우리는 관측된 데이터의 평균값을 구하면 표본평균이라고 한다. 표본 평균은 왜 구하는 걸까? 우연히 생긴 흩어지 데이터를 없애고 실제 값에 가까운 값을 만들어 내고 싶기 때문이다. 예를 들어 모의시험 점수를 구해 수능에서 몇점을 맞을지 추정하기.
이러한 표본평균의 발상이 통계적 추정에서도 큰 효력을 갖고 있다. 주사위를 던진다고 가정하자. 주사위는 이상적으로 만들어져 6면 모두 균등하게 나온다. 이때 연못의 넓이는 자연히 모두 1/6이된다. 그래서 모평균 μ는 3.5가 된다. 그러면 주사위를 두 번 던졌을 때 두 개를 한 쌍으로 기록 한다면? '1과 1' , '2와 5'등 36개 데이터가 역시 균등하게 나타난다. 이 한 쌍이 된 두개의 데이터들로 산술평균을 구하면 주사위 하나를 던졌을 때와 다른 결과가 나온다. 이때는 균등하지 않은 결과가 나온다.
표본평균. 관측된 하나의 데이터로 무엇을 말할 수 있는가?
모집단은 불확실한 현상의 원천이다. 모집단에 어떤 수치가 어떤 상대도수로 이루어져 있는지 안다면 관측될 수치를 효과적으로 대응 할 수 있다. 그러나 모집단 수치 전체의 분포 모습을 모두 정확하게 아는 것은 불가능 하다. 모집단은 횟수가 어마어마하게 많은데 이걸 전부 관측하기가...
그러나 데이터 x가 현실에서 관측되면 우리는 모집단에 대해서 할 말이 생긴다. 모평균 μ는 이 x와 가깝다는 추정이 가능하다. 평균값은 분포 중에서 선택 된 대표적인 점이기 때문이다. 만약 모표준편차 σ를 어떤 이유로 알면 모평균 μ에 대해서 자세한 추정이 가능하다.
많은 데이터가 평균값에서 표준편차 2배 이내의 범위에 있다. 반대로 말하면 우리가 뽑은 데이터 x에서 σ * 2 정도 이내의 범위에 μ가 존재한다고 볼 수 있다. 이것은 모집단이 정규분포 하는 경우에 설득력이 높아진다.
2. 표본평균을 구하는 이유
관측된 데이터가 한 개가 아니라 여러 개일 경우는? 그 여러개가 무수히 많으면 모르겠지만 일반적으로 모집단의 분포를 재현할 만큼의 정보는 되지 않는다. 그러나 모평균 μ에 대한 추정은 한 개의 관측 데이터일 때보다 훨씬 정확도가 높다. 우리는 관측된 데이터의 평균값을 구하면 표본평균이라고 한다. 표본 평균은 왜 구하는 걸까? 우연히 생긴 흩어지 데이터를 없애고 실제 값에 가까운 값을 만들어 내고 싶기 때문이다. 예를 들어 모의시험 점수를 구해 수능에서 몇점을 맞을지 추정하기.
이러한 표본평균의 발상이 통계적 추정에서도 큰 효력을 갖고 있다. 주사위를 던진다고 가정하자. 주사위는 이상적으로 만들어져 6면 모두 균등하게 나온다. 이때 연못의 넓이는 자연히 모두 1/6이된다. 그래서 모평균 μ는 3.5가 된다. 그러면 주사위를 두 번 던졌을 때 두 개를 한 쌍으로 기록 한다면? '1과 1' , '2와 5'등 36개 데이터가 역시 균등하게 나타난다. 이 한 쌍이 된 두개의 데이터들로 산술평균을 구하면 주사위 하나를 던졌을 때와 다른 결과가 나온다. 이때는 균등하지 않은 결과가 나온다.
표본평균은 x̄로 쓴다. 두 개의 표본평균 x̄는 가운데가 볼록한 히스토그램이 되고 모평균 3.5 주변에 있는 상대도수가 높은 것을 볼 수 있다. 그래서 주사위를 한 번 던지는 것보다 두 번 던져서 나오는 숫자의 표본 평균을 구하는 것이 모평균 3.5에 가까운 숫자가 나올 가능성이 높아진다.
결론
하나의 모집단에서 n개의 데이터를 관측하고 그 표본평균 x̄를 만든다. 이때, n이 크면 클수록 표본평균은 모평균 μ에 가까운 수치를 구할 가능성이 커진다
'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글
15강 표본평균을 이용한 모평균의 구간추정 (0) | 2025.03.11 |
---|---|
14강 표본평균2 (1) | 2025.03.10 |
12강 모분산과 모표준편차 (0) | 2025.03.08 |
11강. 모집단과 통계적 추정 (0) | 2025.03.05 |
10강 구간 추정 (0) | 2025.03.03 |