1. 모집단은 가상의 항아리
모집단은 매우 중요하다. 다시 한번 살펴보자.
우리는 같은 불확실한 현상이 제각각인 수로 나타나는 상태를 데이터라는 형태로 관측한다. 같은 종류의 나비라도 몸 길이는 제각각으로 나타나고 동전을 36번 던지면 앞면이 나올 개수는 0부터 36개까지 다양하다. 항아리 하나가 있다고 상상해보자. 같은 현상의 데이터는 모두 같은 항아리에서 나온다. 이 항아리를 '모집단'이라 한다. 나비의 몸길이 데이터는 나비의 몸길이 수치가 담긴 항아리에서 나오고, 가게 매출액 데이터는 가게 매출액 수치가 단긴 항아리에서 나온다고 간주한다.
투표 예시도 있다. 선거에서 항아리는 개표소 전체라고 상상하면 편하다. 한 선거에서 모든 데이터는 유권자 수와 일치하여 유한한 수가 되기 때문에, 이런 모집단을 '유한모집단'이라고 부른다.
반면 나비 몸길이는 제한이 있다. 이 세상에 있는 모든 나비의 몸길이를 계측하면 그 결과는 무한하개 되기 때문에 무한 모집단이 된다. 동전이나 주식거래 수도 마찬가지다. (이 책에서는 무한모집단만을 다룬다)
통계적 추정의 목표는 무한모집단 중에서 나오는 몇 가지 데이터를 가지고 모집단 전체에 대해 어떠한 추측을 하는 것이다. 1부에서 말 한것 처럼 이것은 부분으로 전체를 추론하는 것이 된다.
참고로 모집단의 추청은 100% 적중이 목표가 아니다. 아예 다를 가능성도 배제하면 안된다. 극단적으로 동전을 36번 던졌을 때 모두 36번이 앞면으로 나올 확률도 있긴 있으니. 이런 부분이 조금은 다를 가능성이 있는 부분이다.
2. 랜덤 샘플링과 모평균
모집단의 한 예가 도표 11-1에 있다. 데이터 수치는 1, 5, 9의 3종류밖에 없지만 저마다의 데이터는 항아리 속에 무수히 많이 들어 있다. 연못의 크키는 각기 달라서 0.6, 0.3, 0.1의 면적을 갖고 있다고 가정한다. (이후, 모집단 중에 '연못'의 면적은 이와 같이 모두 합하면 1이 되도록 반드시 설정한다). 연못의 넓이 차이는 모집단이라는 항아리에서 각 데이터가 어느 정도로 쉽게 나오느냐에 대한 차이라고 생각하기 바란다. 관측 되는 데이터는 1, 5, 9중 하나지만 상대도수는 연못의 넓이가 되어 0.6, 0.3, 0.1이 된다. 1은 숫자 9의 6배가 되기 쉽고 5는 9의 3배가 되기 쉽다.
관측된 상대도수가 0.6, 0.3, 0.1이라는 것은 무엇을 말하는 가? 이 모집단에서 충분할 정도로 많이 반복해서 데이터 관측을 실행해 히스토그램을 작성하면, 히스토그램은 거의 모집단과 일치한다는 의미다. 현실에서 관측되는 데이터의 상대도수는 항아리 속 연목 넓이에 그대로 반영된다. 이러한 가정을 랜덤 샘플링의 가정이라고 한다.
관측을 충분히 많이 하면 모집단의 모습을 상당히 선명하게 파악할 수 있다고 가정 하지만 이것은 확률이론이고 이 책에서는 다루지 않는다. 우리 목표는 그 정도로 많은 관측을 하지 않고도 모집단의 모습을 추측한다.
모평균을 직접 구하기 위해서는 모집단에 존재하는 모든 수치를 관측하고, 그 연못의 면적을 알아야 한다. 그러나 이것은 현실적으로 어렵고 우리는 많이 관측되지 않은 데이터로부터 모평균을 추측하는 방법을 사용한다.
'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글
13강 표본평균1 (0) | 2025.03.09 |
---|---|
12강 모분산과 모표준편차 (0) | 2025.03.08 |
10강 구간 추정 (0) | 2025.03.03 |
08 강의 통계적 추정의 출발점 (0) | 2025.02.24 |
07 강의 정규분포 (0) | 2025.02.21 |