1. t분포
앞 강의에서 나는 모분산으로 자연스러운 추정이 가능하다는 것을 알았다. 이것은 모집단이 정규분포 한다는 지식만 갖고서 모집단의 특성을 나타내는 중요한 모수인 모분산 σ^2을 추정하는 기술이 있다. 어떻게 해서 이런 일이 가능한지 다시 알아보자.
정규모집단에서 데이터 n개를 x1, x2, ... xn을 구체적으로 관측했을때, 이 데이터들의 표본평균 x̄는 간단히 계산할 수 잇는 통계량이다. 그리고 n개의 편차 x1 - x̄, x2 - x̄, x3 - x̄ ... xn - x̄ 역시 구체적인 데이터만으로 계산할 수 있는 통계량이다.
그런데 이러한 것을 제곱하고 모두 더한 것을 모분산 σ^2으로 나눈 W라는 통계량이 카이제곱분포라고 하는, 상대도수를 완전히 알고 있는 분포가 되었기 때문에 그 95% 예언적중구간을 사용하여 σ^2의 구간추정을 하는 것이 가능했다. 즉, 모분산 σ^2 이외에는 현실에 관측된 표본들만을 사용하여 계산할 수 있는 통계량이며, 그 분포를 확실히 할 수 있는 것을 찾았기 때문에 가능해진 것이다.
그러면 모집단에 대해 정규분포라는 지식만 갖고서 모집단의 특성을 나타내는 또 하나의 중요한 모수인 모평균 μ를 추정할 수 있을까?
지금까지 배운 지식은 모평균 μ이외에는 현실에 관측된 표본들만을 사용하여 계산할 수 있는 통계량이며, 그 분포를 확실히 알 수 있는 것을 찾으면 가능하다. 이런 통계량을 발견한 사람은 영국의 고셋이다. 이런 통계량은 T통계량이라 부른다. 통계량 T는 어떻게 구할까?
1단계
데이터 n개의 표본평균 x̄를 계산한다.
2단계
데이터 n개의 표본표준편차 s를 계산한다
3단계
표본평균 x̄에서 모평균 μ를 빼고, 표본표준편차 s로 나누며 데이터 수에서 1을 뺀 수에 루트를 한 루트(n - 1)을 곱한다. 이것이 통계량 T가 된다.
T = (x̄ - μ )*루트(n - 1) / s
이렇게 계산된 T라는 통계량은 그 계산에서 모평균 μ 이외에는 모두 관측된 데이터만으로 계산하는 것을 볼 수 있다. 그래서 이 T의 분포를 확실히 안다면 95% 예언적중구간을 만들 수 있고, 이것을 이용하면 모평균 μ를 구간추정 할 수 있다.
2. t분포의 히스토그램
통계량 T = (x̄ - μ) * 루트(n - 1) / s의 분포를 자유도 n - 1인 t 분포라고 부른다.
T분포는 다른 정규분포와 닮았지만 조금 다르다. 정규분포보다 볼록한 부분이 약간 낮고 그만큼 완만한 곳은 높다는 말이다.
3. 통계량 T의 계산
예제
모평균 μ = 6인 정규모집단에서 5개의 데이터 1, 5, 7, 9, 13이 관측 되었다. 이때 통계량 T를 계산하시오
1단계
5개 데이터의 표본평균 x̄를 계산한다.
x̄ = (1 + 5 + 7 + 9 + 13) / 5 = 7
2단계
5개 데이터의 표본표준편자 s를 계산한다.
s^2 = ((1 - 7)^2 + (5 - 7)^2 + (7 - 7) ^ 2 + (9 - 7) ^ 2 + (13 - 7) ^ 2 )/ 5
s^ = 16
s = 4
3단계
통계량 T를 계산한다
T = (x̄ - μ) * (루트(n - 1)) / s = (7 - 6) * 루트(5 - 1)
4. t분포의 정식적인 정의
t분포의 정의
t분포의 정식적인 정의는 다음과 같다
표준정규분포를 따르는 데이터 z와 자유도 k의 카이제곱분포를 하는 데이터 W로부터
T = z*루트(k) / 루트(w) 라고 계산되는 통계량 T는 자유도 k의 t분포를 한다.
이것을 말로 설명하면?
어떠한 표준정규분포 하는 데이터와 카이제곱분포 하는 데이터가 있다. 앞의 데이터를 루트를 씌운 뒤의 데이터로 나누고, 끝으로 후트를 씌운 후자의 자유도를 곱하면, 이것이 t 분포가 된다는 말이다. 1항의 1식으로 정의한 통계량 T가 앞에서 설명한 2로 정의된 T의 일종이 되는 것을 구체적인 계산으로 확인해보자.
정규모집단의 모평균을 μ로 하고, 모분산을 σ^2로 한다. 이때, n개의 표본으로 계산한 표본평균 x̄는 평균 μ, 표준편차 σ / 루트(n)로 나누면
U = (x̄ - μ) / ( σ / 루트(n)) ---> (1)
(1) 은 표준정규분포를 따르는 통계량이 된다.
한편 표본분산 s^2에 데이터수 n을 곱하고 모분산 σ^2로 나누면
W = s^2 * n / σ^2 ---> (2)
는 자유도 (n - 1)인 카이제곱분포를 따른다.
(1)에서 얻은 표준정규분포를 따르는 U와 (2)에서 얻은 카이제곱분포를 따르는 W를 알맞은 위치에 대입하여 얻은 T는 t분포를 따른다
복잡한 계산이지만 확실히 (x̄ - μ) * 루트(n - 1) / s 라는 계산을 변형하면 (표준정규분포의 데이터z) * 루트(W의 자유도k) / 루트(카이제곱분포W)라는 형식의 계산과 같다는 것이 확실해졌다. 이 계산에서 가장 중요 한 것은 U와 W가 함께 모분산 σ를 포함한 것으로 σ가 약분되어 없어지는 것이다. 이것으로 σ를 포함하지 않는 μ만을 포함한 통계량을 얻을 수 잇는 구조가 되었다.
'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글
회귀직선의 오차 (1) | 2025.05.09 |
---|---|
21강 t분포로 구간추정 (0) | 2025.03.26 |
19강 모평균이 미지인 정규모집단을 구간추정 (0) | 2025.03.21 |
18강. 표본분산의 분포는 카이제곱 분포 (0) | 2025.03.21 |
17강 정규모집단의 모분산을 추정 (0) | 2025.03.15 |