본문 바로가기

통계학/세상에서 가장 쉬운 통계학 입문22

회귀직선의 오차 1. 실제값과 추정치의 차이제곱근 평균 제곱 오차(root mean square error) RMSE RMSE란? RMSE는 모델이 예측한 값과 실제 관측값 사이의 차이를 측정하는 방법이다. 쉽게 말해 평균적으로 예측이 실제값으로부터 얼마나 떨어져 있는가를 나타낸다. RMSE의 특징단위 : RMSE는 원래 데이터와 같은 단위를 가진다. 예를 들어, 키를 예측하는 모델이라면 RMSE도 cm단위가 된다.오차 가중치 : RMSE는 제곱을 사용하기 때문에 큰 오차에 더 많은 가중치를 부여한다. 10cm 오차 하나는 10cm 오차 하나는 1cm오차 100개보다 RMSE에 더 큰 영향을 미친다. 자유도 조정 때로는 추정하는 파라미터 수를 고려해 분모를 n 대신 n-p로 사용하기도 한다. 이를 자유도가 조정된 RM.. 2025. 5. 9.
21강 t분포로 구간추정 1. 가장 자연스러운 구간추정우리의 최종목표는 모집단이 정규분포라는 것만 알고 모분산은 모르는 경우, 소표본에서 모평균을 추정한다는 방법론이다. 이때 다음 방법으로 계산이 가능하다.T = (표본평균 - 모평균) / (표본표준편차) * 루트 (n - 1)이 통계량을 만들면, 완전하게 상대도수가 파악되는 분포인 t분포가 된다는 것을 앞 강의에서 설명했다. 이러면 95% 예언적중구간을 만들 수 있고, 이것을 이용해 검정이나 구간추정을 할 수 있게 된다.예를 들어 자유도가 10이면 자유도 10 부분 숫자 2.228을 선택한다. 그리고 95% 예언적중구간은 0을 축으로 한 대칭구간 -2.228 T는 모집단에 관한 정보를 모평균 μ만 포함하고 있지 않다. 그래서 표본을 구체적으로 얻은 것을 바탕으로 어떤 모평균 μ.. 2025. 3. 26.
20강 : t 분포 1. t분포앞 강의에서 나는 모분산으로 자연스러운 추정이 가능하다는 것을 알았다. 이것은 모집단이 정규분포 한다는 지식만 갖고서 모집단의 특성을 나타내는 중요한 모수인 모분산 σ^2을 추정하는 기술이 있다. 어떻게 해서 이런 일이 가능한지 다시 알아보자.정규모집단에서 데이터 n개를 x1, x2, ... xn을 구체적으로 관측했을때, 이 데이터들의 표본평균 x̄는 간단히 계산할 수 잇는 통계량이다. 그리고 n개의 편차 x1 - x̄, x2 - x̄, x3 - x̄ ... xn - x̄ 역시 구체적인 데이터만으로 계산할 수 있는 통계량이다.그런데 이러한 것을 제곱하고 모두 더한 것을 모분산 σ^2으로 나눈 W라는 통계량이 카이제곱분포라고 하는, 상대도수를 완전히 알고 있는 분포가 되었기 때문에 그 95% 예.. 2025. 3. 25.
19강 모평균이 미지인 정규모집단을 구간추정 1. 모평균을 몰라도 모분산을 추정앞 강의에서 표본분산 s^2과 비례하는 통계량 W가 카이제곱분포를 한다는 것을 알았다. 표본분산의 계산에는 모평균 μ를 사용하지 않는 대신에 표본평균 x̄를 사용하기 때문에 W의 분포를 사용하기 위해서는 모평균을 몰라도 상관없다. 이로써 바라던 추정 방법을 알 수 있게 되었다. 정규모집단에서 필요 없는 지식은 아무것도 가정하지 말고 추정한다. 오늘 공부 할 내용은 모평균도 모분산도 모르는 정규모집단에서 나온 표본에서 모분산을 추정한다는 구간추정 방법을 설명한다. 왜 모평균이 아닌 모분산을 추정하냐고 묻는 이를 위해 미리 답하겠다. 당신은 똑똑하다. 모평균이 기본적인 모수라 이것을 추정하는 게 효율적이라 할 수 있다. 아직은 나의 지식이 부족하다. 모평균을 추정하기 위해서.. 2025. 3. 21.
18강. 표본분산의 분포는 카이제곱 분포 1. 표본분산과 비례하는 통계량 W를 만드는 법앞 강의에서 정규모집단에서 관측된 표본에서 모평균 μ를 뺀 수를 모표준편차σ로 나누고, 이것을 제곱하고 모두 더하여 카이제곱분포를 따르는 통계량 V를 계산하고 이 분포의 95% 예언적중구간을 이용하여 구간추정을 했다. 참고로 여기서는 모평균 μ를 알고 있다는 조금 부자연스러운 가정으로 계산했다. 왜냐하면 데이터에서 모평균을 빼고, 모표준편차로 나눔으로써 표준정규분포를 하듯이 만들고, 이것을 제곱한 모든 것을 더한 것이 카이제곱분포가 되기 때문에 이러한 부자연스러운 지식이 필요했다.V를 만드는 공식은{(데이터) - (모평균 μ)} ^ 2인데 중괄호 안에 들어 있는 것이 (편차) ^ 2과 비슷하다.통계량 V는 모평균을 뺀다. 표본분산 s^2은 표본평균 x̄를 빼.. 2025. 3. 21.
17강 정규모집단의 모분산을 추정 정규모집단이라는 것은 알고, 모평균을 알고 있을 때의 모분산 추정1. 카이제곱분포의 95% 예언적중구간앞 강의에서 표준정규모집단에서 얻은 데이터를 n개 관측해서 이러한 데이터들을 제곱하고 더한 V라는 통계량을 구하면 V의 분포는 자유도 n의 카이제곱분포가 된다는 것을 설명했다.확실한 분포를 얻으면  '95% 적중할 수 있는 예언'을 할 수 있다. 정규분포처럼 카이제곱분포도 어느 범위를 지정하고, 그 범위에 V가 들어간다고 하는 예언을 95%의 확률로 적중시키는 것이 가능하다. 2. 정규모집단의 모분산을 추정95% 예언적중구간을 만들 수 있다는 말은 이것을 구간추정에 이용 할 수 있음을 의미한다. 모평균 μ, 모표준편차 σ의 정규모집단에서의 표본 x로부터 z = (x - μ) / σ로 통계량 z를 만들면 .. 2025. 3. 15.