통계학40 정규분포로의 근사 정규분포로 히스토그램을 근사1. 통계자료의 단위변환과 그 사례확률변수 x가 평균이 μ 분산이 σ^2인 정규분포를 따른다고 할 때 표준정규분포로 만드려면? 1. 먼저 X에서 평균 μ를 빼준다. (X - μ) 이것을 편차라고 한다.2. 그 다음 이 편차를 표준편차 σ로 나누어준다. 이렇게 만들어진 새로운 확률변수 Z는 표준정규분포를 따른다. 표준정규 분포는 평균이 0 분산이 1이다. 표준정규분포는 다음과 같은 특징을 같는다.하나, 분포의 전반적인 모습은 단위변환에 의해서 변하지 않는다.둘, 평균을 빼줬기 때문에 새로운 평균은 0이 된다.셋, 표준편차로 나눴기 때문에 새로운 편차는 1이 될 수 밖에 없다. 예시)예시를 들어보자 50점 만점 과목인 탐구에서 표준 점수가 60이면 상68%에 해당한다. 이 구간.. 2025. 5. 1. 표준편차와 자유도 1. 표준편차와 자유도의 직관적인 의미제곱근-평균-제곱(Root Mean Square)계산은 표현의 역순이다. (제곱후 평균 최종적으로 제곱근을 한다.)(1) 제곱(s) : 모든 수를 제곱하여 부호를 없앤다.(2) 평균(m) : 제곱된 값들의 평균을 구한다.(3) 제곱근(R) : 제곱-평균된 값에 제곱근을 취한다.표준편차도 편차에 RMS식을 썼다. 그러나 조금 특이한개 보인다. 보통 평균은 데이터 개수만큼 나눈다. 하지만 여기서는 개수 - 1개만큼 나눠준다. 왜 그럴까? 그러기 위해서 자유도라는 개념을 알아야 한다. 자유도는 주어진 조건 하에서 자유롭게 변화할 수 있는 개수를 의미한다. 예를들어 숫자 20, 10, 15, 15가 있다. 평균으로 부터 편차들은 5, -5, 0, 0이 된다. 그러므로 표준.. 2025. 4. 30. 3 - 3. 혼돈요인 통제 : 따로따로 분석하기 복습: 실험자료가 아닌 경험자료로 분석하면 뭔가가 잠복해 있다. 이것을을 통제하지 못해 잠복요인에 공통으로 영향을 받는 x와 y 관계가 왜곡돼서 나타날 수 있다. 예제. 학과 난이도를 고려하지 않은 버클리 대학 남져 지원 비율,이처첨 변수는 통계를 조작하기 십상이다. 하지만 변수는 죄가 없다. 변수를 고려못한 인간의 실책만 있을 뿐. 혼동요인으로 인한 결과의 왜곡을 막으려면 이에 대한 통제가 필요하다. 어떻게 통제하지?따로로따로. 교수님은 이 말을 강조했고 앞으로도 강조 한다 했다. 자료를 혼동요인에 따라 세부집단으로 분류하고 세부집단 별로 따로따로 분석한다. 세부집단이 많을 경우에 회귀분석을 이용한다.예시) 경구 피임약의 복용이 해당 여성의 혈압을 높이는가?- 연령이 혼동 요인으로 작용 : 연령이 높으.. 2025. 4. 24. 3 - 2. 히스토그램 그리기 자료를 범위로 나눠서 개수를 세고 그것을 비율로 바꿔서 표현할 수 있다. 이것이 히스토그램을 그리는 방법이다. 아래 표를 보자.대한민국 근로자 가구의 월 소득 분포를 나타낸 표이다. 아래보는 그림은 잘못된 표다. 세로축과 가로축을 보자. 세로축은 비율, 가로축은 소득을 나타낸다. 아마추어가 봐도 이 그림은 잘못됐다. 뭐가 문제 일까? 세로축이 잘못됐다. 세로축을 비율로하니 너무 커진다. 소득이 600만원 이상인 경우는 많이 없기에 모두 묶어줬다. 비율로 높이를 삼으니 블록의 면적이 확 커진다는 걸 알 수 있다. 이번에는 아래 그림을 보자. 이 그림은 잘 나타낸 그림이다. 우선 계급구간별로 비율을 폭으로 나누어 해당 블록의 높이로 삼는다. 블록 면적이 해당 계급구간에 속한 자료의 비율을 나타낸다. 이 그림.. 2025. 4. 24. 3 - 1 그림을 이용한 자료정리 데이터 분석에서 시각화는 필수요건. 아래는 베이브 루스의 연도별 홈런수를 보여준다. 25시즌은 베이브 루스가 부상으로 큰 큰 활약을 보이지 못했다. 그나마도 20개가 넘는 홈런이니 정말 뛰어난 선수다. 이런 그림을 보면 가로축이 뭔가 세로축이 뭔지 파악하자. 가로축은 시즌이고 세로축은 홈런 수 이다. 아래 그림을 시계열 그림이다. 그림에서 홈런 40-50개 사이에 특별한 표시를 했다. 베이브루스는 7시즌을 40개가 넘는 홈런을 쳤다. 즉 베이브루스는 홈런을 40개 넘게 치는 선수라고 볼수있다. 그림을 다르게 표현 할 수도 있다. 세로축 구간별로 자료의 개수를 세면 다음과 같이 표현할 수 있다. 아래 그림을 줄기-잎 그림이라고 한다. 줄기는 10의 자리수를 나타내고 잎은 1의 자리수를 나타난다. 이런 그림.. 2025. 4. 24. 종적 자료의 척도와 정리 변수의 종류에는 무엇이 있을까?양적 변수 : 나이, 가족의 수, 가구소득질적 변수 : 혼인상태, 취업여부 -> 일반적으로 질적 변수도 통계처리 목적상 수치로 코딩하여 사용한다.이상변수 : 가족 수 처럼 2,3,4 등의 이산적인 값만을 취함.연속변수 : 나이, 가구소득처럼 연속인 값을 취한다.컴퓨터를 통해 숫자를 표현하면 이론상 이는 언제나 이산적일 수밖에 없다.현실적으로는 어떠한 연속변수도 이산적으로 근사 시켜 표현할 수밖에 없다.이때 그 근사의 정확도를 얼마로 할 것인가가 문제의 본질이다.척도의 종류명목척도 - 척도의 명칭만 의미 있다.예시) 결혼 상태에 대한 코드 : { 미혼 = 1, 기혼 = 2, 이혼 = 3, 사별 = 4}순서척도 - 명칭 및 순서가 의미를 지닌다예시) 성적 등급 - {poor =.. 2025. 4. 23. 이전 1 2 3 4 5 6 7 다음