분류 전체보기128 상관관계 1. 산포도와 상관관계여태 한 번에 변수 하나만 다루는 방법을 살펴봤다. 이제부터 변수 두 개의 상호관계를 분석하기 윈한 방법을 찾아본다. 남녀간의 관계처럼 많은 경우 둘간의 관계가 중요하다. 교육과 임금, 통화증가율과 물가 상승률, 학급 규모와 학교성적등.여기서는 교육과 임금 수준의 관계를 생각해보자.X축이 교육수준이고 Y축이 임금인 그래프가 있다고 치자. 전국민 무작위로 100명을 뽑아서 교육수준과 임금의 관계를 파악한다. 해당하는 구역에 점을 찍는다. 레고 회사의 지원을 받아 같은 점에 찍힌 구역은 레고로 쌓는다. 어떤 구역은 높고 다른 구역은 낮을 것이다. 우리는 이런 점을 공부한다. 이런 모양들을 정리해주는 보조적인 수치들이 필요하다. 앞으로 이런 수치들을 얻는 작업들을 하고 개 중 가장 기본.. 2025. 5. 1. 정규분포로의 근사 정규분포로 히스토그램을 근사1. 통계자료의 단위변환과 그 사례확률변수 x가 평균이 μ 분산이 σ^2인 정규분포를 따른다고 할 때 표준정규분포로 만드려면? 1. 먼저 X에서 평균 μ를 빼준다. (X - μ) 이것을 편차라고 한다.2. 그 다음 이 편차를 표준편차 σ로 나누어준다. 이렇게 만들어진 새로운 확률변수 Z는 표준정규분포를 따른다. 표준정규 분포는 평균이 0 분산이 1이다. 표준정규분포는 다음과 같은 특징을 같는다.하나, 분포의 전반적인 모습은 단위변환에 의해서 변하지 않는다.둘, 평균을 빼줬기 때문에 새로운 평균은 0이 된다.셋, 표준편차로 나눴기 때문에 새로운 편차는 1이 될 수 밖에 없다. 예시)예시를 들어보자 50점 만점 과목인 탐구에서 표준 점수가 60이면 상68%에 해당한다. 이 구간.. 2025. 5. 1. 표준편차와 자유도 1. 표준편차와 자유도의 직관적인 의미제곱근-평균-제곱(Root Mean Square)계산은 표현의 역순이다. (제곱후 평균 최종적으로 제곱근을 한다.)(1) 제곱(s) : 모든 수를 제곱하여 부호를 없앤다.(2) 평균(m) : 제곱된 값들의 평균을 구한다.(3) 제곱근(R) : 제곱-평균된 값에 제곱근을 취한다.표준편차도 편차에 RMS식을 썼다. 그러나 조금 특이한개 보인다. 보통 평균은 데이터 개수만큼 나눈다. 하지만 여기서는 개수 - 1개만큼 나눠준다. 왜 그럴까? 그러기 위해서 자유도라는 개념을 알아야 한다. 자유도는 주어진 조건 하에서 자유롭게 변화할 수 있는 개수를 의미한다. 예를들어 숫자 20, 10, 15, 15가 있다. 평균으로 부터 편차들은 5, -5, 0, 0이 된다. 그러므로 표준.. 2025. 4. 30. 15 Days of Learning SQL https://chloe-chitchat.tistory.com/97 [HackerRank] 15 Days of Learning SQL (Hard)못 풀어서 다른사람 답안 보고 공부했다 FROM절이 거의 쓸모가 없고 네개의 각 컬럼을 다 따로 구하는 접근이 인상깊었다 해커랭크가 그렇게 어려운 플랫폼이 아닌데 이 문제만 갑자기 급발진이chloe-chitchat.tistory.com너무 어려워서 위 블로그를 참조했다. 똑같은 쿼리라 쓰기도 민망하다. 내일 이 문제 다시 복습하고, Medium 문제 빠르게 다시 한번 더 풀어봐야겠다. 우선 정답 쿼리부터 보자SELECT S1.submission_date, ( SELECT COUNT(DISTINCT s2.hacker_id) .. 2025. 4. 25. 3 - 3. 혼돈요인 통제 : 따로따로 분석하기 복습: 실험자료가 아닌 경험자료로 분석하면 뭔가가 잠복해 있다. 이것을을 통제하지 못해 잠복요인에 공통으로 영향을 받는 x와 y 관계가 왜곡돼서 나타날 수 있다. 예제. 학과 난이도를 고려하지 않은 버클리 대학 남져 지원 비율,이처첨 변수는 통계를 조작하기 십상이다. 하지만 변수는 죄가 없다. 변수를 고려못한 인간의 실책만 있을 뿐. 혼동요인으로 인한 결과의 왜곡을 막으려면 이에 대한 통제가 필요하다. 어떻게 통제하지?따로로따로. 교수님은 이 말을 강조했고 앞으로도 강조 한다 했다. 자료를 혼동요인에 따라 세부집단으로 분류하고 세부집단 별로 따로따로 분석한다. 세부집단이 많을 경우에 회귀분석을 이용한다.예시) 경구 피임약의 복용이 해당 여성의 혈압을 높이는가?- 연령이 혼동 요인으로 작용 : 연령이 높으.. 2025. 4. 24. 3 - 2. 히스토그램 그리기 자료를 범위로 나눠서 개수를 세고 그것을 비율로 바꿔서 표현할 수 있다. 이것이 히스토그램을 그리는 방법이다. 아래 표를 보자.대한민국 근로자 가구의 월 소득 분포를 나타낸 표이다. 아래보는 그림은 잘못된 표다. 세로축과 가로축을 보자. 세로축은 비율, 가로축은 소득을 나타낸다. 아마추어가 봐도 이 그림은 잘못됐다. 뭐가 문제 일까? 세로축이 잘못됐다. 세로축을 비율로하니 너무 커진다. 소득이 600만원 이상인 경우는 많이 없기에 모두 묶어줬다. 비율로 높이를 삼으니 블록의 면적이 확 커진다는 걸 알 수 있다. 이번에는 아래 그림을 보자. 이 그림은 잘 나타낸 그림이다. 우선 계급구간별로 비율을 폭으로 나누어 해당 블록의 높이로 삼는다. 블록 면적이 해당 계급구간에 속한 자료의 비율을 나타낸다. 이 그림.. 2025. 4. 24. 이전 1 2 3 4 ··· 22 다음