통계학/세상에서 가장 쉬운 통계학 입문22 3강 분산과 표준 편차 1. 불규칙한 통계량을 아는 것이 중요평균값은 데이터 분포 중에서 하나의 수를 꺼낸 것에 불과하고 데이터가 그 주변에 어느 정도 퍼져 있는지, 또는 흩어져 있는지 알 수 없다. 가령 평균 소득이 똑같은 나라가 있어도 어떤 나라가 더 훌륭한 나라인지 알 수는 없다. 빈부격차가 심한 나라 일 수도 있고 그렇지 않은 나라 일 수도 있기 때문이다. 버스를 예로 들어 보자. A버스는 도착시간표 보다 2분 늦거나 2분 빨리 오는 버스고, B버스는 10분 늦거나 10분 빨리 오는 버스다. 어느 버스든 도착시간의 평균은 긑은 버스다. 보통 어느 버스를 선택할까? 아마 A버스일 것이다. B버스는 편차가 크기 때문에 타기를 주저하게 된다. 결국 중요한 건 평균값 보다 불규칙한 상태의 통계량이다.2. 버스 도착시간으로 분산.. 2025. 2. 18. 2강 평균값의 역할과 평균값을 이해하는 방법 1. 통계1.1 통계량은 데이터를 요약한 수치도수분포표나 히스토그램은 일상에 널리 쓰이고 요약성이 뛰어난 장점이 있다. 하지만 그래프를 보는 사람이 주관적인 해석이 들어 갈 수 있다는 단점이 있다. 이러면 의사소통에서 어려움이 있다. 두번째 단점은 도수분포표나 히스토그램은 많은 공간을 필요로 한다. 이런 단점들은 극복하기 위해 또 다른 축약 방법이 발명 되었다. 바로 통계량이다. 통계량은 데이터의 어떤 비슷한 특징을 요약하고 싶은가에 따라서 여러 가지 통계량이 개발되었다. 대표적으로 '평균값', '분산', '표준편차'가 있다. 오늘 알아 볼 것은 평균값이다. 2.2평균값은 익히 알던대로 유명하다. 데이터의 합계를 데이터 총 개수로 나눈 값이다. 3. 도수분포표에서 평균값도수분포표에서도 평균값을 계산 .. 2025. 2. 15. 1강 도수분포표와 히스토그램 1. 데이터 자체로는 아무것도 알 수 없기 때문에 통계를 사용 우리는 데이터 세상에 산다. 하지만 데이터를 아무리 들여다 봐도 알 수 있는 정보는 제한 적이다.(아마 여기서 데이터는 전처리 하지 않은 RAW DATA 겠지?) 데이터는 다양한 구치로 분포한다. 데이터가 다양한 수치로 나타나는 것을 전문 용어로 '분포 한다'로 표현한다.데이터가 분포하는 이유는 불확실성 때문이다. 하지만 데이터를 자세히 들여다 보면 나타나 있는 고유한 특징이나 반복이 있다. 이런 고유한 특징이 반복 되는 것을 "분포의 특성"이라 한다. 이런 분포의 특징이나 반복을 이끌어내기 위한 방법이 "통계"라고 한다. 축약은"데이터로 나열된 많은 숫자를 어떤 기준으로 정리해서 의미 있는 정보만 추출" 하는 작업이다. 축약에는 크게 두가.. 2025. 2. 13. 들어가기전 밤에 쓸 예정 2025. 2. 13. 이전 1 2 3 4 다음