1. 데이터 자체로는 아무것도 알 수 없기 때문에 통계를 사용
우리는 데이터 세상에 산다. 하지만 데이터를 아무리 들여다 봐도 알 수 있는 정보는 제한 적이다.(아마 여기서 데이터는 전처리 하지 않은 RAW DATA 겠지?) 데이터는 다양한 구치로 분포한다. 데이터가 다양한 수치로 나타나는 것을 전문 용어로 '분포 한다'로 표현한다.
데이터가 분포하는 이유는 불확실성 때문이다. 하지만 데이터를 자세히 들여다 보면 나타나 있는 고유한 특징이나 반복이 있다. 이런 고유한 특징이 반복 되는 것을 "분포의 특성"이라 한다. 이런 분포의 특징이나 반복을 이끌어내기 위한 방법이 "통계"라고 한다. 축약은"데이터로 나열된 많은 숫자를 어떤 기준으로 정리해서 의미 있는 정보만 추출" 하는 작업이다. 축약에는 크게 두가지 방법이 있다
- 그래프로 만들어서 그 특징을 파악할 수 있도록 한다.
- 숫자 하나로 특징을 대표하도록 한다.
이 대표하는 숫자를 "통계량" 이라 한다.
2. 히스토그램 만들기
데이터를 그래프로 만들때 가장 많이 쓰이는 그래프를 "히스토 그램"이라고 한다. 쉬운 말로 "막대그래프". 이를 만드려면 도수분포표가 뭔지 알고 만드는 방법도 알아야 한다.
2-1. 도수 분포표 만들기
1단계
데이터 중 수치가 자장 큰 것과 가장 작은 것을 찾는다.
2단계
최대값부터 최솟값까지 포함되도록 하여 구간을 자르기 좋은 대강의 범위를 만든다. 그 범위 내에서 5~8개 정도의 작은 범위들로 자른다. 이렇게 자른 범위를 "계급" 이라 한다.
3단계
각 계급을 대표하는 수치를 정한다. 보통 중앙값으로 한다. 이것을 계급값이라고 한다.
4단계
각 계급에 들어가 있는 데이터의 총 개수를 센다. 이것을 도수라고 한다.
5단계
각 계급의 도수가 전체에서 차지하는 비율을 계산한다. 이것을 "상대도수"라고 한다.
6단계
어느 계급까지의 도수를 모두 합한다. 이것을 "누적도수"라고 한다. 최종 누적도수는 총 데이터 개수와 같다.
도수분포표를 만들면 데이턴에 나타나 있는 수치들 자체를 잃어버리게 된다. 데이터는 다음과 같은 특징들을 가진다.
1. 데이터는 균등하게 분포하지 않고 어느 한 곳에 집중되어 있다.
2. 데이터가 집중되어 있는 곳을 기점으로 삼으면, 이 기점으로부터 작은 편에 속하든지 큰 편에 속하는 추이를 보인다. 데이터의 분포에는 어느 한 곳을 축으로 좌우 대칭성이있다.
결론 : 우리는 데이터에 잠재되어 있는 특징을 알 수 있다.
'통계학 > 세상에서 가장 쉬운 통계학 입문' 카테고리의 다른 글
5강 표준편차2 (0) | 2025.02.21 |
---|---|
04 강의. 표준편차 (0) | 2025.02.19 |
3강 분산과 표준 편차 (0) | 2025.02.18 |
2강 평균값의 역할과 평균값을 이해하는 방법 (0) | 2025.02.15 |
들어가기전 (0) | 2025.02.13 |