데이터 분석에서 시각화는 필수요건. 아래는 베이브 루스의 연도별 홈런수를 보여준다. 25시즌은 베이브 루스가 부상으로 큰 큰 활약을 보이지 못했다. 그나마도 20개가 넘는 홈런이니 정말 뛰어난 선수다. 이런 그림을 보면 가로축이 뭔가 세로축이 뭔지 파악하자. 가로축은 시즌이고 세로축은 홈런 수 이다. 아래 그림을 시계열 그림이다.
그림에서 홈런 40-50개 사이에 특별한 표시를 했다. 베이브루스는 7시즌을 40개가 넘는 홈런을 쳤다. 즉 베이브루스는 홈런을 40개 넘게 치는 선수라고 볼수있다. 그림을 다르게 표현 할 수도 있다. 세로축 구간별로 자료의 개수를 세면 다음과 같이 표현할 수 있다. 아래 그림을 줄기-잎 그림이라고 한다. 줄기는 10의 자리수를 나타내고 잎은 1의 자리수를 나타난다.
이런 그림을 세로로 세우면 어떻게 될까? 눈치 빠른 사람은 알겠지만 히스토그램이 된다.
히스토그램은 통계 그림중 가장 유용하고 유의미한 그림이라고 생각한다. 우린 저 그림으로 편차를 알 수 있고. 홈런을 대략 얼마나 많이 칠 수 있을지 안다. 앞서 배운 책에서 베이브 루스는 홈런을 40개 때리는 선수로 추정도 가능하다. 저 중에서 하나 찍어서 숫자를 맞추면 40이 가장 유리하다.
아래 그림은 겹-줄기-잎 그림이다. 마크 맥과이어와 베이브 루스를 비교한 겹-줄기-잎 그림이다. 마크 맥과이어의 홈런수는 베이브루스보다 편차가 크다. 대신 최대 홈런 갯수도 크다. 반면 베이브 루스는 안정적으로 홈런 40개를 쳐주는 선수다. 내가 단장이라면 어떤 선수를 영입할까? 뭐든 일장일단이 있다. 여기서 중요한 점은 어떤 데이터든 이런식으로 비교가 용이하다.
아래는 파이차트. 왜 3D로 한걸까? 아무튼 파이차트는 상대비율을 알기 유용하다.
'통계학 > 경제통계학 1부 : 그림과 수치를 이용한 자료의 정리' 카테고리의 다른 글
표준편차와 자유도 (0) | 2025.04.30 |
---|---|
3 - 3. 혼돈요인 통제 : 따로따로 분석하기 (0) | 2025.04.24 |
3 - 2. 히스토그램 그리기 (0) | 2025.04.24 |
종적 자료의 척도와 정리 (0) | 2025.04.23 |
통계란 무엇인가? (1) | 2025.04.23 |