1. 변수의 갯수에 따른 용어
- 변수의 갯수를 나타내는 용어로 Bivariate, Univariate, Multivariate 용어가 있음
- Bivariate은 변수가 2개라는 뜻으로, 대등한 변수가 2개가 있을 때 사용하는 개념
- Univariate는 변수가 여러개인 것을 가리키며, 그 중에서도 독립변수가 여러개일 때를 지칭하는 개념
- Multivariate는 변수가 여러개인 것을 가리키지만, 독립변수(들)에 대한 종속변수가 여러개 있을 때를 가리키는 개념
- 이러한 변수 종류별로, 한 눈에 데이터가 어떻게 생겼는지 이해하기 위해 시각화를 하는 여러가지 방법들이 있음
- 참고한 블로그 : https://blog.naver.com/anypager71/221727635687
2. 시각화의 종류
- 변수가 하나일 때와는 다르게, 변수가 많아질 수록 변수간의 관계(Association)를 보다 쉽게 보여주는 시각화가 중요
- 도표를 표현할 때, Two-way or Contingency Tables를 통해 관계를 표현하기도 함 (변수간 관계, 비율 등을 한눈에 파악하기가 용이)
- 다변량의 변수를 시각화하는 차트에는 아래와 같은 차트들이 있음
- Barchart
- Bar형태로 표현한 그래프, 히스토그램등을 표현
- 변수가 하나 일 때는 표현하기가 용이하나, 변수가 많아질 수록 표현하기가 어려워지는 측면이 있음 - Side-by-Side bar Charts
- 변수가 여러개일 때, 각 변수간의 비교가 용이하게 만들어진 그래프
- 절대값으로는 비교가 어렵기 때문에, 비율(Portion)을 통해 각 변량간 비교를 하는 것이 일반적
3. Stacked bar charts
- 두 그룹간의 비율(Portion) 비교를 용이하도록 해주는 그래프
4. Mosaic Plots
- 여러 그룹간의 비율(Portion) 비교를 용이하도록 해주는 그래프
- 한 눈에 해당 데이터의 그림을 파악하도록 해주는 데에 용이
* Coursera의 Specialization 과정인 Statistics with Python 중 Understanding and Visualizing Data with Python에 등장하는 내용을 정리하고 있습니다
부족한 블로그에 방문해 주셔서 감사합니다.
잘못된 내용 수정 피드백은 댓글로 적어주세요.
감사합니다 :-)
반응형
'기초 튼튼 > 통계기본' 카테고리의 다른 글
[통계기본] Probability/Non-Probability Sample (확률표본/비확률표본) (0) | 2020.08.29 |
---|---|
[통계기본] Sampling Distributions (표본 분포)와 Central Limit Theorem (중심극한정리) (0) | 2020.08.27 |