본문 바로가기

기초 튼튼/통계기본

[통계기본] 다변수 카테고리 데이터 시각화 - Understanding and Visualizing Data with Python

 

 


1. 변수의 갯수에 따른 용어

  • 변수의 갯수를 나타내는 용어로 Bivariate, Univariate, Multivariate 용어가 있음
    • Bivariate은 변수가 2개라는 뜻으로, 대등한 변수가 2개가 있을 때 사용하는 개념
    • Univariate는 변수가 여러개인 것을 가리키며, 그 중에서도 독립변수가 여러개일 때를 지칭하는 개념
    • Multivariate는 변수가 여러개인 것을 가리키지만, 독립변수(들)에 대한 종속변수가 여러개 있을 때를 가리키는 개념
  • 이러한 변수 종류별로, 한 눈에 데이터가 어떻게 생겼는지 이해하기 위해 시각화를 하는 여러가지 방법들이 있음
  • 참고한 블로그 :  https://blog.naver.com/anypager71/221727635687

 

2. 시각화의 종류

  • 변수가 하나일 때와는 다르게, 변수가 많아질 수록 변수간의 관계(Association)를 보다 쉽게 보여주는 시각화가 중요
  • 도표를 표현할 때, Two-way or Contingency Tables를 통해 관계를 표현하기도 함 (변수간 관계, 비율 등을 한눈에 파악하기가 용이)
  • 다변량의 변수를 시각화하는 차트에는 아래와 같은 차트들이 있음
  1. Barchart
    - Bar형태로 표현한 그래프, 히스토그램등을 표현
    - 변수가 하나 일 때는 표현하기가 용이하나, 변수가 많아질 수록 표현하기가 어려워지는 측면이 있음

  2. Side-by-Side bar Charts
    - 변수가 여러개일 때, 각 변수간의 비교가 용이하게 만들어진 그래프
    - 절대값으로는 비교가 어렵기 때문에, 비율(Portion)을 통해 각 변량간 비교를 하는 것이 일반적

Side-by-Side Bar Chart

 

    3. Stacked bar charts
        - 두 그룹간의 비율(Portion) 비교를 용이하도록 해주는 그래프

 

    4. Mosaic Plots

        - 여러 그룹간의 비율(Portion) 비교를 용이하도록 해주는 그래프

        - 한 눈에 해당 데이터의 그림을 파악하도록 해주는 데에 용이

 

 


 

* Coursera의 Specialization 과정인 Statistics with Python 중 Understanding  and Visualizing Data with Python에 등장하는 내용을 정리하고 있습니다


부족한 블로그에 방문해 주셔서 감사합니다.

잘못된 내용 수정 피드백은 댓글로 적어주세요.

감사합니다 :-)

 

 

반응형