본문 바로가기

전체 글

(40)
[통계기본] Probability/Non-Probability Sample (확률표본/비확률표본) 오늘 내용은 통계 비전공자로서 60%만 이해해도 성공이라고 생각한다. 이렇게 정리해두면 언젠가는 이해하지 않을까? 여하튼.. 시작! 1. Probability Sample (확률 표본) 만약 모집단(Population)의 데이터가 일정 확률분포를 따르는 것으로 알려져 있다면, 표본을 이 확률분포에 기반하여 추출하여야 한다. 이러한 확률 분포에 따른 샘플링이 이루어졌을 경우 이에 대한 모집단의 추정(Inference)이 가능하다. Step 1) Point Estimate를 계산 구하고자 하는 파라미터 (Parameter of interest)에 대하여 편향되지 않은 추정치를 먼저 알아낸다. 편향되지 않은 점추정값(Unbiased Point Estimate)이란 점추정치로 가능한 모든 값들에 대한 평균값을 ..
[통계기본] Sampling Distributions (표본 분포)와 Central Limit Theorem (중심극한정리) 1. 표본 분포 모집단(Population)으로 부터 많은 수의 표본집단(n)을 추출한다고 가정하여 나오는 표본샘플의 값들의 분포 추정값(Estimates) Hypothetical 이라는 점을 명심해야한다! 정말 많은 수의 표본을 추출하게 되었을 때, 추정값은 정규분포(Normal Distribution) 처럼 보이게 된다. 이에 대한 정리가 중심극한정리 2. 중심극한 정리 (CLT, Central Limit Theorem) 모집단의 평균을 m, 표준편차를 σ라고 했을 때 모집단으로 부터 추출된 표본의 크기가 충분히 크다고 가정한다면 표본으로 부터 모집단의 평균을 추정할 수 있다는 명제의 기반이 되어주는 정리 https://drhongdatanote.tistory.com/57 [개념 통계] 중심극한 정리..
[통계기본] 다변수 카테고리 데이터 시각화 - Understanding and Visualizing Data with Python 1. 변수의 갯수에 따른 용어 변수의 갯수를 나타내는 용어로 Bivariate, Univariate, Multivariate 용어가 있음 Bivariate은 변수가 2개라는 뜻으로, 대등한 변수가 2개가 있을 때 사용하는 개념 Univariate는 변수가 여러개인 것을 가리키며, 그 중에서도 독립변수가 여러개일 때를 지칭하는 개념 Multivariate는 변수가 여러개인 것을 가리키지만, 독립변수(들)에 대한 종속변수가 여러개 있을 때를 가리키는 개념 이러한 변수 종류별로, 한 눈에 데이터가 어떻게 생겼는지 이해하기 위해 시각화를 하는 여러가지 방법들이 있음 참고한 블로그 : https://blog.naver.com/anypager71/221727635687 2. 시각화의 종류 변수가 하나일 때와는 다르..