오늘 내용은 통계 비전공자로서 60%만 이해해도 성공이라고 생각한다. 이렇게 정리해두면 언젠가는 이해하지 않을까? 여하튼.. 시작!
1. Probability Sample (확률 표본)
- 만약 모집단(Population)의 데이터가 일정 확률분포를 따르는 것으로 알려져 있다면, 표본을 이 확률분포에 기반하여 추출하여야 한다.
- 이러한 확률 분포에 따른 샘플링이 이루어졌을 경우 이에 대한 모집단의 추정(Inference)이 가능하다.
- Step 1) Point Estimate를 계산
- 구하고자 하는 파라미터 (Parameter of interest)에 대하여 편향되지 않은 추정치를 먼저 알아낸다.
- 편향되지 않은 점추정값(Unbiased Point Estimate)이란 점추정치로 가능한 모든 값들에 대한 평균값을 의미한다 (Average of all possible values for point estimate)
- Step 2) 점추정치(Point Estimate)에 대한 표준 편차(Sampling Variance)를 계산한다.
- 평균 추정치에 대한 분산의 제곱근
- Step 1) Point Estimate를 계산
- 확률 표본하에서는 신뢰구간 (Confidence Interval) 개념이 등장한다.
- Best Estimate +- Margin of Error
- Best Estimate : Unbiased Point Estimate
- Margin of Error : "a few" Estimated Standard Errors
- a Few : Multiplier from appropriate distribution based on desired confidence level and sample design
- 95% Confidence Interval = 0.05 Significance
- 95% 신뢰구간이 의미하는 것은? : 95% 정도의 확률로 샘플 값은 모집단의 값 범위 안에 포함된다.
- 즉, 100개의 샘플값이 있으면 그 중 5%는 모집단의 분포/형태에서 상이하다고 말할 수 있을 만큼 포함되지 않는다는 뜻으로도 해석할 수 있을 것 같다.
- Significance를 두고 5%라고 칭하는 것 보면, 그래서 해당 5%에 대해 유의하라는 뜻으로 이해가 가능하다.
- So, Interval이란!! 합리적인 파라미터의 값의 범위라고 말할 수 있다. (Interval = Range of resonable values for parameter)
- 표본 분포(Sampling Distribution)이 정규성을 따른다는 가정하에서 가능하다. 정규성을 따르지 않는다면 다른 어프로치가 필요
- 보통 내가 관심을 두고 있는 A/B 가설 테스팅의 경우 Null Hypothesis를 설정하게되는데, 이러한 유의성에 대한 개념이 중요한 베이스를 이루고 있는 듯 하다. 나중에 더 파봐야지.
- Best Estimate +- Margin of Error
2. Non-Probability Sample (비확률 표본)
- 비확률 기반 샘플링은 사실 뾰족한 방법이 없지만, 알려진 것으로는 크게 두가지 방법이 있다.
- 1. Quasi-Randomization
- 레퍼런스 링크 : EnGeniUS님의 블로그
- 명확하게 이해가 아직 안되는 개념이다. 랜덤 샘플링 같아보이지만 랜덤이 아닌 '가짜 랜덤'? 일단은 적어두고 추후에 이해를 시도하기로..
- 2. Population Modelling
- 1. Quasi-Randomization
- 비확률 표본을 기반으로 모집단에 대한 추정이 이루어지기 위해서는 아래의 두 가지 정보가 필요.
- Leverage other auxiliary informaion (다른 보조 정보)
- Predict Values for Population (모집단에 대한 예측 변수)
* Coursera의 Specialization 과정인 Statistics with Python 중 Understanding and Visualizing Data with Python에 등장하는 내용입니다.
부족한 블로그에 방문해 주셔서 감사합니다.
잘못된 내용 수정 피드백은 댓글로 적어주세요.
감사합니다 :-)
반응형
'기초 튼튼 > 통계기본' 카테고리의 다른 글
[통계기본] Sampling Distributions (표본 분포)와 Central Limit Theorem (중심극한정리) (0) | 2020.08.27 |
---|---|
[통계기본] 다변수 카테고리 데이터 시각화 - Understanding and Visualizing Data with Python (0) | 2020.08.21 |