기본 개념
- 1단계: PPS 표집 -> 군집이 클수록 표집될 확률이 더 큼
- 2단계: 군집마다 정확하게 동일한 수의 개인이 표집됨 -> 대규모 군집에서의 개인은 표집될 확률이 더 낮음
- 전체: 2단계는 1단계를 보상하므로 모집단에서 각 개인이 표집될 확률은 동일함
절차
-
각 계층(strata)의 표본 크기를 계산함
-
모집단 데이터를 계층으로 분리함. 다음 단계부터는 각 계층에 대해 적용되어야 함
-
주표집 단위(열 A)와 모집단 크기(열 B)를 나열함. 각 군집은 자체 군집 모집단 크기(a)가 있음
-
모집단 크기의 누적 합계를 계산함(열 C). 모집단 총계(b)는 열 C의 마지막에 나타남
-
각 계층에서 표집될 군집 수(d)를 결정함
-
각 군집에서 표집될 개인 수를 결정함(c). 모집단의 모든 개인이 군집 크기에 관계없이 동일한 선택 확률을 갖도록 하려면 각 군집에서 동일한 수의 개인을 표집해야 함
-
표집구간(Sampling Interval)을 구하려면 전체 모집단을 표집할 군집 수로 나눔
-
1과 표집구간 사이의 난수를 선택함. 이것이 무작위 시작(Random Start)임. 표집될 첫 번째 군집은 누적 모집단(C 열)이 포함됨.
[Excel 명령어 = rand () SI]
다음 시리즈를 계산함:
RS;
RS + SI;
RS + 2SI;
….
RS + (d-1) SI.RS + (d-1) * SI. -
선택된 군집은 누적 모집단(열 C)에 항목 8에서 계산된 일련 번호 중 하나가 포함된 군집임. 군집의 모집단 크기에 따라 큰 군집은 두 번 이상 표집될 수 있음. 표집된 군집을 다른 열(열 D)에 표시함
-
표집된 각 군집에 대해 표집될 각 군집의 확률(Prob 1) (열 E)을 계산함
Prob 1 = (a x d) ÷ b
a = 군집 모집단
b = 모집단 총계
d = 군집 수 -
표집된 각각의 군집에 대해 각 군집에서 표집될 각 개인의 확률을 계산함(Prob 2) (열 G).
Prob 2 = c / a
a = 군집 모집단
c = 각 군집에서 표집될 개인 수
모집단에서 표집되는 개인의 전체 기본 가중치를 계산함
기본 가중치(Basic Weight)는 선택의 역확률임
BW = 1 / (prob 1 * prob 2)
예제:
30개의 군집에 20000명의 모집단이라고 가정함
PPS를 사용해 10개의 군집에 3000명의 표본을 산출하고자 함
Prob 1: 각 표본 군집에 대한 선택 확률
Prob 2: 각 표본 군집에서의 개인에 대한 선택 확률
전체 가중치 계산: 모집단에서 각 개인이 선택될 확률의 역
출처: Steps in applying Probability Proportional to Size (PPS) and calculating Basic Probability Weights