카테고리 보관물: 교육통계

교육통계

HLM vs R(lme4)

HLM 프로그램과 R의 lme4 패키지를 결과 신뢰도(추정 정확성, 표준오차 계산, 가정 검토 기능)까지 포함하여 비교해 보겠습니다.


1. HLM 프로그램 vs. R의 lme4 패키지 비교

비교 항목 HLM 프로그램 R의 lme4 패키지
가격 ❌ 유료 ✅ 무료
GUI 지원 ✅ 있음 (쉽게 사용 가능) ❌ 없음 (코딩 필요)
PVs(확률값) 자동 처리 ✅ 가능 (Rubin’s Rule 자동 적용) ❌ 직접 계산 필요
HLM (다층 선형 모델) 분석 ✅ 최적화됨 ✅ 가능
GLMM (로지스틱/포아송 등) ✅ 지원 (HGLM) ✅ 지원 (GLMM)
베이지안 HLM 분석 ❌ 불가능 ✅ 가능 (brms, rstanarm 사용)
대규모 데이터 처리 속도 ❌ 상대적으로 느림 ✅ 빠름 (C++ 기반 최적화)
데이터 전처리 ❌ 제한적 (외부 프로그램 필요) ✅ R 패키지 (dplyr, tidyr 등)과 연계 가능
시각화 ❌ 기본 제공 없음 ggplot2, sjPlot 등으로 가능
표준오차 계산 방식 ✅ 일반적인 방법 사용 ✅ 기본 제공 (lmerTest로 추가 가능)
신뢰구간 계산 ✅ 기본 제공 ✅ 기본 제공 (confint 함수 활용)
PVs(확률값) 신뢰도 계산 ✅ Rubin’s Rule 자동 적용 ❌ 별도 수작업 필요
랜덤 효과 신뢰도 검토 (ICCs 등) ✅ 자동 계산 ✅ 직접 계산 필요
모델 가정 검토 기능 (잔차 분석 등) ❌ 제한적 ✅ 잔차 플롯, Q-Q 플롯 등 가능 (DHARMa, performance 패키지 활용)

2. 결과 신뢰도 측면에서의 비교

분석 결과의 신뢰도를 판단할 때 중요한 요소들을 고려해 보겠습니다.

① 신뢰도 높은 추정치 제공 여부

  • HLM 프로그램

    • 최대우도 추정(MLE) 또는 제한된 최대우도 추정(REML) 사용.
    • PVs(확률값) 사용 시 Rubin’s Rule을 자동 적용하여 신뢰도 높은 결과 제공.
    • 다층적 구조를 고려한 적절한 표준오차 계산 가능.
  • R의 lme4 패키지

    • 기본적으로 REML 방식을 사용하며, MLE로 변경 가능 (REML = FALSE 옵션).
    • PVs(확률값)를 사용할 경우 직접 반복 분석 후 Rubin’s Rule을 적용해야 함.
    • 표준오차 계산은 lmerTest 패키지를 추가하면 더욱 정확한 결과 제공 가능.

➡ HLM 프로그램이 PVs 자동 처리가 가능하기 때문에, 확률값을 활용한 연구에서는 HLM의 신뢰도가 더 높을 수 있음. 하지만 PVs를 사용하지 않는다면 lme4도 높은 신뢰도를 제공할 수 있음.


② 모델 가정 검토 기능

  • HLM 프로그램

    • 기본적으로 잔차 분석 및 가정 검토 기능이 제한적이며, 잔차 플롯 같은 시각적 분석 도구가 부족함.
    • 정규성 가정 검토 등을 위해서는 SPSS, R 등의 추가 프로그램을 활용해야 함.
  • R의 lme4 패키지

    • performance, DHARMa 같은 패키지를 활용하면 잔차 플롯, Q-Q 플롯, 이상치 탐색 등 모델 진단 기능을 수행 가능.
    • 랜덤 효과(ICC) 신뢰도 분석을 쉽게 수행할 수 있음 (performance::icc() 등 활용).

➡ 모델 가정 검토 기능 측면에서는 R의 lme4가 훨씬 강력함. 특히 잔차 분석을 통해 정규성 가정 위반 여부를 확인하는 것이 가능하여, 연구 신뢰도를 높일 수 있음.


③ 표준오차 및 신뢰구간 계산

  • HLM 프로그램

    • 기본적으로 표준오차(SE)와 신뢰구간(CI) 제공.
    • PVs 사용 시 Rubin’s Rule 자동 적용.
  • R의 lme4 패키지

    • confint() 함수로 신뢰구간(CI) 계산 가능.
    • lmerTest 패키지를 추가하면 더 정확한 표준오차 및 p-value 제공 가능.

➡ 두 프로그램 모두 표준오차 및 신뢰구간을 계산할 수 있지만, R의 lme4는 추가 패키지를 활용해야 더욱 신뢰도 높은 결과를 얻을 수 있음.


3. 결론: 어떤 경우에 더 적합할까?

분석 목적 HLM 프로그램 R의 lme4 패키지
GUI 환경에서 쉽게 HLM 분석 ✅ 가능 ❌ 불가능 (코딩 필요)
PVs(확률값) 자동 분석 ✅ 지원 ❌ 직접 반복 분석 후 Rubin’s Rule 적용 필요
HLM 분석 정확도 ✅ 매우 정확함 ✅ 표준오차 보정 시 정확
대규모 데이터 처리 속도 ❌ 다소 느림 ✅ 빠름
GLMM (로지스틱/포아송 등) 분석 ✅ 가능 ✅ 가능
베이지안 분석 ❌ 지원 안 됨 brms 패키지 활용 가능
잔차 분석 및 가정 검토 ❌ 제한적 (기본 제공 안 됨) DHARMa 패키지 활용 가능
랜덤 효과 신뢰도 검토 (ICC 등) ✅ 자동 계산 performance 패키지 활용 가능

📝 최종 추천

HLM 프로그램이 더 적합한 경우

  • PVs(확률값)를 사용해야 하는 연구
  • GUI 환경에서 쉽게 HLM 분석을 수행하고 싶은 경우
  • 교육 및 사회과학 연구에서 학교-반-학생 같은 계층적 데이터를 다루는 경우

R의 lme4 패키지가 더 적합한 경우

  • 오픈소스 및 무료 소프트웨어를 사용하고 싶은 경우
  • 베이지안 HLM 분석이 필요한 경우 (brms 활용)
  • 잔차 분석, 이상치 탐색 등 모델 검토 기능이 필요한 경우
  • 대규모 데이터를 빠르게 분석해야 하는 경우

최종 결론: 연구 목적에 따라 선택해야 한다!

  • PVs(확률값)를 자동으로 처리하고 싶은 경우 → HLM 프로그램 추천
  • 모델 가정 검토(잔차 분석, Q-Q 플롯 등)를 철저히 하고 싶다면 → R의 lme4 패키지 추천
  • 무료 & 확장성 높은 분석 환경이 필요하다면 → R의 lme4 패키지 추천

💡 가장 좋은 방법은 HLM 프로그램과 lme4 패키지를 함께 사용하여 분석의 신뢰도를 높이는 것입니다. 😊

보조 변수(Auxiliary Variables)

보조 변수(Auxiliary Variables)는 주로 구조 방정식 모델링(SEM)이나 회귀 분석과 같은 통계 분석에서 결측 데이터를 다루기 위해 사용되는 변수입니다. 이러한 변수는 연구의 주요 관심사가 되는 변수는 아니지만, 결측 데이터를 처리하는 과정에서 중요한 역할을 할 수 있습니다.

보조 변수의 역할
보조 변수는 주로 결측 데이터의 패턴을 설명하거나, 결측 데이터가 발생한 이유를 모델링하는 데 사용됩니다. SEM에서 보조 변수를 사용하면, 다음과 같은 이점이 있습니다:

  • 결측 데이터 처리의 향상: 결측 데이터를 더 잘 설명하고, 그로 인해 발생할 수 있는 편향을 줄이는 데 도움을 줍니다. 보조 변수가 결측의 원인과 관련이 있으면, 결측 데이터의 무작위성을 가정하지 않아도 되는 경우가 많습니다.

  • 모델의 정확성 향상: 보조 변수를 포함하면 결측 데이터를 보충하는 데 더 많은 정보를 사용할 수 있어, 결과적으로 모델 추정치의 정확성이 향상될 수 있습니다.

  • 편향 줄이기: 결측 데이터가 발생할 가능성이 있는 이유를 보조 변수가 설명할 수 있다면, 이 변수들을 포함함으로써 결측 데이터로 인한 편향을 줄일 수 있습니다.

예시
예를 들어, 설문 조사에서 특정 질문에 대한 응답이 누락된 경우, 응답자의 인구통계학적 특성(예: 나이, 성별, 교육 수준)이 보조 변수로 사용될 수 있습니다. 이러한 변수들은 결측 데이터가 발생한 이유를 설명할 수 있으며, 따라서 결측 데이터를 보다 정확하게 처리하는 데 기여할 수 있습니다.

또 다른 예로는, 의료 연구에서 환자의 특정 바이탈 사인이나 생체 신호가 측정되지 않은 경우, 그 환자의 다른 건강 상태나 치료 기록이 보조 변수로 사용될 수 있습니다. 이러한 보조 변수는 결측 데이터를 보완하고, 분석의 정확성을 높이는 데 도움이 됩니다.

보조 변수의 선택
보조 변수를 선택할 때 중요한 점은 해당 변수가 결측 데이터와 밀접한 관련이 있어야 한다는 것입니다. 이는 보조 변수가 결측 데이터를 더 잘 설명하고, 모델의 추정치에 긍정적인 영향을 미치도록 하기 위해서입니다. 단순히 사용 가능한 모든 변수를 보조 변수로 사용하는 것이 아니라, 결측과 관련성이 높은 변수를 신중히 선택해야 합니다.

결론
보조 변수는 SEM 및 기타 통계 모델에서 결측 데이터를 보다 효과적으로 처리하는 중요한 도구입니다. 올바른 보조 변수를 사용하면 결측 데이터로 인한 편향을 줄이고, 모델의 정확성을 향상시킬 수 있습니다. 따라서 보조 변수를 잘 선택하고 적절히 사용하는 것이 중요합니다.

성향점수 추정 시 사용해야 할 변수

성향점수 추정 시 사용해야 할 변수

출처:
백영민, 박인서(2021). R 기반 성향점수분석: 루빈 인과모형 기반 인과추론. 한나래 아카데미.
Leite, W. (2016). Practical propensity score methods using R. Sage Publications.

  • 원인처치 배치과정과 결과변수 모두와 상관관계가 있는 공변량 변수들은 모두 포함시킴
  • 원인처치 배치과정과 결과변수 모두와 상관관계가 있더라도 처치효과를 매개하는 매개변수는 배제함
  • 원인처치 배치과정과는 무관하지만 결과변수와 상관관계가 있는 결과변수 예측변수는 포함시킴
  • 연구표본이 충분하지 않은 경우, 원인처치 배치과정과 상관관계를 갖지만 결과변수와는 무관한 원인변수 예측변수는 배제함

공변량(confounding Variables)
출처: https://www.practicalpropensityscore.com/uploads/9/4/5/3/94532409/slide7_orig.jpg

Rubin’s Rule

Rubin's rule은 여러 개의 대체적(imputed) 데이터셋에서 추정된 계수를 결합하는 방법입니다.

PISA 데이터에서는 응답자의 능력치를 직접 관측할 수 없기 때문에, 능력모수의 사후분포를 이용해 무작위로 생성된 여러 개의 plausible value(PV1READ, PV2READ 등)를 제공합니다. 각 유의측정값을 개별 데이터셋으로 간주하고 분석한 후, 그 결과를 하나로 결합해야 합니다.

Rubin's rule은 이렇게 여러 대체 데이터셋에서 얻은 계수를 결합하는 규칙입니다. 구체적인 계산법은 다음과 같습니다.

  • 최종 계수 추정치 = 각 데이터셋 계수의 평균
  • 합성 표준오차 = sqrt((각 데이터셋 표준오차의 평균)^2 + (1+1/m)*B)
    여기서 m은 데이터셋 수, B는 각 데이터셋 계수의 분산

이렇게 하면 여러 측정유의값을 고려하여 최종 계수와 정확한 표준오차를 구할 수 있습니다.

가중치

모집단에서 성별 비율이 남자 6 : 여자 4인 경우를 예로 들어 설명해볼게요. 여기서 모집단이란, 우리가 관심을 가지고 연구하거나 조사하고자 하는 그룹 전체를 말해요. 이 경우는 남자와 여자로 구성된 그룹이에요.

상상해 보세요, 우리가 이 모집단에서 몇 명을 무작위로 선택해서 조사를 한다고 할게요. 우리의 목표는 이 작은 그룹(샘플)을 통해 전체 모집단에 대한 정보를 얻는 거예요. 그런데 매우 중요한 포인트가 있어요. 우리가 선택한 이 작은 그룹이 모집단의 성별 비율을 잘 반영해야 한다는 거예요. 즉, 조사 대상인 샘플 그룹에도 남자가 60%, 여자가 40%가 되어야 한다는 것이죠.

예를 들어, 우리가 조사할 샘플 그룹으로 100명을 선택한다면, 남자는 60명(100명의 60%), 여자는 40명(100명의 40%)이 선택되어야 모집단의 성별 비율이 정확하게 반영된 것으로 볼 수 있어요.

하지만 현실에서는 항상 완벽한 비율로 샘플을 뽑기가 어려울 수 있어요. 그래서 여기서 '가중치'가 등장하는 거예요. 만약 우연히 여자가 더 많이 선택되어서 남자 50명, 여자 50명이 된다면, 우리는 여자에게 더 낮은 가중치를, 남자에게는 더 높은 가중치를 줘서 모집단에서의 실제 비율을 반영하도록 조정할 수 있어요.

예를 들어 남자의 가중치를 1.2 (60명이 되어야 하는데 50명이라면, 50 X 1.2 = 60), 여자의 가중치를 0.8 (40명이 되어야 하는데 50명이라면, 50 X 0.8 = 40)으로 설정할 수 있어요. 이렇게 가중치를 조정함으로써, 우리의 조사 결과가 전체 모집단을 더 잘 대표하도록 할 수 있는 거예요.

이처럼 가중치를 사용함으로써 조사나 연구 결과가 진짜 모집단을 정확하게 반영하도록 하는 게 매우 중요해요. 이를 통해 우리가 얻는 정보가 더 유용하고 신뢰할 수 있게 돼요!

규모비례확률표집 적용과 기본 확률 가중치 계산 단계

기본 개념

  • 1단계: PPS 표집 -> 군집이 클수록 표집될 확률이 더 큼
  • 2단계: 군집마다 정확하게 동일한 수의 개인이 표집됨 -> 대규모 군집에서의 개인은 표집될 확률이 더 낮음
  • 전체: 2단계는 1단계를 보상하므로 모집단에서 각 개인이 표집될 확률은 동일함

절차

  1. 각 계층(strata)의 표본 크기를 계산함

  2. 모집단 데이터를 계층으로 분리함. 다음 단계부터는 각 계층에 대해 적용되어야 함

  3. 주표집 단위(열 A)와 모집단 크기(열 B)를 나열함. 각 군집은 자체 군집 모집단 크기(a)가 있음

  4. 모집단 크기의 누적 합계를 계산함(열 C). 모집단 총계(b)는 열 C의 마지막에 나타남

  5. 각 계층에서 표집될 군집 수(d)를 결정함

  6. 각 군집에서 표집될 개인 수를 결정함(c). 모집단의 모든 개인이 군집 크기에 관계없이 동일한 선택 확률을 갖도록 하려면 각 군집에서 동일한 수의 개인을 표집해야 함

  7. 표집구간(Sampling Interval)을 구하려면 전체 모집단을 표집할 군집 수로 나눔

  8. 1과 표집구간 사이의 난수를 선택함. 이것이 무작위 시작(Random Start)임. 표집될 첫 번째 군집은 누적 모집단(C 열)이 포함됨.

    [Excel 명령어 = rand () SI]
    다음 시리즈를 계산함:
    RS;
    RS + SI;
    RS + 2SI;
    ….
    RS + (d-1)
    SI.RS + (d-1) * SI.

  9. 선택된 군집은 누적 모집단(열 C)에 항목 8에서 계산된 일련 번호 중 하나가 포함된 군집임. 군집의 모집단 크기에 따라 큰 군집은 두 번 이상 표집될 수 있음. 표집된 군집을 다른 열(열 D)에 표시함

  10. 표집된 각 군집에 대해 표집될 각 군집의 확률(Prob 1) (열 E)을 계산함

    Prob 1 = (a x d) ÷ b
    a = 군집 모집단
    b = 모집단 총계
    d = 군집 수

  11. 표집된 각각의 군집에 대해 각 군집에서 표집될 각 개인의 확률을 계산함(Prob 2) (열 G).

    Prob 2 = c / a
    a = 군집 모집단
    c = 각 군집에서 표집될 개인 수
    모집단에서 표집되는 개인의 전체 기본 가중치를 계산함
    기본 가중치(Basic Weight)는 선택의 역확률임
    BW = 1 / (prob 1 * prob 2)

예제:
30개의 군집에 20000명의 모집단이라고 가정함
PPS를 사용해 10개의 군집에 3000명의 표본을 산출하고자 함
Prob 1: 각 표본 군집에 대한 선택 확률
Prob 2: 각 표본 군집에서의 개인에 대한 선택 확률
전체 가중치 계산: 모집단에서 각 개인이 선택될 확률의 역

출처: Steps in applying Probability Proportional to Size (PPS) and calculating Basic Probability Weights

CHECKLIST FOR SEM

SEM 연구를 발표할 때 유용한 일반적 제안

  1. Provide a review of literature that supports your theoretical model.
  2. Provide information about the software program used along with the version.
  3. Indicate the type of SEM model analysis.
  4. Include correlation matrix, sample size, means, and standard deviations of
    variables.
  5. Include a diagram of your theoretical model.
  6. Describe issues concerning normality and missing data.
  7. For interpretation of results, indicate estimation procedure used and why:
    describe fit indices used and why; include power and sample size determination.
  8. Provide unstandardized parameter estimates with corresponding standard
    errors as well as standardized parameter estimates.
  • Basic Issues

    1. Is sample size sufficient (power, effect size)?
    2. Have you addressed missing data (MCAR, MAR, etc.)?
    3. Have you addressed normality, outliers, linearity, restriction of range?
    4. Are you using the correct covariance matrix?
    5. Have you selected the correct estimation method?
    6. Is the theoretical model identified (df = 0 or greater)?
  • Analysis Issues

    1. Have you reported the correct fit indices?
    2. Have you provided unstandardized estimates (with corresponding standard
      errors) and standardized estimates?
    3. Have you scaled the latent factors appropriately?
    4. Have you justified any model modifications (e.g., adding error covariances)?
    5. Have you cross- validated the model (assuming sufficient sample size)?
    6. Have you diagrammed the model and/ or provided estimates in the diagram?