Chap 12. 결측치가 있는 구조방정식 처리

안녕하세요?
오늘은 연구자들이 데이터를 분석할 때 가장 빈번하게 마주하지만, 동시에 가장 골치 아픈 문제인 ‘결측치(Missing Data)’를 구조방정식 모델(SEM)에서 어떻게 처리해야 하는지 깊이 있게 다뤄보겠습니다.

단순히 결측치를 삭제하는 과거의 방식에서 벗어나, 현대 통계학의 표준인 완전 정보 최대 우도법(FIML)다중 대치법(MI)을 중심으로 학습해 봅시다. 여러분의 이해를 돕기 위해 교육 현장의 가상 데이터를 활용하여 설명하겠습니다.

1. 결측치 처리의 필요성과 이론적 배경

교육 연구에서 학생들의 설문 데이터나 성적 데이터를 수집하다 보면, 특정 문항에 응답하지 않거나 전학 등으로 인해 데이터가 누락되는 경우가 많습니다. 과거에는 결측치가 있는 사례를 통째로 삭제(Listwise Deletion)하곤 했으나, 이는 표본 크기를 줄여 통계적 검증력을 약화시킬 뿐만 아니라, 특정 집단이 조직적으로 응답을 누락했을 경우 심각한 편향(Bias)을 초래합니다1.

결측치 발생 기제 (Missing Data Processes)

결측치를 처리하기 전, 루빈(Rubin, 1976)이 제안한 세 가지 발생 기제를 이해해야 합니다.

  1. 완전 무작위 결측 (MCAR): 결측이 관찰된 데이터나 관찰되지 않은 데이터와 전혀 상관없이 발생한 경우입니다. (예: 설문지가 단순히 배달 사고로 분실됨)
  2. 무작위 결측 (MAR): 결측이 다른 관찰된 변수와는 상관이 있지만, 결측된 값 자체와는 상관이 없는 경우입니다. 현대적 결측치 처리법의 기본 가정입니다. (예: 기초 학력이 낮은 학생이 학업 중단으로 인해 기말고사 점수가 누락됨)
  3. 비무작위 결측 (MNAR): 결측이 누락된 값 자체와 관련이 있는 경우입니다. (예: 성적이 매우 낮은 학생이 부끄러워서 일부러 성적을 기입하지 않음)

2. 가상 시나리오 및 모의 데이터 생성

강의를 위해 다음과 같은 교육 연구 시나리오를 설정하겠습니다.

연구 주제: 교사의 지지가 학생의 학업 자기효능감을 매개로 학교 행복감에 미치는 영향

  • 독립변수: 교사의 지지 (Teacher Support)
  • 매개변수: 학업 자기효능감 (Self-Efficacy, 3개 문항)
  • 종속변수: 학교 행복감 (School Happiness, 3개 문항)
  • 보조변수(Auxiliary Variable): 부모의 학업 관여도 (Parental Involvement) – 모델에는 없으나 결측치 추정을 돕기 위해 활용

R을 이용한 모의 데이터 생성 스크립트

jamovi에서 불러올 수 있도록 결측치가 포함된 500명의 가상 데이터를 생성합니다.

R

# 필요한 라이브러리
library(MASS)

set.seed(2025)
N <- 500

# 변수 간 상관관계 설정 (교사지지, 효능감1-3, 행복감1-3, 부모관여)
mu <- rep(0, 8)
sigma <- matrix(0.5, 8, 8); diag(sigma) <- 1
data <- mvrnorm(N, mu, sigma)
colnames(data) <- c("T_Sup", "Eff1", "Eff2", "Eff3", "Hap1", "Hap2", "Hap3", "P_Inv")
df <- as.data.frame(data)

# MAR 기제에 의한 결측치 생성: 교사 지지가 낮은 학생일수록 효능감 응답 누락 확률 높음
missing_idx <- which(df$T_Sup < quantile(df$T_Sup, 0.3))
df$Eff1[sample(missing_idx, 50)] <- NA
df$Hap1[sample(1:N, 30)] <- NA # 일부는 MCAR

write.csv(df, "School_Missing_Data.csv", row.names = FALSE)

3. 완전 정보 최대 우도법 (FIML)

완전 정보 최대 우도법(Full-Information Maximum Likelihood)은 관찰된 데이터를 모두 사용하여 로그 우도(Log-likelihood) 함수를 계산하는 방식입니다. 결측치가 있는 사례를 버리지 않고, 관찰된 데이터만을 사용하여 해당 사례의 우도 값을 계산합니다.

jamovi에서의 분석 방법

  1. SEMLj 라이브러리를 설치합니다.
  2. SEMLj 모듈을 실행하고 모델을 설정합니다.
  3. Options 탭에서 Missing values 설정을 FIML로 선택합니다.
    • 참고: jamovi의 기본 SEMLj 엔진인 lavaan은 FIML을 통해 결측치를 효율적으로 처리합니다.

보조 변수(Auxiliary Variables)의 활용

결측치가 MAR 가정에 더 가깝게 부합하도록 하기 위해, 모델에 직접 포함되지 않지만 결측과 관련이 있는 변수(부모 관여도)를 활용할 수 있습니다.

  • 포화 상관 모델 (Saturated Correlates Model): 보조 변수를 모델 내 모든 외생 변수와 상관시키고, 내생 변수의 잔차와 상관시키는 방식입니다.

4. 다중 대체법 (Multiple Imputation, MI)

다중 대체법은 결측치를 단일 값이 아닌 여러 번 추정하여 여러 개의 ‘완성된’ 데이터셋을 만드는 방식입니다.

분석의 3단계

  1. 대체 단계 (Imputation): MCMC 알고리즘 등을 활용하여 결측치가 채워진 MM개(보통 20~100개)의 데이터셋 생성.
  2. 분석 단계 (Analysis): 각 데이터셋에 대해 구조방정식 모델을 독립적으로 분석.
  3. 결합 단계 (Pooling): 루빈의 규칙(Rubin’s Rules)을 적용하여 결과를 하나로 통합.

jamovi/R 구현 (R 기반 설명)

jamovi의 일부 플러그인에서도 MI를 지원하지만, 구조방정식의 경우 R의 mice 패키지와 lavaan을 병행하는 것이 가장 정교합니다.

R

library(mice)
library(lavaan)

# 1. 대치 단계 (20개의 데이터셋 생성)
imp <- mice(df, m = 20, method = 'pmm', seed = 2025)

# 2. 분석 및 결합 단계
model <- '
  Efficacy =~ Eff1 + Eff2 + Eff3
  Happiness =~ Hap1 + Hap2 + Hap3
  Efficacy ~ T_Sup
  Happiness ~ Efficacy + T_Sup
'
fit_mi <- with(imp, sem(model, data = subset(df)))
# pool 결과를 사용하여 최종 추정치 산출

5. 분석 결과의 비교 및 해석

FIML과 MI는 동일한 가정(MAR) 하에서 보통 거의 일치하는 결과를 보여줍니다.

구분FIML (완전 정보 최대 우도)MI (다중 대치법)
장점한 번의 분석으로 완료, 효율적임범주형 데이터 처리에 유연함
단점보조 변수 추가 시 모델이 복잡해짐분석 과정이 번거롭고 시간이 소요됨
적합도모델 적합도 지수 즉시 제공각 세트의 지수를 평균하여 산출

6. 결론 및 제언

교육 연구에서 결측치는 피할 수 없는 현상입니다. 하지만 FIML이나 MI와 같은 현대적인 기법을 사용한다면, 결측치로 인한 편향을 최소화하고 연구의 타당성을 높일 수 있습니다.

  • 데이터가 연속형이고 분석 모델이 명확하다면 FIML을 우선 권장합니다.
  • 변수 중에 범주형 변수가 많거나 비선형 효과를 분석해야 한다면 MI가 더 유리합니다.

구조방정식 모델링 시 “결측치가 있으니 해당 학생을 삭제하겠다”는 생각은 이제 접어두시고, 데이터를 최대한 활용하는 통계적 지혜를 발휘해 보시기 바랍니다.

참고문헌 (APA Style)

  • Arbuckle, J. L. (1996). Full information estimation in the presence of incomplete data. In G. A. Marcoulides & R. E. Schumacker (Eds.), Advanced structural equation modeling (pp. 243–277). Erlbaum.
  • Enders, C. K. (2022). Applied missing data analysis (2nd ed.). Guilford Press.
  • Graham, J. W. (2003). Adding missing-data-relevant variables to FIML-based structural equation models. Structural Equation Modeling: A Multidisciplinary Journal, 10(1), 80–100.
  • Little, R. J. A., & Rubin, D. B. (2020). Statistical analysis with missing data (3rd ed.). Wiley.
  • Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. Wiley.
  • Schafer, J. L. (1997). Analysis of incomplete multivariate data. Chapman & Hall.