Chap 26. 다층 구조방정식 모델링

안녕하세요?
이번에는 교육 데이터의 복잡한 계층 구조를 가장 정교하게 분석할 수 있는 틀인 다층 구조방정식 모델링(Multilevel Structural Equation Modeling, 이하 MSEM)에 대해 살펴보겠습니다.

학교 현장에서 수집되는 데이터는 대부분 ‘학생’이 ‘학급’이나 ‘학교’에 속해 있는 위계적 구조(Hierarchical structure)를 가집니다. 이러한 데이터를 일반적인 회귀분석으로 돌리면 “관측치의 독립성” 가정이 깨져 결과가 왜곡됩니다. 이번엔 왜 MSEM이 필요한지, 그리고 어떻게 실제 데이터에 적용하는지 심도 있게 다뤄보겠습니다.

1. 왜 다층 구조방정식(MSEM)인가?

1.1 전통적 분석의 한계

전통적인 단일 수준(Single-level) 분석은 모든 학생이 서로 독립적이라고 가정합니다. 하지만 같은 학교에 다니는 학생들은 비슷한 교육 환경과 교사의 영향을 공유하므로 서로 닮아 있기 마련입니다. 이 ‘유사성’을 무시하면 표준오차가 과소추정되어, 실제로는 유의하지 않은 결과가 통계적으로 유의하게 나오는 제1종 오류를 범할 가능성이 커집니다.

1.2 MLM과 MSEM의 차이

흔히 사용하는 다층 모형(MLM)은 주로 관측 변수 간의 회귀 관계에 집중합니다. 반면 MSEM은 다음과 같은 독보적인 장점을 가집니다:

잠재 변수(Latent Variables) 활용: 직접 측정할 수 없는 ‘학업 자기효능감’이나 ‘학교 풍토’ 같은 개념을 측정 오차를 제거한 상태로 분석할 수 있습니다.
동시 추정: 여러 개의 종속 변수나 매개 경로를 한 번에 분석할 수 있습니다.
다양한 데이터 구조 대응: 횡단 데이터뿐만 아니라 반복 측정된 종단 데이터, 교차 분류 데이터 등에도 유연하게 적용됩니다.

2. 기본 원리와 수식의 이해

MSEM의 핵심은 전체 분산을 집단 내(Within-group) 분산과 집단 간(Between-group) 분산으로 완전히 분리하는 것입니다.

2.1 공분산 구조의 분해

개별 학생 $i$ 가 속한 학교 $j$ 의 관측치 $y_{ij}$ 에 대한 공분산 구조는 다음과 같이 표현됩니다.

$\Sigma_{T} = \Sigma_{W} + \Sigma_{B}$

여기서 $\Sigma_{W}$ 는 학생 수준의 차이를, $\Sigma_{B}$ 는 학교 수준의 차이를 의미합니다.

2.2 측정 모델 (MCFA)

다층 확인적 요인분석(MCFA)에서는 각 수준에서 고유한 요인 부하량( $\Lambda$ ), 요인 분산( $\Psi$ ), 잔차( $\Theta$ )를 가집니다.

$\Sigma_{T} = \Lambda_{B}\Psi_{B}\Lambda_{B}^{\prime} + \Lambda_{W}\Psi_{W}\Lambda_{W}^{\prime} + \Theta_{B} + \Theta_{W}$

3. 실전 사례: 학생의 자기효능감과 학교 생활 만족도

이해를 돕기 위해 가상의 교육 연구 시나리오를 만들어 보겠습니다.

연구 시나리오

대상: 100개 중학교에 재학 중인 학생 2,000명 (학교당 평균 20명).

측정 변수:

학업 자기효능감(SelfEfficacy): 문항 1, 2, 3 (잠재변수)

학교 생활 만족도(Satisfaction): 문항 4, 5, 6 (잠재변수)

연구 질문: 학생 개인의 자기효능감이 만족도에 미치는 영향은 어떠한가? 또한, 학교 전체의 평균적인 자기효능감 수준이 학교의 평균 만족도에 영향을 주는가?

3.1 모의 자료 생성 (R 코드)

jamovi의 SEMLj 모듈은 내부적으로 R의 lavaan 패키지를 사용합니다. 정교한 다층 분석을 위해 R 코드를 활용해 데이터를 생성하고 분석해 보겠습니다.

# 필요한 패키지 로드
library(lavaan)

# 1. 데이터 생성 (100개 학교, 학교당 20명)
set.seed(123)
n_schools <- 100
n_students_per_school <- 20
N <- n_schools * n_students_per_school

school_id <- rep(1:n_schools, each = n_students_per_school)

# 잠재 변수 생성 (Within & Between)
eta_W_eff <- rnorm(N)
eta_W_sat <- 0.6 * eta_W_eff + rnorm(N, sd = 0.8)

eta_B_eff <- rep(rnorm(n_schools, sd = 0.5), each = n_students_per_school)
eta_B_sat <- rep(0.8 * unique(eta_B_eff) + rnorm(n_schools, sd = 0.3), each = n_students_per_school)

# 문항 생성 (측정 오차 포함)
y1 <- 1.0 * (eta_W_eff + eta_B_eff) + rnorm(N, sd = 0.5)
y2 <- 0.9 * (eta_W_eff + eta_B_eff) + rnorm(N, sd = 0.5)
y3 <- 0.8 * (eta_W_eff + eta_B_eff) + rnorm(N, sd = 0.5)
y4 <- 1.0 * (eta_W_sat + eta_B_sat) + rnorm(N, sd = 0.5)
y5 <- 1.1 * (eta_W_sat + eta_B_sat) + rnorm(N, sd = 0.5)
y6 <- 0.9 * (eta_W_sat + eta_B_sat) + rnorm(N, sd = 0.5)

edu_data <- data.frame(school_id, y1, y2, y3, y4, y5, y6)

chap26 다운로드

4. 단계별 분석 모델 구성

모델 1: 단일 수준 분석 (Naive Analysis)

학교 구조를 무시하고 분석하는 방식입니다. 문항들이 잠재 변수를 잘 측정하는지 초기 확인 용도로 사용하지만, 추정치는 편향될 수 있습니다.

모델 2: 집단 내 요인 모델 (Within-Group Factors)

학교 간 차이를 통제하고 학생 개인 수준의 구조만 파악합니다. 학교 간 분산은 포화 모델(Saturated model)로 처리하여 학생 수준의 추정치를 정교화합니다.

모델 3: 다층 구성적 요인 모델 (Configural Factor Model)

가장 권장되는 모델로, 학생 수준과 학교 수준 모두에서 요인 구조를 설정합니다. 특히 요인 부하량( $\lambda$ )을 수준 간에 동일하게 제약(Invariance)하면, 두 수준의 잠재 변수가 동일한 개념적 의미를 갖는다고 해석할 수 있습니다.

5. MSEM 매개 효과 분석 (2-1-1 모델)

교육 연구에서 매우 중요한 2-1-1 매개 모델을 살펴봅시다. 예를 들어, 학교의 예산 지원(Level 2)이 학생의 자기효능감(Level 1)을 매개로 학생의 성취도(Level 1)에 영향을 주는 경우입니다.

장점: 전통적인 MLM은 상위 수준의 변수가 하위 수준의 결과에 미치는 복잡한 매개 경로를 평가하는 데 한계가 있지만, MSEM은 이를 편향 없이 추정해냅니다.
측정 오차 통제: 관측 변수의 합산 점수가 아닌 잠재 변수를 사용하므로 매개 효과 추정치가 더 정확합니다.

6. 결과 해석 및 적합도 평가

MSEM 분석 결과는 다음 지표들을 통해 종합적으로 판단합니다:

6.1 모델 적합도 (Model Fit)

전체 적합도: CFI, RMSEA, SRMR 등을 확인합니다. 단, 샘플 사이즈가 큰 학생 수준의 정보에 의해 지표가 왜곡될 수 있음을 주의해야 합니다.
수준별 적합도: 최근에는 집단 내(Within)와 집단 간(Between) 적합도를 분리하여 보고하는 추세입니다.

6.2 잠재 변수의 ICC

측정 문항뿐만 아니라 잠재 변수 자체의 ICC(Intraclass Correlation)를 계산할 수 있습니다. 이는 학교 간 차이에 의해 설명되는 잠재적 특성의 비율을 나타내며, 교육 정책의 효과를 평가하는 핵심 지표가 됩니다.

7. 결론 및 제언

MSEM은 교육 데이터의 복잡성을 있는 그대로 수용하면서도, 측정 오차를 배제한 순수한 개념적 관계를 밝혀낼 수 있는 강력한 도구입니다.

WaurimaL의 한마디:

“통계는 현상의 복잡함을 단순화하는 것이 아니라, 그 복잡함 속에서 질서를 찾는 과정입니다. 학교라는 울타리 속의 아이들을 이해하기 위해 MSEM이라는 안경을 써보시기 바랍니다.”

참고문헌

Asparouhov, T., & Muthén, B. (2010). Bayesian analysis of latent variable models using Mplus. Retrieved from www.statmodel.com/download/bayesadvantages18.pdf.
Heck, R. H., & Reid, T. (2025). Multilevel structural equation modeling. In Handbook of Structural Equation Modeling (Chap. 26, pp. 481-499).
Muthén, B. O. (1994). Multilevel covariance structure analysis. Sociological Methods and Research, 22(3), 376-398.
Preacher, K. J., Zhang, Z., & Zyphur, M. J. (2011). Alternative methods for assessing mediation in multilevel data: The advantages of multilevel SEM. Structural Equation Modeling, 18, 161-182.
Stapleton, L. M., Yang, J. S., & Hancock, G. R. (2016). Construct meaning in multilevel settings. Journal of Educational and Behavioral Statistics, 41(5), 481-520.