Chap 10. 구조방정식 모델 적합도 탐구

안녕하세요!
오늘은 구조방정식 모델링(SEM)의 핵심인 ‘모델 적합도(Model Fit)’에 대해 함께 탐구해 보겠습니다.

구조방정식은 복잡한 교육 현상을 정교하게 분석할 수 있는 강력한 도구이지만, 우리가 세운 가설 모델이 실제 데이터와 얼마나 잘 맞는지를 확인하는 ‘적합도 평가’ 과정을 제대로 이해하지 못하면 잘못된 결론에 도달하기 쉽습니다.

이번 시간에는 교육심리 연구 사례를 바탕으로 모델 적합도의 기초부터 최신 동향까지 상세히 살펴보겠습니다.


1. 모델 적합도란 무엇인가?

우리가 중학생들의 ‘교사 지지’‘학습 참여’를 매개로 ‘학업 성취’에 미치는 영향을 연구한다고 가정해 봅시다. 우리는 다음과 같은 모델 구성 요소를 설정하게 됩니다.

  1. 측정 성분(Measurement Component): 설문 문항(관측 변수)들이 ‘교사 지지’나 ‘학습 참여’라는 잠재 개념을 잘 측정하고 있는가?
  2. 구조 성분(Structural Component): ‘교사 지지’가 ‘학습 참여’를 통해 ‘학업 성취’로 이어지는 가설 경로가 타당한가?
  3. 평균 성분(Mean Component): 집단 간(예: 남학생 vs 여학생) 잠재 변수의 평균 수준에 차이가 있는가?

모델 적합도 평가는 “우리가 가설로 세운 이 모델이 실제 관찰된 데이터(분산-공분산 행렬)를 얼마나 잘 재현해내는가?”라는 질문에 답하는 과정입니다.

2. 기초 이론: 카이제곱(χ2\chi^2) 테스트와 불일치 함수

모델 추정(주로 최대우도법, ML)은 관찰된 공분산 행렬(SS)과 모델에 의해 예측된 공분산 행렬(Σ^\hat{\Sigma}) 사이의 차이를 최소화하는 방향으로 진행됩니다.

카이제곱(χ2\chi^2) 통계치

전통적인 적합도 검정은 카이제곱 테스트를 사용합니다. 이 테스트의 영가설(H0H_0)은 “모델이 인구 집단의 데이터를 완벽하게 적합한다”는 것입니다.

  • 판단 기준: p>.05p > .05이면 영가설을 기각하지 못하므로 모델이 데이터를 잘 설명한다고 봅니다.
  • 한계: 샘플 사이즈(NN)에 매우 민감합니다. 표본이 크면 아주 미세한 차이도 통계적으로 유의미한 것으로 나타나 영가설이 기각(부적합 판정)될 가능성이 큽니다.

WaurimaL의 한마디: “모든 모델은 실제의 근사치일 뿐 완벽할 수 없습니다. 따라서 p<.05p < .05가 나왔다고 해서 실망할 필요는 없습니다. 이를 보완하기 위해 ‘실무적 적합도 지수’를 함께 살펴봐야 합니다.”

3. 주요 실무적 적합도 지수 (Global Fit Indices)

연구자들이 논문에서 가장 흔히 보고하는 지수들을 중심으로 정리해 보겠습니다.

구분지수 명칭약어성격이상적 기준
절대 적합도표준화 잔차 제곱평균제곱근SRMRBadness
(낮을수록 좋음)
<.08< .08
오차 근사치근사 오차 제곱평균제곱근RMSEABadness
(낮을수록 좋음)
<.06< .06
비교 적합도비교 적합도 지수CFIGoodness
(높을수록 좋음)
>.95> .95
비교 적합도터커-루이스 지수TLIGoodness
(높을수록 좋음)
>.95> .95

지수별 핵심 포인트

  • SRMR: 관찰된 상관관계와 예측된 상관관계 사이의 평균적인 차이를 나타냅니다. 0에 가까울수록 좋습니다.
  • RMSEA: 모델의 복잡성을 고려(페널티 부여)하는 지수입니다. 90% 신뢰구간을 함께 보고하는 것이 권장됩니다.
  • CFI & TLI: 아무런 관계가 없는 ‘독립 모델’에 비해 우리 모델이 얼마나 개선되었는지를 나타냅니다.

4. 적합도 평가의 함정: ‘신뢰도 역설’과 데이터 품질

연구자들을 가장 당혹스럽게 만드는 것 중 하나가 ‘신뢰도 역설(Reliability Paradox)’입니다.

  • 현상: 측정 도구의 신뢰도가 높고 요인 부하량(Factor Loadings)이 클수록(즉, 좋은 데이터일수록), 오히려 모델 적합도 지수는 나빠지는 경향이 있습니다.
  • 이유: 데이터의 질이 좋을수록 모델의 미세한 결함이 더 엄격하게 드러나기 때문입니다.

실제 예시: “선생님, 제가 설문 문항을 정말 정교하게 만들어서 요인 부하량이 전부 0.9가 넘는데, 왜 CFI가 0.90밖에 안 나올까요?” -> 이것이 바로 신뢰도 역설의 전형적인 사례입니다. 데이터가 너무 좋아서 모델의 미세한 오차가 부각된 것이죠.

5. 최신 전략: 동적 적합도 기준 (Dynamic Fit Index)

Hu & Bentler(1999)가 제시한 기준(CFI>.95CFI > .95 등)은 특정 조건의 시뮬레이션 결과일 뿐, 모든 모델에 적용되는 절대 법칙은 아닙니다. 최근에는 자신의 모델과 데이터 특성에 맞는 맞춤형 기준을 생성하는 방법이 주목받고 있습니다.

R을 이용한 모의 자료 생성 및 적합도 분석 예시

학교 교육 환경을 가정한 시나리오로 R 코드를 작성해 보겠습니다.

  • 시나리오: 학생 300명을 대상으로 ‘교사 지지(TS)’, ‘학습 참여(SE)’, ‘학업 성취(AA)’를 측정. 각 잠재변수는 3개의 문항으로 구성됨.

R

# 필요한 라이브러리 로드
library(lavaan)
library(semPlot)

# 1. 모의 데이터 생성 (Story-based Data Generation)
set.seed(2025)
n <- 300
# 잠재변수 생성
TS <- rnorm(n)
SE <- 0.6 * TS + rnorm(n, sd = 0.5)
AA <- 0.7 * SE + rnorm(n, sd = 0.4)

# 관측변수(설문문항) 생성
data <- data.frame(
  ts1 = 0.8*TS + rnorm(n), ts2 = 0.7*TS + rnorm(n), ts3 = 0.9*TS + rnorm(n),
  se1 = 0.8*SE + rnorm(n), se2 = 0.7*SE + rnorm(n), se3 = 0.8*SE + rnorm(n),
  aa1 = 0.9*AA + rnorm(n), aa2 = 0.8*AA + rnorm(n), aa3 = 0.7*AA + rnorm(n)
)

# 2. 모델 설정
model <- '
  # 측정 모델
  TeacherSupport =~ ts1 + ts2 + ts3
  Engagement     =~ se1 + se2 + se3
  Achievement    =~ aa1 + aa2 + aa3
  
  # 구조 모델
  Engagement ~ TeacherSupport
  Achievement ~ Engagement
'

# 3. 모델 추정
fit <- sem(model, data = data)

# 4. 적합도 지수 확인
summary(fit, fit.measures = TRUE, standardized = TRUE)

맞춤형 기준 생성 (Wolf & McNeish 방식)

McNeish와 Wolf(2022)는 dynamicfit 앱이나 R 패키지를 통해 연구자의 모델 구조, 샘플 사이즈에 최적화된 컷오프(Cut-off) 값을 찾을 것을 권장합니다.

6. 결론 및 제언

모델 적합도는 단순히 0.950.95라는 숫자를 넘기기 위한 게임이 아닙니다.

  1. 전체적 관점: 글로벌 지수(CFI, RMSEA 등)뿐만 아니라 개별 잔차(Residuals)를 살펴 어디서 문제가 생겼는지 파악해야 합니다.
  2. 이론 우선: 적합도를 높이기 위해 이론적 근거 없이 수정 지수(Modification Indices)에 의존해 경로를 추가하는 것은 지양해야 합니다.
  3. 복합적 해석: 데이터의 품질(신뢰도), 표본 크기, 모델의 복잡성을 모두 고려하여 ‘전문가적 판단’을 내려야 합니다.

참고문헌 (APA Style)

  • Anderson, J. C., & Gerbing, D. W. (1988). Structural equation modeling in practice: A review and recommended two-step approach. Psychological Bulletin, 103(3), 411–423.
  • Bentler, P. M., & Bonett, D. G. (1980). Significance tests and goodness of fit in the analysis of covariance structures. Psychological Bulletin, 88, 588–606.
  • Hu, L.-T., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6, 1–55.
  • McNeish, D., & Wolf, M. G. (2022). Dynamic fit index cutoffs for confirmatory factor analysis models. Psychological Methods.
  • West, S. G., Wu, W., McNeish, D., & Savord, A. (2025). Model fit in structural equation modeling. In Handbook of Structural Equation Modeling.