안녕하세요!
오늘 우리가 함께 살펴볼 내용은 평균 분석을 위한 유연한 구조방정식 모델링(Structural Equation Modeling, SEM) 접근법입니다. 흔히들 평균 차이를 비교한다고 하면 ANOVA(분산분석)나 t-검정만을 떠올리곤 하죠. 하지만 SEM을 활용하면 기존의 OLS(최소자승법) 방식이 가진 한계를 뛰어넘어 훨씬 더 정교하고 유연한 분석이 가능해집니다.
이 내용을 여러분이 교육 현장에서 바로 활용할 수 있도록, ‘교수법에 따른 수학 학습 만족도 차이’라는 가상 시나리오를 바탕으로 살펴보겠습니다. 분석 도구는 jamovi를 기본으로 하되, 복잡한 제약 조건이 필요한 경우 R(lavaan 패키지) 코드를 병행하여 설명하겠습니다.
1. 왜 ANOVA 대신 구조방정식(SEM)인가?
사회과학자들은 집단 간 평균 차이를 검정하기 위해 ANOVA나 MANOVA를 자주 사용합니다. 하지만 이러한 전통적인 방식은 ‘교과서적인(cookbook)’ 방식에 치우쳐 통계적 가정이 충족되는지, 혹은 연구 가설을 가장 잘 반영하는 모델인지 비판적으로 평가하지 못할 때가 많습니다.
SEM을 활용한 평균 분석은 다음과 같은 강력한 장점을 가집니다:
- 유연성: 관찰변수뿐만 아니라 잠재변수(Latent Variable)에 대한 평균 차이를 검정할 수 있습니다.
- 가정의 완화: 전통적인 ANOVA가 요구하는 엄격한 가정(오차의 등분산성 등)을 우회하거나 모델 내에서 직접 수정할 수 있습니다.
- 모델 비교: 단순히 ‘차이가 있다/없다’를 넘어, 이론에 근거한 여러 대안 모델들을 설정하고 데이터와 얼마나 잘 맞는지(Model Fit) 비교 평가할 수 있습니다.
2. 교육 현장 시나리오 및 모의 데이터 생성
🏫 시나리오: “AI 보조 교사 도입에 따른 수학 만족도 분석”
한 고등학교에서 수학 수업의 질을 높이기 위해 세 가지 교수법을 적용했습니다.
- 집단 1 (통제집단): 기존 강의식 수업
- 집단 2 (토론집단): 소집단 협력 학습
- 집단 3 (AI집단): AI 튜터를 활용한 개별화 학습
연구자는 ‘사후 수학 만족도’가 집단별로 차이가 있는지 확인하고자 합니다. 이때, 학생들의 ‘사전 수학 만족도’를 공변량(Covariate)으로 통제하고 싶어 합니다.
📊 모의 데이터 생성 (R 코드)
분석을 위해 (집단당 50명)의 데이터를 생성하겠습니다. 만족도는 4개의 문항(y1~y4)으로 측정되는 잠재변수라고 가정합니다.
R
# R을 이용한 모의 데이터 생성
set.seed(2025)
n <- 50
# 사전 점수 (Covariate)
pre_score <- rnorm(150, mean=50, sd=10)
# 집단별 사후 잠재평균 설정 (AI집단이 가장 높다고 가정)
group <- c(rep("Control", n), rep("Discussion", n), rep("AI", n))
latent_mean <- c(0, 0.3, 0.7) # 표준화된 차이
# 데이터 생성
y_latent <- c(rnorm(n, 0), rnorm(n, 0.3), rnorm(n, 0.7)) + 0.5 * (pre_score - 50)/10
y1 <- 0.8 * y_latent + rnorm(150, 0, 0.6)
y2 <- 0.7 * y_latent + rnorm(150, 0, 0.7)
y3 <- 0.9 * y_latent + rnorm(150, 0, 0.5)
y4 <- 1.0 * y_latent + rnorm(150, 0, 0.4)
df <- data.frame(group = as.factor(group), pre_score, y1, y2, y3, y4)
# 사후 점수 평균(관찰치) 생성
df$post_sat <- (y1 + y2 + y3 + y4) / 4
3. SEM을 이용한 일원분산분석(One-Way ANOVA)
전통적인 ANOVA는 집단별로 가변수(Dummy variable)를 만들어 회귀분석을 하는 것과 같습니다. SEM에서는 이를 ‘Cell Means Model’로 접근하면 훨씬 이해하기 쉽습니다.
3.1. Cell Means Model의 원리
이 모델은 절편(Intercept)을 제거하는 대신, 모든 집단에 대한 인디케이터 변수를 포함합니다.
- 비제약 모델(Less Constrained, LC): 각 집단의 평균을 자유롭게 추정합니다.
- 제약 모델(More Constrained, MC): 모든 집단의 평균이 같다고 제약합니다.
이 두 모델의 적합도(Chi-square) 차이를 비교하여 평균 차이의 유의성을 검정합니다.
3.2. jamovi 및 R 구현
jamovi에서는 SEMLj 모듈을 사용하거나, Rj 모듈에서 lavaan 코드를 직접 입력할 수 있습니다.
R
# lavaan을 이용한 일원분산분석 SEM
library(lavaan)
# 1. 비제약 모델 (집단별 평균 자유 추정)
model_lc <- '
post_sat ~ c(m1, m2, m3)*1
'
fit_lc <- sem(model_lc, data=df, group="group")
# 2. 제약 모델 (모든 평균을 m으로 통일)
model_mc <- '
post_sat ~ c(m, m, m)*1
'
fit_mc <- sem(model_mc, data=df, group="group")
# 모델 비교 (ANOVA와 동일한 결과)
lavTestLRT(fit_lc, fit_mc)
4. SEM을 이용한 공분산분석(ANCOVA)
사전 점수(pre_score)가 사후 점수에 영향을 미칠 때, 이를 통제하고 순수한 교수법의 효과를 보려면 ANCOVA가 필요합니다.
4.1. 분석 특징
- 공변량을 중심화(Grand-mean centering)하여 투입하면 SEM의 절편이 ‘조정된 평균(Adjusted Means)’이 됩니다.
- SEM에서는 집단 간 회귀 계수(Slope)가 동일하다는 가정을 검정하거나, 오히려 이 가정을 풀어 ‘이질적 회귀선’ 모델을 만들 수도 있어 매우 유연합니다.
5. 잠재평균분석(Latent Mean Analysis): SEM의 진수
사실 우리가 측정한 만족도 문항(y1~y4)에는 측정 오차가 포함되어 있습니다. ANOVA는 이 오차를 무시하지만, SEM은 잠재변수를 통해 오차를 제거한 순수한 특성치 간의 평균을 비교합니다.
5.1. 측정 불변성(Measurement Invariance) 검정
잠재평균을 비교하기 전에는 반드시 “서로 다른 집단이 이 문항들을 동일한 의미로 응답했는가?”를 확인해야 합니다.
- 형태 불변성: 모델의 구조가 같은가?
- 측정치 불변성(Metric): 요인 적재량(Loadings)이 같은가?
- 절편 불변성(Scalar): 관찰변수의 절편이 같은가?
최소한 절편 불변성까지 만족해야 잠재평균을 비교할 자격이 생깁니다.
5.2. 분석 결과 해석
잠재평균분석에서는 한 집단의 평균을 0으로 고정하고, 나머지 집단의 평균이 그로부터 얼마나 떨어져 있는지(상대적 차이)를 추정합니다.
| 집단 | 잠재평균 (Estimate) | p-value | 해석 |
| 기존 강의 | 0 (고정) | – | 기준 집단 |
| 토론 학습 | 0.32 | .042 | 기존보다 유의하게 높음 |
| AI 학습 | 0.75 | <.001 | 기존보다 매우 유의하게 높음 |
6. 결론 및 제언
SEM을 활용한 평균 분석은 기존 OLS 기반의 ANOVA보다 훨씬 풍부한 정보를 제공합니다.
- 측정 오차 통제: 더 정확한 효과 크기를 산출합니다.
- 다양한 가정 검정: 등분산성 위배 시에도 강건한(Robust) 추정치를 얻을 수 있습니다.
- 통합적 결론: 여러 측정 문항을 개별 ANOVA로 돌리는 ‘단편적 분석’에서 벗어나, 구조적 차원의 ‘통합적 결론’을 내릴 수 있습니다.
학교 현장에서도 단순한 평균 비교를 넘어, 잠재변수 모델링을 통해 교육 효과를 더욱 정밀하게 검증해 보시길 권장합니다.
📚 참고문헌
- Aiken, L. S., West, S. G., & Millsap, R. E. (2008). Doctoral training in statistics, measurement, and methodology in psychology: Replication and extension of the Aiken, West, Sechrest, and Reno (1990) survey of PhD programs in North America. American Psychologist, 63(1), 32–50.
- Bollen, K. A. (1989). Structural equations with latent variables. Wiley.
- Fan, W., & Hancock, G. R. (2012). Robust means modeling: An alternative to hypothesis testing of independent means under variance heterogeneity and nonnormality. Journal of Educational and Behavioral Statistics, 37(1), 137–156.
- Hancock, G. R. (2010). Life after ANOVA: Reframing and extending analysis of variance using a likelihood/information paradigm. Presented at the meeting of the Structural Equation Modeling Special Interest Group of the American Educational Research Association, Denver, CO.
- Thompson, M. S., & Green, S. B. (2013). Evaluating between-group differences in latent variable means. In G. R. Hancock & R. O. Mueller (Eds.), A second course in structural equation modeling (2nd ed., pp. 163–218). Information Age.
