Chap26. 다층모형 분석을 위한 소프트웨어

안녕하세요!

오늘은 다층모형(Multilevel Model) 분석을 위한 소프트웨어의 발전과 실제 활용에 대해 살펴보겠습니다. “학교 현장의 데이터”를 예시로 들어 직관적인 설명과 수리적 엄밀함을 모두 갖춘 형태로 재구성해 드리겠습니다.

분석 도구로는 jamovi의 사용법을 설명하되, jamovi의 기반이 되는 R 코드를 함께 제시하여 모의 데이터 생성부터 분석, 시각화까지 완벽하게 구현해 드리겠습니다.

1. 다층 데이터 분석의 역사와 소프트웨어의 발전

다층모형은 학생이 학교에 속해 있는 것처럼 데이터가 계층적 구조를 가질 때 필수적입니다. 과거에는 클러스터링되거나 종단적인 데이터의 분석을 위해 단순화된 모델 가정과 간단한 계산 알고리즘에 의존했습니다. 종단 데이터의 경우, 반복측정 분산분석(rmANOVA) 모델을 구현하는 소프트웨어가 유일한 선택지였습니다. 하지만 이러한 모델을 피팅하려면 그룹 간 및 시간 경과에 따른 균형 잡힌 관측치 수, 결측치 없음, 시간 의존적 공변량 없음 등 매우 엄격한 구조의 데이터 세트가 필요했습니다.

초기의 이런 단순한 접근 방식은 전체 변동성을 그룹 간 변동과 그룹 내 변동으로 적절히 분할하지 못해 분산 성분의 편향된 추정치를 초래하는 문제가 있었습니다. 개인용 컴퓨터의 등장과 함께 1980년대 중반부터 혼합 효과 모델을 피팅하기 위한 소프트웨어 프로그램은 LMM(선형), GLMM(일반화 선형), NLMM(비선형)의 세 가지 광범위한 그룹으로 나뉘어 발전하기 시작했습니다.

대표적으로 HLM과 MLWiN(초기 ML2, ML3 등)의 기원은 이 시기로 거슬러 올라가며, 수년 동안 분석가들이 선호하는 소프트웨어가 되었습니다. 현재는 SAS, SPSS, Stata, R과 같은 주요 일반 통계 소프트웨어 패키지들 모두 다층 분석 기능을 제공하고 있습니다.


2. 학교 현장 모의 데이터 생성 (Storytelling)

상황 (Story):

우리는 30개의 초등학교(Level 2)에 속한 총 600명의 학생(Level 1) 데이터를 가지고 있습니다. 우리의 관심사는 학생들의 수학 점수(Math_Score)입니다.

  • 1수준(학생) 변수: 자기주도학습 시간 (Study_Time)
  • 2수준(학교) 변수: 학교의 교육 예산 (School_Funding)

데이터 분석을 위해 대부분의 사용 가능한 소프트웨어 절차에서 사용하는 주요 접근 방식은 한 피험자 또는 클러스터당 여러 레코드가 있는 “긴(long)” 형식으로 데이터를 구성하는 것입니다. 이를 위해 R을 사용하여 현실적인 모의 데이터를 생성해 보겠습니다.

R

# R을 활용한 모의 데이터 생성 코드
set.seed(2026)

# 2수준: 학교 데이터 생성 (30개 학교)
n_schools <- 30
school_id <- 1:n_schools
school_funding <- rnorm(n_schools, mean = 50, sd = 10) # 학교 예산 (단위: 백만원)
u_0j <- rnorm(n_schools, mean = 0, sd = 5) # 학교별 절편의 무작위 효과

# 1수준: 학생 데이터 생성 (각 학교당 20명, 총 600명)
n_students_per_school <- 20
total_students <- n_schools * n_students_per_school

student_id <- 1:total_students
school_group <- rep(school_id, each = n_students_per_school)
study_time <- rnorm(total_students, mean = 2, sd = 1) # 학생별 학습 시간 (시간/일)

# 종속변수 생성 (수학 점수)
# 고정효과: 기본점수 40 + 예산효과 0.3 + 학습시간효과 5
# 무작위효과: 학교별 편차(u_0j) + 학생별 오차(e_ij)
e_ij <- rnorm(total_students, mean = 0, sd = 8)
math_score <- 40 + 0.3 * rep(school_funding, each = n_students_per_school) + 
              5 * study_time + rep(u_0j, each = n_students_per_school) + e_ij

# 데이터 프레임 결합 (Long Format)
school_data <- data.frame(
  Student_ID = student_id,
  School_ID = as.factor(school_group),
  School_Funding = rep(school_funding, each = n_students_per_school),
  Study_Time = study_time,
  Math_Score = math_score
)

head(school_data)

3. jamovi와 R을 활용한 모델 추정 및 구현

분석에 들어가기 앞서, 최신 소프트웨어는 희소 행렬(sparse matrices)을 기반으로 한 더 빠른 알고리즘을 사용하여 대규모 문제를 처리할 수 있게 발전했습니다. 이러한 방법론을 사용하는 소프트웨어에는 R의 lme4 패키지에 있는 lmer 함수가 포함됩니다.

jamovi에서는 GAMLj 모듈(내부적으로 lme4 패키지 구동)을 설치하여 다층분석을 직관적으로 수행할 수 있습니다.

[수리적 모형의 설정]

분석할 선형 혼합 모델(LMM)의 수식은 다음과 같습니다. 대부분의 소프트웨어에서 구문은 일반적으로 일반 행렬 공식화를 따르거나 수준 표기법(level notation)을 기반으로 합니다.

  • Level1():Level 1 (학생): Math_Scoreij=β0j+β1j(Study_Timeij)+rijMath\_Score_{ij} = \beta_{0j} + \beta_{1j}(Study\_Time_{ij}) + r_{ij}
  • Level2():Level 2 (학교): β0j=γ00+γ01(School_Fundingj)+u0j\beta_{0j} = \gamma_{00} + \gamma_{01}(School\_Funding_{j}) + u_{0j}
    β1j=γ10\beta_{1j} = \gamma_{10}(학습시간의 효과는 학교마다 동일하다고 가정, Random Intercept Model)

[jamovi 실행 방법]

  1. 모듈 선택: 상단 메뉴에서 Linear Models -> Mixed Model을 클릭합니다.
  2. 변수 투입:
    • Dependent Variable: Math_Score
    • Factors / Covariates: Study_Time, School_Funding
    • Cluster Variables (군집 변수): School_ID
  3. Random Effects 설정: Intercept를 Random Component로 School_ID 하위에 추가합니다.
  4. 추정 방법(Estimation): 제한적 최대 우도(REML)는 공분산 매개변수에 대해 편향되지 않은 추정치를 생성하는 특성 때문에 일반적으로 기본값으로 사용됩니다. jamovi에서도 기본값은 REML입니다.

[동일한 분석의 R 코드 (lme4 패키지)]

R

library(lme4)
library(lmerTest) # p-value 산출을 위해 추가

# 모델 피팅 (REML 적용)
model_fit <- lmer(Math_Score ~ Study_Time + School_Funding + (1 | School_ID), 
                  data = school_data, 
                  REML = TRUE)

summary(model_fit)

4. 결과 해석 및 추론 도구

모델을 피팅한 후, 소프트웨어 절차는 자동으로 고정 효과에 대한 F- 또는 t-검정 통계량 등을 계산합니다.

  • 고정 효과 (Fixed Effects): Study_TimeSchool_Funding의 계수가 통계적으로 유의미한지 확인합니다. 즉, 학습 시간이 길수록, 학교 예산이 높을수록 수학 점수가 향상되는지 평가합니다.
  • 무작위 효과 (Random Effects / Variance Components): 학교 간 분산(u0ju_{0j})과 학생 간 분산(rijr_{ij})을 확인하여 ICC(급내상관계수)를 산출합니다. 분산 성분에 대한 영가설 검정은 분산이 0과 같다는 것을 테스트할 때 매개변수 공간의 경계에 놓이게 되므로 고전적인 테스트 절차가 더 이상 유효하지 않다는 어려움이 있습니다. 따라서 일부 소프트웨어는 신뢰구간을 보고하거나, 혼합된 카이제곱 분포를 기반으로 한 점근적 우도비 검정을 제공하기도 합니다.

모델의 진단을 위해 대부분의 다층 소프트웨어는 경험적 베이즈(EB) 추정치와 단순한 모델 진단을 평가하기 위한 잔차를 쉽게 계산할 수 있습니다.


5. 참고문헌 (APA Style)

  • Bates, D., Maechler, M., & Bolker, B. (2011). lme4: Linear mixed-effects models using S4 classes. R package version 0.999375-42.
  • Bryk, A., Raudenbush, S., Seltzer, M., & Congdon, R. (1988). An Introduction to HLM: Computer Program and Users Manual. Chicago: University of Chicago Dept. of Education.
  • Laird, N., & Ware, J. (1982). Random-Effects Models for Longitudinal Data. Biometrics, 38, 963-974.
  • R Development Core Team. (2010). R: A Language and Environment for Statistical Computing. Vienna: R Foundation for Statistical Computing.