태그 보관물: IRT

Chap 25. 구조방정식(SEM)과 잠재 변수 모델링을 활용한 심리측정 척도 평가

안녕하세요!
이번에는 “구조방정식(SEM)과 잠재 변수 모델링을 활용한 심리측정 척도 평가”에 관한 내용을 여러분이 이해하기 쉽게 교육 현장의 사례를 곁들여 살펴보겠습니다.

이 내용은 척도를 개발하거나 평가하려는 연구자들에게 필수적인 기초부터 고급 기법(잠재 혼합 모델 등)까지를 다룹니다.

1. 왜 척도 평가가 중요한가?

교육 및 사회과학 연구에서 우리가 측정하려는 대상(예: 학습 동기, 수학 불안, 지능)은 눈에 직접 보이지 않는 잠재 변수(Latent Variables)인 경우가 많습니다. 이러한 잠재 변수는 직접 잴 수 없기 때문에, 우리는 여러 개의 설문 문항이나 과제(지표, Indicators)를 통해 간접적으로 그 수준을 추론합니다.

이때 핵심은 “우리가 사용한 문항들이 정말로 그 잠재 특성을 잘 반영하고 있는가?”를 평가하는 것입니다. 이를 위해 구조방정식 모델링(SEM)과 잠재 변수 모델링(LVM)이 활용됩니다.

2. 고전검사이론(CTT)과 요인분석(FA): 기초 다지기

척도 평가의 가장 기본이 되는 수식은 고전검사이론의 관찰점수 분해입니다.

(1) 기본 방정식

X=T+EX = T + E

  • XX: 학생이 설문지에서 얻은 실제 점수(관찰점수)
  • TT: 학생의 진정한 능력이나 특성(진점수, 잠재 변수)
  • EE: 측정 과정에서 발생하는 오차(측정 오차)

(2) 동질적 검사 모델 (Congeneric Model)

단일 요인 모델과 실질적으로 동일하게 취급되는 이 모델은 각 문항이 하나의 공통 요인에 서로 다른 가중치(부하량)로 연결되어 있다고 가정합니다. 교육 현장에서는 한 시험의 여러 문항이 하나의 수학적 사고력을 측정한다고 볼 때 이 모델을 적용합니다.

3. 척도의 잠재 구조 확인: EFA에서 CFA로

척도가 의도한 대로 구성되어 있는지 확인하기 위해 두 단계의 과정을 거칩니다.

1단계: 탐색적 요인분석 (EFA)

  • 목적: 문항들이 몇 개의 요인으로 묶이는지 가설을 생성합니다.
  • 절차: 전체 데이터의 일부(예: 1/2)를 사용하여 요인의 수(mm)를 변화시켜가며 최적의 구조를 찾습니다.

2단계: 확인적 요인분석 (CFA)

  • 목적: EFA에서 세운 가설이 새로운 데이터에서도 맞는지 검증합니다.
  • 절차: 나머지 데이터(Hold-out sample)를 사용하여 모델의 적합도(AIC, BIC 등)를 평가합니다.

[WaurimaL의 팁] 군집 효과(Clustering Effects)를 주의하세요!

학교 교육 연구에서는 학생들이 ‘학급’이나 ‘학교’에 속해 있습니다. 같은 반 학생들은 경험을 공유하므로 독립성 가정이 위배될 수 있습니다. 이를 무시하면 오차가 과소 추정되어 잘못된 결론을 내릴 수 있으므로 다층 모델링(Multilevel Modeling) 접근이 필요합니다.

4. 문항 반응 이론(IRT): 문항 하나하나를 현미경으로 보기

척도 전체의 신뢰도를 넘어, 개별 문항이 얼마나 어려운지, 얼마나 변별력이 있는지를 평가할 때 IRT를 사용합니다.

  • 변별도(aja_j): 능력이 높은 학생과 낮은 학생을 얼마나 잘 구분하는가?
  • 난이도(bjb_j): 정답을 맞힐 확률(또는 긍정 응답 확률)이 50%가 되는 지점은 어디인가?

5. 고급 주제: 관찰되지 않은 이질성(Unobserved Heterogeneity)

최근 연구에서 가장 강조되는 부분입니다. 전체 집단이 하나라고 가정하고 분석하면 심각한 오류에 빠질 수 있습니다.

(1) 잠재 혼합 모델 (Latent Mixture Modeling)

우리 눈에는 보이지 않지만, 모집단 안에 성격이 다른 여러 잠재 계층(Latent Classes)이 존재할 수 있습니다. 예를 들어, ‘수학 효능감’ 척도를 분석할 때 ‘일반 학생 집단’과 ‘수포자 집단’은 문항에 반응하는 방식 자체가 다를 수 있습니다.

(2) 혼합 모델을 무시할 때의 위험성

  • 허위적 Bifactor 구조: 실제로는 집단이 두 개인데 하나로 합쳐 분석하면, 존재하지 않는 요인이 있는 것처럼 보일 수 있습니다.
  • 잘못된 문항 교정: 집단별로 문항의 난이도가 다른데 이를 평균 내버리면, 어느 집단에도 맞지 않는 잘못된 문항 특성치가 산출됩니다.

6. 실습: 학교 소속감 척도 평가 (가상 데이터 사례)

전문가로서 ‘학교 소속감(School Belongingness)’을 측정하는 5개 문항을 예로 들어 보겠습니다.

[스토리 설정]

행복중학교 교사들은 학생들의 학교 소속감을 측정하기 위해 5개 문항(5점 리커트 척도)을 개발했습니다.

  1. 나는 학교에 오는 것이 즐겁다.
  2. 우리 학교 선생님들은 나를 존중해 주신다.
  3. 나는 우리 학교의 일원이라는 것이 자랑스럽다.
  4. 학교에서 친구들과 함께 있을 때 편안하다.
  5. 우리 학교는 나에게 중요한 장소다.

조사 결과, 전체 학생은 약 500명이며, 내부적으로는 ‘교우관계 중심 집단’과 ‘학업 중심 집단’이라는 두 개의 잠재 계층이 존재한다고 가정합니다.

jamovi 및 R 구현 방법

1) jamovi 활용 (CFA 분석)

  1. Factor 탭 -> Confirmatory Factor Analysis 선택.
  2. 문항 1~5를 ‘Factor 1’에 투입.
  3. Model Fit에서 RMSEA, CFI, TLI 확인.
  4. Reliability Analysis에서 Cronbach’s α\alpha와 McDonald’s ω\omega 확인.

2) R 활용 (잠재 혼합 모델링 – tidyLPA 패키지 예시)

잠재 계층이 존재하는지 확인하기 위해 R 코드를 작성해 보겠습니다.

R

# 필요한 패키지 로드
library(tidyLPA)
library(dplyr)

# 가상 데이터 생성 (전문가적 식견을 바탕으로 한 모의 데이터)
set.seed(123)
# 집단 1: 소속감이 높은 집단 (250명)
group1 <- matrix(rnorm(250 * 5, mean = 4.2, sd = 0.5), ncol = 5)
# 집단 2: 소속감이 낮은 집단 (250명)
group2 <- matrix(rnorm(250 * 5, mean = 2.5, sd = 0.8), ncol = 5)
df <- as.data.frame(rbind(group1, group2))
colnames(df) <- paste0("item", 1:5)

# 잠재 프로파일 분석(LPA) 수행 - 집단 수 결정 (1개 vs 2개)
results <- df %>%
  estimate_profiles(1:3) # 1개부터 3개 집단까지 비교

# 결과 비교 (BIC가 가장 낮은 모델 선택)
get_fit(results)

7. 결론 및 제언

척도 평가를 단순히 신뢰도 계수(α\alpha) 하나 확인하는 것으로 끝내서는 안 됩니다.

  1. 구조 확인: EFA/CFA를 통해 잠재 구조를 탄탄히 검증하십시오.
  2. 집단 특성 고려: 데이터 뒤에 숨겨진 이질적인 집단(잠재 계층)이 있는지 혼합 모델링으로 확인하십시오.
  3. 표본 크기: 복잡한 잠재 변수 모델을 사용할 때는 충분한 표본 크기가 확보되어야 결과가 안정적입니다.

참고문헌

  • Raykov, T. (2025). Psychometric scale evaluation using structural equation modeling and latent variable modeling. In R. Hoyle (Ed.), Handbook of structural equation modeling (2nd ed., pp. 462-480). Guilford Press.
  • Bollen, K. A. (1989). Structural equations with latent variables. Wiley.
  • Crocker, L., & Algina, J. (2006). Introduction to classical and modern test theory. Harcourt College Publishers.
  • Muthén, L. K., & Muthén, B. (2021). Mplus user’s guide. Authors.
  • Raykov, T., & Marcoulides, G. A. (2011). Introduction to psychometric theory. Taylor & Francis.
  • Reckase, M. (2009). Multidimensional item response theory. Springer.

Chap 15. 이분형(Dichotomous) 및 서열형(Ordered Polytomous) 문항에 대한 확인적 측정 모델

안녕하십니까,
우리가 교육 현장에서 흔히 마주하는 범주형 데이터(Categorical Data)를 어떻게 과학적으로 측정하고 분석할 것인지에 대해 심도 있게 다뤄보겠습니다.

우리가 흔히 사용하는 ‘기초학력 진단평가(정답/오답)’나 ‘학교생활 만족도(리커트 척도)’는 일반적인 확인적 요인분석(CFA)이 가정하는 ‘연속성’과 ‘정규성’을 충족하지 못하는 경우가 많습니다. 이를 무시하고 분석할 경우, 결과가 왜곡될 수 있죠. 이 장에서는 이러한 한계를 극복하기 위한 이분형 및 서열형 문항에 대한 확인적 측정 모델을 살펴보겠습니다.

1. 전통적 확인적 요인분석(CFA)의 한계와 도전

전통적인 CFA 모델은 요인 지표가 연속적이며 기저 요인과 선형 관계를 맺고 있다고 가정합니다. 하지만 교육 현장의 데이터는 다음과 같은 특성을 보입니다.

  • 이분형 지표: 수학 문제의 정답(1)과 오답(0)
  • 서열형 지표: “전혀 그렇지 않다”에서 “매우 그렇다”까지의 리커트형 설문

이러한 데이터를 연속형으로 간주하고 최대우도법(ML)을 적용하면, 문항 간의 연관성이 저평가되거나 부적절한 표준오차가 산출될 위험이 있습니다. 특히 응답 범주가 5개 미만인 경우 이러한 문제는 더욱 심각해집니다.

2. 가상의 시나리오: “김 교사의 수학 학습 태도 및 성취도 연구”

이론적 이해를 돕기 위해, 고등학교 수학교사인 ‘김 교사’의 데이터를 가정해 봅시다.

시나리오: 김 교사는 학생들의 ‘수학적 자신감(정의적 영역)’과 ‘기초 대수 능력(인지적 영역)’을 측정하고자 합니다.

  • 기초 대수 능력 (MATH_SKILL): 5개의 이분항 문항 (정답 1, 오답 0).
  • 수학적 자신감 (MATH_CONF): 5개의 리커트 4점 척도 문항 (1=전혀 그렇지 않다 ~ 4=매우 그렇다).

3. 범주형 지표를 위한 두 가지 틀 (Frameworks)

범주형 지표를 모델링하는 데는 두 가지 주요 접근 방식이 있습니다.

3.1 잠재 응답 공식화 (Latent Response Formulation)

이 방식은 관찰된 범주형 변수 YY 이면에는 정규분포를 따르는 연속적인 잠재 변수 YY^*가 존재한다고 가정합니다.

Yi=νi+λif+ϵiY_{i}^{*} = \nu_{i} + \lambda_{i}f + \epsilon_{i}

여기서YY^*가 특정 임계치(Threshold, τ\tau)를 넘을 때 응답 범주가 바뀐다고 봅니다. 이 방식은 주로 범주형 CFA(CCFA)에서 사용됩니다.

3.2 일반화 선형 혼합 모델 (GLMM)

문항 반응 이론(IRT)에서 주로 사용하는 방식으로, 비선형 관계를 직접 모델링합니다. 예를 들어, 이분형 데이터에서는 로짓(Logit) 혹은 프로빗(Probit) 링크 함수를 사용하여 성공 확률을 예측합니다.

4. 추정 방법: 제한 정보 vs. 전체 정보

어떤 추정치를 사용할지는 분석의 정확도와 복잡도에 큰 영향을 미칩니다.

구분제한 정보 추정 (Limited-Information)전체 정보 추정 (Full-Information)
대표 추정치WLSMV (Weighted Least Squares Mean and Variance adjusted)MML (Marginal Maximum Likelihood) / FIML
입력 데이터요약 통계량 (Polychoric correlation matrix 등)원시 응답 데이터
장점표본 크기가 클 때 빠르고 적합도 지수(CFI, RMSEA) 제공더 정밀한 파라미터 추정 가능, 결측치 처리(MAR)에 강함
단점결측치 처리에 취약(MCAR 가정)잠재 요인이 많아질수록 계산 복잡도 급증

5. 이분형 문항 모델 (Dichotomous Indicators)

수학 문제 정답 여부를 분석할 때 사용되는 모델들입니다.

5.1 1모수 모델 (1PL / Rasch)

모든 문항의 변별도(aa)가 동일하다고 가정하고 난이도(bb)만 추정합니다.

Pi(Yi=1|θ)=11+exp(a(θbi))P_{i}(Y_{i}=1|\theta) = \frac{1}{1+\exp(-a(\theta-b_{i}))}

5.2 2모수 모델 (2PL)

문항마다 변별도(aia_i)와 난이도(bib_i)를 모두 다르게 추정합니다. 김 교사의 데이터에서 특정 수학 문제가 우등생과 열등생을 더 잘 구분한다면 이 모델이 적합합니다.

5.3 3모수 및 4모수 모델 (3PL, 4PL)

  • 3PL: ‘추측 파라미터(cic_i)’를 추가하여, 능력이 낮아도 맞출 확률을 고려합니다.
  • 4PL: ‘실수 파라미터(did_i)’를 추가하여, 능력이 높아도 틀릴 확률(상한 점근선)을 모델링합니다.

6. 서열형(리커트) 문항 모델 (Ordinal Indicators)

‘수학 자신감’ 설문과 같은 데이터에 적합한 모델입니다.

6.1 등급 반응 모델 (Graded Response Model, GRM)

응답 범주가 순서대로 나열되어 있을 때, “k 범주 이상에 응답할 확률”을 모델링합니다.

Pi(Yik|θ)=11+exp(ai(θbij))P_{i}(Y_{i} \ge k|\theta) = \frac{1}{1+\exp(-a_{i}(\theta-b_{ij}))}

여기서 bijb_{ij}는 범주 간의 경계 지점을 의미합니다.

6.2 일반화 부분 점수 모델 (Generalized Partial Credit Model, GPCM)

각 범주 간의 전이(transition)를 일련의 2PL 모델처럼 다룹니다. 문항마다 부분 점수의 부여 방식이 다를 때 유용합니다.

7. jamovi 및 R을 활용한 실무 가이드

jamovi에서의 분석 (기본)

  1. IRT 모듈 설치: ‘Library’에서 ‘snowIRT’ 모듈을 설치합니다.
  2. 분석 수행:
    • 이분형: ‘IRT’ -> ‘Dichotomous’ -> 문항 선택.
    • 서열형: ‘IRT’ -> ‘Polytomous’ -> ‘Rating Scale Model’ 또는 ‘Partial Credit Model’ 선택.
  3. 결과 확인: 난이도, 문항 특성 곡선(ICC)을 확인합니다.

R을 활용한 정밀 분석 (mirt 패키지 활용)

jamovi에서 제공하지 않는 세부 모델(4PL 등)이나 복잡한 CCFA는 R의 mirt 또는 lavaan 패키지를 사용합니다.

R

# 1. 필요한 패키지 로드
if(!require(mirt)) install.packages("mirt")
library(mirt)

# 2. 가상 데이터 생성 (N=500)
set.seed(123)
N <- 500
theta <- rnorm(N) # 잠재 능력 (평균 0, 표준편차 1) [cite: 154, 176]

# 기초 대수 능력 (이분형: 2PL 모델 기반 생성)
# a: 변별도, b: 난이도
a_skill <- c(1.5, 2.0, 1.2, 1.8, 2.5)
b_skill <- c(-1.0, -0.5, 0, 0.5, 1.0)
data_skill <- matrix(NA, N, 5)
for(i in 1:5) {
  prob <- 1 / (1 + exp(-a_skill[i] * (theta - b_skill[i])))
  data_skill[,i] <- rbinom(N, 1, prob)
}
colnames(data_skill) <- paste0("SKILL_", 1:5)

# 수학적 자신감 (서열형: GRM 모델 기반 생성)
# data_conf 객체 생성
data_conf <- simdata(a = rep(1.5, 5), d = matrix(c(2, 0, -2), 5, 3, byrow=TRUE), 
                     N = N, itemtype = 'graded', Theta = as.matrix(theta))
colnames(data_conf) <- paste0("CONF_", 1:5)

# 3. 분석 수행 (2PL 및 GRM)
# 이분형 분석
fit_skill <- mirt(as.data.frame(data_skill), 1, itemtype = '2PL')
coef(fit_skill, IRTpars = TRUE, simplify = TRUE)

# 서열형 분석 (GRM)
fit_conf <- mirt(as.data.frame(data_conf), 1, itemtype = 'graded')
plot(fit_conf, type = 'trace') # 카테고리 반응 곡선 (CRC) 확인

8. 결론 및 제언

범주형 지표를 활용한 측정 모델링은 단순히 통계 기법의 선택을 넘어, 우리가 측정하고자 하는 교육적 구인(Construct)의 본질을 얼마나 정확하게 반영하느냐의 문제입니다.

  • 연속성 가정이 깨진다면: 지체 없이 범주형 CFA나 IRT 모델을 고려하십시오.
  • 적합도 확인: WLSMV를 통해 CFI, TLI, RMSEA 등 익숙한 지표를 확인할 수 있지만, 범주형 데이터에서의 컷오프 기준은 주의해서 해석해야 합니다.

참고문헌

  • Asparouhov, T., & Muthén, B. (2020). IRT in Mplus (Version 4). Mplus webnote. https://www.statmodel.com/download/mplusirt.pdf
  • Brown, T. A. (2006). Confirmatory factor analysis for applied research. Guilford Press.
  • de Ayala, R. J. (2009). The theory and practice of item response theory. Guilford Press.
  • Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Erlbaum.
  • Koziol, N. A. (2025). Confirmatory measurement models for dichotomous and ordered polytomous indicators. In Handbook of Structural Equation Modeling (Chapter 15).
  • Muthén, L. K., & Muthén, B. O. (1998-2020). Mplus user’s guide (8th ed.). Authors.
  • Skrondal, A., & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal, and structural equation models. CRC Press.