Chap 05. 구조방정식 모델링에서의 잠재변수 (Latent Variables in SEM)

구조방정식 모형(SEM)에서 가장 핵심적인 개념인 잠재변수(Latent Variables)에 대해 살펴보고, 이해를 돕기 위해 학교 현장의 예를 들어 설명해 드리겠습니다.

안녕하세요, 여러분. 오늘 우리는 사회과학, 특히 교육학에서 눈에 보이지 않는 대상을 어떻게 과학적으로 측정하고 분석하는지에 대해 깊이 있게 다룰 것입니다.

1. 잠재변수란 무엇인가? (Foundations)

1.1. 개념적 정의: 보이지 않는 것을 그리기

교육학에서는 ‘학업 동기’, ‘자아존중감’, ‘수리 능력’과 같은 개념을 다룹니다. 이것들의 공통점은 무엇일까요? 바로 직접 눈으로 볼 수도, 자로 잴 수도 없다는 점입니다.

추상적 개념(Constructs): 이론적 논의에서 중요한 역할을 하지만 직접 관찰할 수 없는 속성들입니다. 예를 들어, 우리가 학생의 ‘수학 능력’을 평가한다고 할 때, 우리는 머릿속에 있는 능력 그 자체를 보는 것이 아니라, 그 학생이 푼 ‘시험 문제(관찰변수)’를 통해 능력을 추론합니다.
잠재변수(Latent Variable): 이러한 추상적 개념을 모델 내에서 표현한 것입니다. 연구자는 이를 독립변수, 매개변수, 또는 종속변수로 활용할 수 있습니다.

1.2. 잠재변수의 다양한 정의와 ‘표본 실현(Sample Realization)’

학자마다 잠재변수를 정의하는 방식이 조금씩 다릅니다.

플라톤적 관점 (Realist View): 잠재변수는 실제로 존재하지만 우리가 관찰하지 못할 뿐이라는 입장입니다.
구성주의적 관점: 연구자가 현상을 설명하기 위해 만든 ‘허구적 개념’이라는 입장도 있습니다.
데이터 축소 관점: 복잡한 여러 데이터를 요약하는 수단으로 보기도 합니다.

WaurimaL의 Pick: Bollen(2002)의 “표본 실현(Sample Realization)” 정의.

이 정의는 가장 포괄적입니다. 어떤 변수가 표본의 적어도 일부 관측치에 대해 구체적인 값(실현된 값)을 가지지 못한다면, 그것은 잠재변수입니다.

예를 들어, 모든 학생의 ‘창의성’ 점수가 데이터 시트에 비어 있다면, 창의성은 잠재변수입니다.
이 정의는 결측치(missing values), 오차항(error terms), 교란항(disturbances)까지 모두 잠재변수로 포용합니다.

2. 지표의 두 얼굴: 반영지표 vs. 원인지표

SEM을 사용할 때 가장 혼동하기 쉬운 부분이 바로 지표(Indicator)와 잠재변수의 관계입니다.

2.1. 반영지표 (Reflective Indicators)

우리가 흔히 사용하는 방식입니다. 잠재변수(원인)가 관찰변수(결과)에 영향을 미칩니다.

예시: ‘학교 폭력 피해 불안감( $\eta$ )’이 높으면 $\rightarrow$ ‘등교하기 싫다( $y_1$ )’, ‘악몽을 꾼다( $y_2$ )’, ‘식욕이 없다( $y_3$ )’는 응답이 높게 나타납니다.
특징:
- 화살표 방향: 잠재변수 $\rightarrow$ 지표
- 지표들끼리 상관관계가 높습니다 (불안감이 높으면 세 가지 증상 모두 나타남).
- 수식: $y_1 = \alpha_1 + \lambda_1\eta_1 + \epsilon_1$ . 여기서 $\epsilon$ 은 측정 오차입니다.

2.2. 원인지표 (Causal/Formative Indicators)

반대로 지표들이 모여서 잠재변수를 형성하는 경우입니다.

예시:’가정의 사회경제적 지위(SES, η\eta)’.
- ‘부모의 소득( $x_1$ )’, ‘부모의 학력( $x_2$ )’, ‘직업 지위( $x_3$ )’가 합쳐져서 SES를 결정합니다.
특징:
- 화살표 방향: 지표 $\rightarrow$ 잠재변수.
- 지표들끼리 상관관계가 없어도 됩니다 (소득이 높다고 반드시 학력이 높은 것은 아님).
- 수식: $\eta_1 = \gamma_1x_1 + \gamma_2x_2 + \gamma_3x_3 + \zeta_1$ .

사고 실험 (Thought Experiment):

지표 하나를 억지로 높였을 때 잠재변수가 변합니까? 아니면 잠재변수가 변해야 지표가 변합니까?

친구와 보내는 시간을 늘린다고( $x$ ) 사회성( $\eta$ )이 바로 좋아지진 않을 수 있습니다. (원인지표 가능성)

하지만 사회성( $\eta$ )이 좋아지면 친구, 가족, 동료와 보내는 시간( $y$ )이 모두 늘어날 것입니다. (반영지표).

3. 잠재변수의 확장: 더 복잡한 교육 현장 모델링

단순한 설문조사를 넘어, 복잡한 교육 데이터를 분석하기 위한 모델들을 소개합니다.

3.1. 잠재성장모형 (Latent Growth Curve Models)

학생들의 성적은 시간이 지남에 따라 변합니다. 우리는 이 ‘변화’ 자체를 잠재변수로 만들 수 있습니다.

구조:
- 초기치(Intercept, $\eta_1$ ): 1학년 때의 국어 성적 출발점.
- 변화율(Slope, $\eta_2$ ): 학년이 올라갈수록 성적이 오르거나 떨어지는 속도.
이 모델을 통해 “초기 성적이 낮은 학생이 나중에 더 빨리 성장하는가?”와 같은 질문에 답할 수 있습니다.

3.2. 성장혼합모형 (Growth Mixture Models)

모든 학생이 똑같은 패턴으로 성장하지 않습니다. 어떤 그룹은 성적이 급상승하고, 어떤 그룹은 정체될 수 있습니다.

잠재계층(Latent Class, $\xi$ ): 학생들을 보이지 않는 하위 집단(예: ‘고성취 급성장형’, ‘저성취 정체형’)으로 분류하는 범주형 잠재변수입니다.

3.3. 2차 요인 및 이중 요인 모델 (Second-order & Bifactor Models)

2차 요인 모델: ‘수리력’, ‘언어력’, ‘공간지각력’이라는 1차 잠재변수들이 사실은 ‘일반 지능( $g$ )’이라는 상위(2차) 잠재변수에서 비롯되었다고 보는 모델입니다.
이중 요인(Bifactor) 모델: 문항의 응답이 ‘일반적인 특성(예: 우울)’과 ‘특수한 맥락(예: 부정적 문항 뉘앙스)’에 동시에 영향을 받는다고 가정합니다.

4. 실습: jamovi와 R을 활용한 분석

이제 가상의 교육 데이터를 생성하여 실제 분석을 어떻게 수행하는지 보여드리겠습니다. jamovi는 기본적으로 lavaan 패키지를 기반으로 작동하므로, R 코드를 통해 데이터를 생성하고 분석하는 과정을 보여드리고, 이를 jamovi에서 어떻게 구현하는지 설명하겠습니다.

4.1. 시나리오: “디지털 리터러시와 학업 성취도 변화”

연구 배경: 경기도 소재 A고등학교 학생 200명을 대상으로 ‘디지털 리터러시’가 3년간의 ‘자기주도학습 능력’ 변화에 미치는 영향을 연구하고자 합니다.

잠재변수 1 (외생): 디지털 리터러시 (DigiLit) – 반영지표 3개 (DL1: 정보검색, DL2: 비판적 평가, DL3: 콘텐츠 생성)
잠재변수 2 (성장): 자기주도학습 초기치 (Intercept)
잠재변수 3 (성장): 자기주도학습 변화율 (Slope)
관측변수 (종속): 1학년~3학년 자기주도학습 검사 점수 (SDL_T1, SDL_T2, SDL_T3)

4.2. 데이터 생성 및 분석 (R Code)

이 코드는 R에서 실행 가능하며, jamovi의 Rj 모듈을 통해서도 실행할 수 있습니다.

# 필수 패키지 로드
if(!require(lavaan)) install.packages("lavaan")
if(!require(semPlot)) install.packages("semPlot")
if(!require(MASS)) install.packages("MASS")

set.seed(1226) # 재현성을 위한 시드 설정

# 1. 데이터 생성 (N = 200)
N <- 200

# 디지털 리터러시(DL) 잠재변수 생성 (평균 0, 분산 1)
DigiLit <- rnorm(N, 0, 1)

# 반영지표 생성 (측정오차 포함) 
# y = lambda * eta + error
DL1 <- 0.7 * DigiLit + rnorm(N, 0, 0.5)
DL2 <- 0.8 * DigiLit + rnorm(N, 0, 0.5)
DL3 <- 0.75 * DigiLit + rnorm(N, 0, 0.5)

# 자기주도학습(SDL) 성장모형 데이터 생성
# 초기치(Intercept)는 DL의 영향을 받음
Intercept <- 50 + 5 * DigiLit + rnorm(N, 0, 5)
# 변화율(Slope)도 DL의 영향을 받음 (DL이 높으면 더 빨리 성장)
Slope <- 2 + 1.5 * DigiLit + rnorm(N, 0, 2)

# 시점별 점수 생성 (T1, T2, T3)
# Score_t = Intercept + Slope * (Time_t) + error
SDL_T1 <- Intercept + Slope * 0 + rnorm(N, 0, 3)
SDL_T2 <- Intercept + Slope * 1 + rnorm(N, 0, 3)
SDL_T3 <- Intercept + Slope * 2 + rnorm(N, 0, 3)

# 데이터 프레임 생성
Data <- data.frame(DL1, DL2, DL3, SDL_T1, SDL_T2, SDL_T3)

# 2. jamovi/R 분석을 위한 모델 구문 (Lavaan Syntax)
# 이 구문은 jamovi SEM 모듈(SEMLj)에서도 그대로 사용 가능합니다.

model_syntax <- '
  # 측정 모델 (Measurement Model) [cite: 34]
  Digital_Lit =~ DL1 + DL2 + DL3

  # 잠재 성장 모델 (Latent Growth Model) 
  # 1, 1, 1은 절편(Intercept), 0, 1, 2는 기울기(Slope)를 의미
  i =~ 1*SDL_T1 + 1*SDL_T2 + 1*SDL_T3
  s =~ 0*SDL_T1 + 1*SDL_T2 + 2*SDL_T3

  # 구조 모델 (Structural Model): 디지털 리터러시가 성장요인에 미치는 영향
  i ~ Digital_Lit
  s ~ Digital_Lit
'

# 3. 모델 적합 (Estimation)
fit <- sem(model_syntax, data = Data)

# 4. 결과 요약
summary(fit, fit.measures=TRUE, standardized=TRUE)

# 5. 시각화 (Path Diagram)
semPaths(fit, whatLabels = "std", layout = "tree2", 
         edge.label.cex = 1.0, curvePivot = TRUE,
         main = "Digital Literacy & SDL Growth Model")

chap05 다운로드

4.3. jamovi에서의 분석 절차

데이터 불러오기: 위에서 생성된 csv 파일을 jamovi에서 엽니다.
SEMLj 모듈 설치: jamovi 라이브러리에서 SEMLj (또는 jmv의 기본 SEM 기능이 있다면 활용)를 설치합니다.
Syntax 입력:
- SEMLj 모듈을 열고 Syntax 모드를 선택합니다.
- 위 R 코드의 model_syntax 부분(작은따옴표 안의 내용)을 복사해서 붙여넣습니다.
결과 확인:
- CFI/TLI: 0.9 이상이면 좋은 적합도입니다.
- RMSEA: 0.08 이하(이상적으로는 0.05 이하)인지 확인합니다.
- 회귀계수(Estimates): Digital_Lit가 i(초기치)와 s(기울기)에 미치는 영향( $\beta$ )이 유의한지(p < .05) 확인합니다.

5. 고려사항 및 해석 시 주의점 (Additional Considerations)

분석을 마쳤다고 끝이 아닙니다. 여러분께 당부하고 싶은 몇 가지 중요한 이슈가 있습니다.

5.1. 식별 (Identification)

모델이 수학적으로 풀릴 수 있는가에 대한 문제입니다.

척도 설정(Scaling): 잠재변수는 단위가 없습니다. 따라서 지표 중 하나를 1로 고정(Unit loading)하거나, 잠재변수의 분산을 1로 고정하여 단위를 만들어 주어야 합니다.
지표 수 규칙: 하나의 잠재변수는 최소 3개의 반영지표를 가질 때 가장 안정적으로 식별됩니다 (Three Indicator Rule).

5.2. 해석의 오류 (Interpretation)

많은 연구자가 잠재변수 $\eta$ 를 ‘오차가 없는 완벽한 진실’이라고 착각합니다.

하지만 잠재변수는 우리가 설정한 지표들의 공통 분산(Common Variance)일 뿐입니다.
만약 모든 지표가 ‘자기보고식 설문’으로 측정되었다면, 잠재변수에는 실제 능력뿐만 아니라 ‘자기보고 편향’이라는 오차도 포함되어 있을 수 있습니다.

6. 결론 (Summary)

우리는 오늘 눈에 보이지 않는 교육적 개념들을 잠재변수로 정의하고, 이를 반영지표와 원인지표를 통해 모델링하며, 더 나아가 성장모형으로 확장하는 방법까지 배웠습니다.

Bollen과 Hoyle이 강조했듯, 잠재변수는 단순한 통계적 유희가 아닙니다. 그것은 추상적인 이론과 구체적인 데이터를 연결해 주는 가장 강력한 다리입니다. 여러분이 수행할 연구에서 이 다리를 튼튼하게 건설하시길 바랍니다.

참고문헌 (References)

Bollen, K. A., & Hoyle, R. H. (2012). Latent variables in structural equation modeling. In R. H. Hoyle (Ed.), Handbook of structural equation modeling (pp. 56-67). Guilford Press. [Based on source text provided]
Bollen, K. A. (2002). Latent variables in psychology and the social sciences. Annual Review of Psychology, 53, 605-634.
Bollen, K. A., & Ting, K.-F. (2000). A tetrad test for causal indicators. Psychological Methods, 5, 3-22.
Jöreskog, K. G., & Sörbom, D. (1979). Advances in factor analysis and structural equation models. Abt Books.