하우스만검정 Archives

안녕하세요!

오늘은 “고정 효과(Fixed Effects)와 무선 효과(Random Effects)의 선택, 그리고 하이브리드 모델”에 대해 살펴보겠습니다. “학교 현장의 데이터”를 예시로 들어 직관적인 설명과 수리적 엄밀함을 모두 갖춘 형태로 재구성해 드리겠습니다.

분석 도구로는 jamovi의 사용법을 설명하되, jamovi의 기반이 되는 R 코드를 함께 제시하여 모의 데이터 생성부터 분석, 시각화까지 완벽하게 구현해 드리겠습니다.

1. 들어가며: 우리는 왜 고민하는가?

연구자 여러분, 우리가 다층모형(Multilevel Modeling)을 사용할 때 가장 흔하게 마주치는 질문이 있습니다.

“교사(또는 학교) 효과를 고정 효과(Fixed Effect)로 볼 것인가, 무선 효과(Random Effect)로 볼 것인가?”

이 선택은 단순히 통계적 취향의 문제가 아닙니다. 이 선택에 따라 모수의 해석이 달라지고, 추정의 효율성(Efficiency)과 편향(Bias) 사이의 중대한 트레이드오프(Trade-off)가 발생하기 때문입니다.

고정 효과(FE): 각 그룹(학교)을 고유한 특성을 가진 개별적 존재로 보고, 그 자체를 변수로 투입합니다.
무선 효과(RE): 각 그룹을 모집단에서 추출된 하나의 표본으로 보고, 그룹 효과가 정규분포를 따른다고 가정합니다.

이 글에서는 이 두 모델의 차이를 명확히 하고, 하이브리드 모델(Hybrid Model)이라는 아주 매력적인 대안까지 함께 알아보겠습니다.

2. 시나리오: “방과 후 자습 시간은 성적을 올리는가?”

이해를 돕기 위해 가상의 교육 데이터를 만들어 봅시다.

연구 문제: 학생의 ‘방과 후 자습 시간( $x$ )’이 ‘수학 성취도( $y$ )’에 미치는 영향.
데이터 구조: 학생( $i$ )들은 여러 학교( $j$ )에 소속되어 있음 (2수준 데이터).
숨겨진 함정(Confounder): 사실 ‘학교의 면학 분위기( $u$ )’가 좋은 학교일수록, 학생들의 자습 시간도 길고 성적도 높습니다. 만약 이 학교 효과를 제대로 통제하지 않으면, 자습 시간의 순수한 효과를 과대평가할 수 있습니다.

먼저, R을 사용하여 이 시나리오에 맞는 모의 데이터를 생성해보겠습니다. (이 코드를 R Studio나 jamovi의 Rj Editor에서 실행하면 데이터를 얻을 수 있습니다.)

# [R Code] 데이터 생성
set.seed(123)
n_schools <- 50    # 학교 수
n_students <- 20   # 학교당 학생 수

# 학교 효과 (면학 분위기): 학교마다 다름
school_effect <- rnorm(n_schools, mean = 0, sd = 10)

# 데이터 프레임 생성
data <- data.frame()

for(j in 1:n_schools) {
  # 자습 시간(X): 학교 효과와 상관이 있도록 설정 (중요! Assumption 위반 상황 연출)
  # 면학 분위기가 좋은 학교 학생들이 공부를 더 많이 함
  study_hours <- rnorm(n_students, mean = 5 + 0.1 * school_effect[j], sd = 1)
  
  # 수학 성취도(Y): 기본점수 + 자습효과(2점) + 학교효과 + 오차
  math_score <- 50 + 2 * study_hours + school_effect[j] + rnorm(n_students, mean = 0, sd = 5)
  
  temp <- data.frame(school_id = factor(j), study_hours, math_score)
  data <- rbind(data, temp)
}

# CSV로 저장 (jamovi에서 불러오기 위함)
write.csv(data, "chap05.csv", row.names = FALSE)

chap05 다운로드

3. 두 모델의 핵심 개념 비교

3.1. 무작위 효과 모델 (Random Effects Model: RE)

무작위 효과 모델은 우리가 흔히 쓰는 다층모형의 기본 형태입니다.

수식은 다음과 같습니다.

$y_{ij} = \beta_{0} + \beta_{1}x_{1ij} + u_{0j} + \epsilon_{ij}$

여기서 $u_{0j}$ 는 학교별 효과(Intercept)인데, RE 모델은 이 $u_{0j}$ 가 평균이 0이고 분산이 $\sigma_{u0}^2$ 인 정규분포를 따른다고 가정합니다.

특징:

부분 풀링(Partial Pooling): 전체 학교의 정보를 빌려와서 추정하므로, 데이터가 적은 학교의 추정치도 안정적입니다(수축 효과, Shrinkage).
효율성: 추정해야 할 파라미터가 적어(분산만 추정하면 됨) 통계적으로 효율적입니다.
치명적 가정: 학교 효과( $u_{0 j}$ )와 설명변수( $x_{1 i j}$ , 자습시간)가 서로 독립이어야(상관이 없어야) 합니다.
- 문제점: 위 시나리오처럼 ‘면학 분위기가 좋은 학교( $u$ ↑)’일수록 ‘자습 시간( $x$ ↑)’이 길다면, 이 가정이 깨지고 결과는 편향(Bias)됩니다.

3.2. 고정 효과 모델 (Fixed Effects Model: FE)

고정 효과 모델은 각 학교를 고유한 더미 변수(Dummy Variable)로 취급하거나, 학교 평균을 빼버리는 방식(De-meaning)을 사용합니다.

$y_{ij} – \bar{y}_{j} = \beta_{1}(x_{1ij} – \bar{x}_{1j}) + (\epsilon_{ij} – \bar{\epsilon}_{j})$

직관적 이해: 학교 간의 차이는 아예 보지 않겠다는 뜻입니다. 오로지 “같은 학교 내에서(Within-school)” 자습 시간이 늘어날 때 성적이 오르는지만 봅니다.
특징:
1. 편향 제거: 학교 효과( $u_{0j}$ )가 자습 시간( $x$ )과 상관이 있든 없든 상관없습니다. 학교 고유의 특성을 완벽히 통제합니다.
2. 비효율성: 학교 수만큼의 더미 변수를 만드는 셈이므로 자유도(df)를 많이 잡아먹습니다.
3. 한계: 시간(또는 그룹)에 따라 변하지 않는 변수(예: 학교의 설립 유형, 지역)의 효과는 추정할 수 없습니다. 다 삭제되기 때문입니다.

4. 분석 실습: jamovi & R

이제 jamovi를 이용해 두 모델을 분석하고 비교해 보겠습니다.

4.1. 고정 효과(FE) 분석 (in jamovi)

jamovi에는 ‘Panel Fixed Effects’ 전용 버튼은 없지만, 일반 선형 회귀(Linear Regression)에서 학교 ID를 더미 변수로 넣거나, GAMLj 모듈을 사용하여 구현할 수 있습니다. 가장 교과서적인 ‘Within Estimator’ 방식은 변수를 중심화(Centering)하여 분석하는 것입니다.

[jamovi 절차]

데이터 열기: 위에서 만든 chap05.csv를 엽니다.
변수 계산 (Compute):
- mean_study_hours = VMEAN(study_hours, group_by=school_id) (학교별 평균 자습시간)
- within_study_hours = study_hours – mean_study_hours (학교 평균 중심화)
분석 (Linear Regression):
- 종속변수: math_score
- 공변량: within_study_hours (이때 학교 간 차이는 이미 제거되었습니다.)
- (참고: 엄밀한 FE 추정치는 더미변수를 넣어야 하지만, 계수값 $\beta_1$ 은 중심화된 변수 회귀와 동일한 원리를 갖습니다.)

4.2. 무작위 효과(RE) 분석 (in jamovi)

[jamovi 절차]

메뉴: Linear Models > Mixed Model 선택.
설정:
- Dependent Variable: math_score
- Covariates: study_hours
- Cluster: school_id
- Random Effects: Intercept 체크 (학교별 절편을 무작위로 가정).

4.3. 결과 비교 및 하우스만 검정 (Hausman Test)

전통적으로 이 두 모델 중 무엇을 쓸지 결정할 때 하우스만 검정을 사용합니다.

귀무가설( $H_0$ ): RE와 FE의 추정치 차이가 없다 (즉, RE가 효율적이고 편향도 없으니 RE를 써라).
대립가설( $H_1$ ): 차이가 있다 (즉, RE는 편향되었으니 FE를 써라).

jamovi의 기본 메뉴에는 하우스만 검정이 없으므로, R 코드를 통해 수행하거나 뒤에 소개할 하이브리드 모델로 대체하여 판단합니다.

# [R Code] FE vs RE 및 하우스만 검정
library(plm)

# 1. 고정 효과 모델 (Fixed Effects)
fe_model <- plm(math_score ~ study_hours, data=data, index=c("school_id"), model="within")

# 2. 무작위 효과 모델 (Random Effects)
re_model <- plm(math_score ~ study_hours, data=data, index=c("school_id"), model="random")

# 3. 하우스만 검정
phtest(fe_model, re_model)


	Hausman Test

data:  math_score ~ study_hours
chisq = 192.49, df = 1, p-value < 2.2e-16
alternative hypothesis: one model is inconsistent

해석: 만약 p-value가 0.05보다 작다면, RE 모델의 가정(학교효과와 $X$ 가 독립)이 기각된 것입니다. 즉, 편향이 발생했으므로 FE를 써야 한다는 신호입니다.

5. 최선의 대안: 하이브리드 모델 (Hybrid Model)

많은 학자들은 FE와 RE 중 하나만 고르는 이분법 대신, 두 모델의 장점을 합친 하이브리드 모델을 추천합니다. 이 모델은 ‘Mundlak 모델’ 또는 ‘Group-Mean Centering’ 방법으로도 불립니다.

5.1. 하이브리드 모델의 원리

설명변수 $x_{ij}$ 를 두 부분으로 쪼개서 모델에 넣습니다.

$y_{ij} = \beta_{0} + \beta_{W}(x_{ij} – \bar{x}_{j}) + \beta_{B}(\bar{x}_{j}) + u_{0j} + \epsilon_{ij}$

$\beta_{W}$ (Within effect): 학교 내 효과. 학생이 자기 학교 평균보다 더 공부했을 때 성적이 얼마나 오르는가? (= 고정 효과 추정치와 동일).
$\beta_{B}$ (Between effect): 학교 간 효과. 공부를 많이 시키는 학교가 성적이 더 높은가?
장점:
1. 변수 간 상관으로 인한 편향 문제 해결 (FE의 장점).
2. 학교 수준 변수나 학교 간 차이도 추정 가능 (RE의 장점).
3. $\beta_{W}$ 와 $\beta_{B}$ 가 같은지 검정하여(Wald test), 맥락 효과(Contextual Effect)가 있는지 볼 수 있음.

5.2. jamovi에서 하이브리드 모델 구현하기

이것이 오늘 강의의 핵심 꿀팁입니다. 별도의 코딩 없이 jamovi 메뉴만으로 가능합니다.

[jamovi 실습 절차]

변수 생성:
- 앞서 만든 mean_study_hours (학교 평균, Between 성분)
- 앞서 만든 within_study_hours (개인 편차, Within 성분)
Mixed Model 분석:
- Linear Models > Mixed Model
- Dependent Variable: math_score
- Covariates: within_study_hours 그리고 mean_study_hours 두 개를 모두 넣습니다.
- Cluster: school_id
- Random Effects: Intercept

[결과 해석]

within_study_hours의 계수: 이것이 바로 순수한 개인 노력의 효과입니다. 학교 분위기(교란변수)가 통제된 FE 추정치와 같습니다.
mean_study_hours의 계수: 학교 간의 차이 효과입니다. 만약 Within 계수와 Between 계수가 크게 다르다면, 단순히 개인 노력이 아니라 학교 분위기가 성적에 영향을 미치고 있음을 시사합니다.

6. 결론 및 제언

우리가 살펴본 내용을 요약하면 다음과 같습니다.

무작위 효과(RE)는 효율적이지만, 그룹 효과와 설명변수가 관련이 있을 경우 편향될 위험이 있습니다 (교육 데이터에서는 흔한 일입니다).
고정 효과(FE)는 편향을 제거해주지만, 그룹 수준의 변수(예: 사립/공립 여부)를 분석할 수 없고 비효율적일 수 있습니다²¹.
하이브리드 모델은 설명변수를 ‘그룹 내 편차(Within)’와 ‘그룹 평균(Between)’으로 분해하여 모델에 투입함으로써, 편향 제거와 정보 활용이라는 두 마리 토끼를 모두 잡을 수 있는 강력한 방법입니다.

WaurimaL의 조언:

학교 데이터를 분석할 때, 무조건 RE만 돌리지 마세요. 설명변수를 학교 평균 중심으로(Group-mean centering) 변환하여 투입하는 하이브리드 접근법을 사용한다면, 훨씬 더 풍부하고 정확한 교육적 시사점을 얻을 수 있습니다.

📚 참고문헌 (APA Style)

Townsend, Z., Buckley, J., Harada, M., & Scott, M. A. (2013). The choice between fixed and random effects. In The SAGE Handbook of Multilevel Modeling (pp. 73-88). SAGE Publications.
Allison, P. D. (2009). Fixed effects regression models. SAGE.
Bafumi, J., & Gelman, A. (2006). Fitting multilevel models when predictors and group effects correlate. Paper presented at the annual meeting of the Midwest Political Science Association, Chicago, IL.
Hausman, J. A. (1978). Specification tests in econometrics. Econometrica, 46, 1251–1271.
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods (2nd ed.). SAGE Publications.
Wooldridge, J. (2010). Econometric analysis of cross section and panel data. MIT Press.

WaurimaL

Educational Measurement & Psychometrics

태그 보관물: 하우스만검정

Chap05. 고정 효과와 무선 효과의 선택