GCSM Archives - WaurimaL

안녕하세요. 이번에 우리는 유전학적 관점을 구조방정식 모형SEM)에 적용하는 아주 흥미로운 분야인 유전학에서의 구조방정식 모형(structural Equation Modeling in Genetics, 유전 공분산 구조 모델링(GCSM)이라고도 함)에 대해 깊이 있게 다뤄보겠습니다. 흔히 “본성이냐 양육이냐(Nature vs. Nurture)”를 논하지만, 통계학적으로는 이 둘이 어떻게 공분산(변동)을 나눠 갖는지 수치로 추정해 볼 수 있습니다.

교육 현장의 예시를 들어 이해하기 쉽게 살펴보고, R을 활용하여 설명해 드리겠습니다.

1. 유전 공분산 구조 모델링(GCSM)이란?

교육학에서 우리는 학생들의 학업 성취도 차이가 어디서 오는지 궁금해합니다. 부모님의 지능을 물려받아서일까요(유전), 아니면 부모님이 좋은 책을 많이 사주셔서일까요(환경)?

GCSM(Genetic Covariance Structure Modeling)은 이러한 질문에 답하기 위해 가족 데이터(주로 쌍둥이)를 사용하여 관찰된 변수(표현형)의 분산을 유전적 요인과 환경적 요인으로 분해하는 통계적 방법입니다.

기본 아이디어: 가족 간의 유전적 공유 비율(일란성 100%, 이란성 50%)을 알면, 형제간의 상관관계를 통해 보이지 않는 유전과 환경의 효과를 역추적할 수 있습니다.
역사: Martin과 Eaves(1977)가 시작했으며, 초기에는 복잡한 프로그래밍이 필요했으나, LISREL 등 SEM 소프트웨어의 발전으로 대중화되었습니다.

2. 쌍둥이 연구의 핵심: ACE 모델

가장 기본이 되는 모델은 단변량 ACE 모델입니다. 학생의 성적(표현형, Phenotype)을 세 가지 잠재변수로 설명합니다.

2.1 분산의 구성 요소

학생 $i$ 의 성적( $X$ )은 다음과 같이 표현됩니다.

$X_{ij} = aA_{ij} + cC_{ij} + eE_{ij}$

A (Additive Genetic, 상가적 유전): 부모로부터 물려받은 유전자의 합입니다.
- 교육적 예시: 타고난 인지 처리 속도나 작업 기억 용량.
C (Common Environment, 공유 환경): 가족 구성원이 공유하는 환경입니다.
- 교육적 예시: 부모의 사회경제적 지위(SES), 가정 내 장서 수, 같은 학교에 다니는 것.
E (Unique Environment, 비공유 환경): 개인만이 겪는 독특한 환경(측정 오차 포함)입니다.
- 교육적 예시: 나만 겪은 친구 관계, 우연한 사고, 내가 따로 받은 개인 과외, 시험 당일의 컨디션.

2.2 모델의 식별 (Identification)

우리는 잠재변수 A, C, E를 직접 측정할 수 없습니다. 대신 일란성(MZ)과 이란성(DZ) 쌍둥이의 상관계수 차이를 이용합니다.

일란성(MZ): 유전자 100% 공유 ( $r_A = 1.0$ ), 공유 환경 100% 공유 ( $r_C = 1.0$ ).
이란성(DZ): 유전자 50% 공유 ( $r_A = 0.5$ ), 공유 환경 100% 공유 ( $r_C = 1.0$ ).

이 논리를 SEM 경로 모형으로 그리면, MZ 집단과 DZ 집단에 서로 다른 상관계수 제약(constraint)을 걸어 모형을 적합시킬 수 있습니다.

3. [실습] 가상의 학교 데이터를 이용한 ACE 분석

자, 이제 실제 교육 현장의 데이터를 가상으로 생성하여 분석해 보겠습니다.

3.1 시나리오: 고등학생 수학적 문제해결력 연구

상황: 경기도 수원의 한 교육연구소에서 고등학교 1학년 쌍둥이 1,000쌍(MZ 500쌍, DZ 500쌍)을 대상으로 ‘수학적 문제해결력’ 검사를 실시했습니다. 이 능력이 타고난 것인지, 사교육이나 가정환경 덕분인지 알고 싶습니다.

3.2 데이터 생성 (R 코드)

jamovi의 Rj Editor를 켜거나 R Studio에서 아래 코드를 실행하여 데이터를 생성합니다.

# 필요한 패키지 로드
if(!require(MASS)) install.packages("MASS")
set.seed(20260104)

# 1. 파라미터 설정 (우리가 발견하고자 하는 진실)
# 분산 비율: 유전(A)=50%, 공유환경(C)=30%, 비공유환경(E)=20%
a_path <- sqrt(0.5)
c_path <- sqrt(0.3)
e_path <- sqrt(0.2)
N_pairs <- 500 # 각 그룹 당 쌍둥이 쌍 수

# 2. 데이터 생성 함수
generate_twin_data <- function(n, r_a, zygosity) {
  # 공유 환경(C)은 항상 상관 1.0
  C <- rnorm(n)
  
  # 유전(A)은 그룹에 따라 상관이 다름 (MZ=1.0, DZ=0.5)
  Sigma_A <- matrix(c(1, r_a, r_a, 1), 2, 2)
  A_scores <- mvrnorm(n, mu = c(0, 0), Sigma = Sigma_A)
  
  # 비공유 환경(E)은 상관 0 (독립)
  E1 <- rnorm(n)
  E2 <- rnorm(n)
  
  # 표현형(성적) 생성: X = aA + cC + eE
  # Twin 1
  Math1 <- a_path * A_scores[,1] + c_path * C + e_path * E1
  # Twin 2
  Math2 <- a_path * A_scores[,2] + c_path * C + e_path * E2
  
  # 데이터 프레임 반환
  data.frame(
    ID = 1:n,
    Zygosity = zygosity,
    Math1 = 50 + 10 * Math1, # 평균 50, 표준편차 10으로 변환 (T점수 유사)
    Math2 = 50 + 10 * Math2
  )
}

# 3. MZ(일란성) 및 DZ(이란성) 데이터 생성
mz_data <- generate_twin_data(N_pairs, 1.0, "MZ")
dz_data <- generate_twin_data(N_pairs, 0.5, "DZ")

# 전체 데이터 통합
twin_data <- rbind(mz_data, dz_data)

# 데이터 확인 (jamovi로 불러오기 위해 csv 저장 가능)
# write.csv(twin_data, "twin_math_scores.csv", row.names = FALSE)
head(twin_data)

chap35 다운로드

3.3 분석 방법 (jamovi / R lavaan)

일반적인 SEM 도구로는 ‘집단 간 파라미터 제약(MZ는 A상관 1로 고정, DZ는 0.5로 고정)’을 설정하는 것이 매우 까다롭습니다. 따라서 가장 표준적인 방법인 R의 lavaan 패키지를 사용한 코드를 제시합니다. jamovi의 Rj 모듈에 붙여넣어 실행할 수 있습니다.

library(lavaan)

# 모델 정의 (ACE 모델)
ace_model <- '
    # 잠재변수 정의 (분산을 1로 고정하여 척도화)
    A1 =~ NA*Math1 + a*Math1
    A2 =~ NA*Math2 + a*Math2
    C1 =~ NA*Math1 + c*Math1
    C2 =~ NA*Math2 + c*Math2
    E1 =~ NA*Math1 + e*Math1
    E2 =~ NA*Math2 + e*Math2
    
    # 잠재변수의 분산을 1로 고정
    A1 ~~ 1*A1
    A2 ~~ 1*A2
    C1 ~~ 1*C1
    C2 ~~ 1*C2
    E1 ~~ 1*E1
    E2 ~~ 1*E2
    
    # 공분산 제약 조건 (핵심!)
    # C는 MZ, DZ 모두 1로 상관
    C1 ~~ 1*C2 
    
    # E는 상관 없음 (0)
    E1 ~~ 0*E2
'

# 그룹별 A의 공분산 제약 추가
# MZ 그룹: A 상관 1.0
mz_model_add <- '
    A1 ~~ 1.0*A2
'
# DZ 그룹: A 상관 0.5
dz_model_add <- '
    A1 ~~ 0.5*A2
'

# 모델 결합 (lavaan의 cfa나 sem 함수에서는 group 옵션 사용 시 
# 문법 내에서 그룹별 제약을 직접 걸기 까다로울 수 있어, 
# 다중 그룹 분석을 위한 리스트 형태로 제약 조건을 줍니다.)

# *참고: lavaan에서 쌍둥이 모델은 문법이 조금 복잡할 수 있어, 
# 교육적 목적을 위해 간소화된 개념적 코드를 보여드리고,
# 실제로는 OpenMx가 더 자주 쓰임을 알려드립니다.*

# 하지만 여기서는 lavaan 문법으로 가능한 형태를 보여드립니다.
model <- '
    # 회귀 계수(경로)는 a, c, e 라벨을 붙여 두 그룹 간 동일하게 제약(평등 제약)
    Math1 ~ a*A1 + c*C1 + e*E1
    Math2 ~ a*A2 + c*C2 + e*E2
    
    # 잠재변수 분산 1
    A1 ~~ 1*A1; A2 ~~ 1*A2
    C1 ~~ 1*C1; C2 ~~ 1*C2
    E1 ~~ 1*E1; E2 ~~ 1*E2
    
    # 환경(C)의 상관은 항상 1
    C1 ~~ 1*C2
    # 환경(E)은 독립
    E1 ~~ 0*E2
    
    # 유전(A)의 상관은 그룹별로 다름 (아래 group.partial로 처리하거나 별도 명시)
    # MZ에서는 1.0, DZ에서는 0.5여야 함.
    # 이를 위해 phantom variable 기법을 쓰거나 공분산 행렬을 직접 제약해야 함.
'

[해설] 위 코드는 개념적 이해를 돕기 위한 것입니다. 실제 lavaan이나 OpenMx를 쓸 때는 상관계수 $r_A$ 를 MZ 그룹 데이터에는 1.0, DZ 그룹 데이터에는 0.5로 고정값(fixed parameter)으로 할당하여 분석합니다.

결과를 해석하면:

$a^2$ (Heritability): 분산 설명력. 예: 0.5 (수학 점수의 50%는 유전)
$c^2$ (Shared Env): 예: 0.3 (30%는 가정환경)
$e^2$ (Unique Env): 예: 0.2 (20%는 개인 노력/오차)

4. 확장된 모델: 교육학적 적용

단순히 성적 하나만 보는 것이 아니라, 더 복잡한 교육 현상을 설명하기 위해 모델을 확장할 수 있습니다.

4.1 다변량 모델: 수학과 물리의 관계 (Cholesky 분해)

수학을 잘하는 학생이 물리도 잘합니다. 이 상관관계( $r$ )가 유전 때문일까요, 환경 때문일까요?

Cholesky 분해: 변수 간의 공분산을 유전적 공분산( $r_A$ )과 환경적 공분산( $r_C, r_E$ )으로 분해합니다.
발견: 우울과 불안의 관계 연구처럼, 수학과 물리의 높은 상관은 대부분 유전적 요인(Pleiotropy, 다면발현)에 기인할 수 있습니다. 즉, ‘논리적 사고 유전자’가 수학과 물리에 동시에 영향을 미치는 것입니다.

4.2 종단적 모델: 성장의 비밀 (Growth Curve Model)

초등학교부터 고등학교까지 성적의 변화 추이를 봅니다.

잠재 성장 모형: 초기값(Intercept)과 변화율(Slope)을 추정합니다.
연구 결과: 성인기의 인지 능력 수준(Intercept)은 유전적 영향이 크지만, 변화율(감퇴 속도 등)은 비공유 환경의 영향이 클 수 있습니다. 즉, “출발선은 유전이 결정하지만, 달리는 과정은 환경이 좌우한다”는 해석이 가능합니다.

4.3 인과관계의 방향 (Direction of Causation, DoC)

“불안해서 성적이 떨어지는가(A→B), 성적이 나빠서 불안해지는가(B→A)?”

DoC 모델: 쌍둥이 데이터를 이용하면 두 변수 간의 인과 방향을 통계적으로 검증할 수 있습니다.
만약 $X \rightarrow Y$ 라면, 유전적 연관성이 높은 형제일수록 교차 상관(Cross-trait cross-relative correlation)이 높게 나타나는 패턴을 이용합니다.

5. 고급 주제: 유전자와 환경의 상호작용 (GxE, rGE)

교육에서 가장 중요한 부분입니다. 유전과 환경은 독립적이지 않습니다.

5.1 유전자-환경 상관 (rGE)

유전자가 환경에 노출되는 방식에 영향을 줍니다.

수동적(Passive) rGE: 똑똑한 부모가 똑똑한 유전자를 물려주면서 동시에 책이 많은 환경도 제공함.
능동적(Active) rGE: 음악적 재능을 가진 아이가 스스로 밴드 동아리에 가입하고 연습 시간을 늘림.
유발적(Evocative) rGE: 외향적인 아이가 교사의 관심을 더 많이 끌어내어 더 많은 피드백을 받음.

5.2 유전자-환경 상호작용 (GxE)

환경에 따라 유전자의 영향력이 달라집니다.

예시: 좋은 교육 환경(E)에서는 유전적 잠재력(A)이 성적 차이로 잘 드러나지만(높은 유전력), 열악한 환경에서는 타고난 재능이 있어도 발현되지 못해 유전력이 낮아질 수 있습니다. (Scarr-Rowe 가설)
Purcell(2002)의 모델을 사용하여 환경 변수(예: 부모의 SES)가 A, C, E 경로를 조절하는지(Moderation) 검증할 수 있습니다.

6. 결론: 교육자를 위한 시사점

GCSM은 복잡한 수식으로 보이지만, 교육자에게 주는 메시지는 명확합니다.

유전은 운명이 아닙니다. SEM을 통해 우리는 환경(C, E)이 설명하는 분산의 크기를 알 수 있습니다.
개별화 교육의 필요성. 비공유 환경(E)의 영향력은 학생마다 겪는 경험이 다름을 의미합니다.
다변량적 접근. 한 과목의 부진이 다른 과목과 유전적으로 연결되어 있는지(공통 경로 모형 등) 파악하여 근본적인 지원을 할 수 있습니다.

구조방정식은 단순한 인과관계 분석을 넘어, 인간 발달의 복잡한 메커니즘인 유전과 환경의 춤(dance)을 악보(수식)로 그려내는 강력한 도구입니다.

참고 문헌

Balbona, J. V., Kim, Y., & Keller, M. C. (2021). Estimation of parental effects using polygenic scores. Behavior Genetics, 51, 264–278.
Boomsma, D. I., Busjahn, A., & Peltonen, L. (2002). Classical twin studies and beyond. Nature Reviews Genetics, 3(11), 872–882.
Falconer, D. S., & Mackay, T. F. C. (1996). Introduction to quantitative genetics (4th ed.). Pearson.
Martin, N. G., & Eaves, L. J. (1977). Genetic analysis of covariance structure. Heredity, 38, 79–95.
Plomin, R., DeFries, J. C., Knopik, V. S., & Neiderhiser, J. M. (2013). Behavioral genetics (6th ed.). Worth.
Purcell, S. (2002). Variance components models for gene-environment interaction in twin analysis. Twin Research, 5(6), 554–571.
Rijsdijk, F. V., Vernon, P. A., & Boomsma, D. I. (2002). Application of hierarchical genetic models to Raven and WAIS subtests: A Dutch twin study. Behavior Genetics, 32(3), 199–210.

WaurimaL

Educational Measurement & Psychometrics

태그 보관물: GCSM

Chap 35. 유전학에서의 구조방정식 모형(structural Equation Modeling in Genetics)