mir.pe (일반/어두운 화면)
최근 수정 시각 : 2024-11-19 20:34:35

인과추론


통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 ·
자료 시각화
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 인과추론이란

인과추론(Causal Inference)은 어떤 사건이나 변수 간의 인과 관계를 이해하고 추정하는 과정이다. 즉, 하나의 변수(원인)가 다른 변수(결과)에 어떤 영향을 미치는지, 그 관계를 명확하게 밝히고자 하는 분석이다.

예를 들어, 특정 치료법이 질병에 어떤 영향을 미치는지, 교육이 소득에 어떤 영향을 미치는지 등의 인과 관계를 분석할 때 사용된다.

2. 흥미로운 질문

"만약 내가 X 대학이 아니라 Y 대학을 갔다면 지금 소득이 얼마일까?" 같은 물음에는 어떻게 답할 수 있을까?
아주 간단하게는 '과거의 나'를 복제해, Y 대학을 보낸 뒤, 지금 소득을 구하면 된다.
(이 때, Y 대학을 보내면서 키를 10cm 커지게 하고 나아가 외모까지 좋게 만들면 대학만의 효과를 구할 수 없다!)
하지만 당연히 이런 실험을 할 수는 없다.

그럼에도 저 질문에 대한 정답을 추정할 수는 있다. 통계의 힘으로.
나와 비슷한데 대학만 다른 사람들의 데이터를 모아서 추정하면 된다.
즉, '나와 비슷하면서 X 대학을 간 사람 천 명의 소득'과 '나와 비슷하면서 Y 대학을 간 사람 천 명의 소득'을 비교하면 끝이다.
물론 나와 완전 똑같은 사람은 없기에, 비슷함의 정도를 보정해야 하고, 표본이 많고 적음에 따라 생기는 추정오차를 고려해야 하고 등등 할 일은 아직 많다.

3. 다른 예시

A/B 테스트는 인과추론을 실험적으로 적용하는 대표적인 방법 중 하나다. 예컨대 웹사이트 버튼 색상 변경이 클릭률에 미치는 영향을 밝히려고 한다고 치자.

다음과 같이 실험 설계를 할 수 있다.

A 그룹 : 기존의 빨간색 버튼을 사용하는 사용자 그룹
B 그룹 : 새로운 파란색 버튼을 사용하는 사용자 그룹

단, 이 때 각 사용자가 어떤 그룹에 배정될지는 랜덤해야 한다. 그래야만 인과추론에서 중요한 개념인 ceteris paribus(다른 조건이 동일하다면)을 충족할 수 있기 때문이다. 경제학 전공자라면 많이 들어본 용어일 것이다

예를 들어 A 그룹은 50살 이상, B 그룹은 50살 미만 사용자로 구성한다면? 버튼 색상 뿐 아니라 나이까지 포함되기 때문에 정확한 버튼 색상의 효과를 추정할 수 없다.

한편 랜덤하게 사용자를 배정하는 방법이 능사는 아닌데, 극단적으로 A 그룹에 2명, B 그룹에 2명 이렇게만 배정하면 우연히도 A 그룹엔 노년층, B 그룹엔 청년층이 배정될 수도 있다. 그래서 각 그룹에는 많은 사용자가 배정되도록 하고, 이를 통해 평균적으로 두 그룹이 동일하도록(즉, ceterise paribus 하도록) 만드는 것이다.

4. 나아가서

A/B 테스트는 인과추론 모형 중 가장 간단하여 짤막히 소개했지만, 좀 더 복잡한 인과관계를 추정하는 모형도 많다.

그래프(이산수학)를 활용한 인과추론 모형은 Judea Pearl의 저서 The Book Of Why tmi가 너무 많다 가 좋은 입문서로 꼽힌다.

한편 인과추론 모형 전반을 소개하는 책으로는 Causal Inference For Brave and True를 많이들 추천하는데, 해당 책은 웹페이지를 통해 무료로 볼 수 있다.

분류