Causal ML은 무엇인가?

귀납적 추론만으론 부족했던 ‘왜(Why)’를 알고리즘으로 밝혀내기


1. 왜 또 다른 ML이 필요한가?

오늘날 머신러닝(ML)의 대부분은 귀납적 추론―즉, 관측된 패턴을 찾아내어 미래를 예측―에 기반한다.
하지만 새로운 환경(데이터가 희박하거나 분포가 변한 곳)으로 가면 예측 오류가 급격히 늘어나며 “어떻게 바꿔야 결과가 달라질까?” 같은 What-if 질문에는 답하지 못한다.
이를 해결하기 위해 등장한 접근이 인과추론(causal inference), 그리고 그 정신을 ML에 녹여낸 Causal Machine Learning(Causal ML) 이다.


2. 인간의 추론 스펙트럼과 Causal ML의 위치

 

추론 방식 핵심 질문 예 시
귀납(Induction) 패턴은 무엇인가? 데이터에서 암 진단 패턴 학습
연역(Deduction) 규칙이 맞다면 결과는? A⇒B, B⇒C → A⇒C
귀류/귀추/유추/베이즈 모순 찾기·가설 만들기·확률 갱신 탐정 추리·AB 테스트·사후확률 업데이트
인과추론(Causality) 원인이 바뀌면 결과가 어떻게 바뀔까? 광고 노출을 늘리면 구매가 늘어날까?
 

Causal ML은 연역적 추론의 한 갈래인 인과추론의 틀을 ML 알고리즘 위에 얹어,

  • 관측 데이터 + 잠재적(반사실) 결과
  • 확률적 가정 + 도구적 변수/실험 설계
    를 이용해 “변수를 조작했을 때의 변화”를 수치화한다.

3. Causal ML의 핵심 개념 한눈에 보기

 

용어 의미 쉬운 비유
Treatment(처치) T 바꿔 보고 싶은 요인 약 투여, 광고 노출, 버튼 색상
Outcome Y 결과 변수 혈압, 구매, 클릭
Potential Outcome Y(1), Y(0) _같은 사람_에게 처치를 할/안 할 때 각각 나올 결과(가상) “약 먹었으면 … ?”, “안 먹었으면 … ?”
Average Treatment Effect(ATE) 전체 평균 효과 (치료군 평균 – 대조군 평균)
Conditional ATE(CATE) 조건부 평균 효과 특정 연령·질병군에 한정된 효과
Individual Treatment Effect(ITE) 개인 수준의 효과 “이 환자에게 약이 필요할까?”
SUTVA·Positivity·Unconfoundedness 식별 가능성(identifiability)을 위한 3대 가정 서로 간섭 X, 모든 경우 확률 > 0, 숨은 변수 X
 

핵심: 실제로는 한 사람당 Y(1) 또는 Y(0) 중 하나만 관측된다. 나머지는 반사실(counter-factual) 이므로 통계/ML 가정으로 메워야 한다.


4. Causal ML 워크플로우

  1. 문제 구조 정식화
    • 변수 나열(T, Y, X) → 인과 그래프(DAG) 로 가정 관계 그리기
  2. Estimand 선택
    • ATE / ATT / CATE / ITE / Dose-response 등 ‘무엇을 추정?’ 결정
  3. 식별성 가정 검토
    • SUTVA, Positivity, Unconfoundedness 충족 여부 확인(RCT vs 관측 데이터)
  4. 추정 방법(Estimator) 선택·학습
    • RCT(골드 스탠더드)
    • Confounder control · 성향점수(Propensity score) 매칭/가중치
    • IV(Instrumental Variable) → LATE
    • Meta-learner(S/T/X/R learner), Causal Tree/Forest, Doubly Robust, Causal Nets
  5. 검증 & 불확실성 평가
    • 오버랩 확인, 밸런스 플롯, Placebo test, Bootstrap CI 등
  6. 의사결정에 연결
    • 최적 정책(policy) 시뮬레이션, ROI/Risk trade-off, KPI 모니터링

5. 주요 추정 전략 요약

 

전략 언제 쓸까 장점 주의점
RCT (ATE) 실험 설계 가능할 때 혼란 요인 제거 ↑, 해석 쉬움 비용·윤리·시간
Confounder Control (CATE) 관측 데이터, 혼란 변수 측정 가능 실제 환경 활용 숨은 변수 위험
IV (LATE) 측정 불가 혼란 변수가 의심될 때 식별성 확보 유효한 IV 찾기 難, 국소효과
 

6. 사례로 보는 Causal ML 활용

  • 의료
    •  환자 EHR + 유전정보로 항암제 개별 효과 추정 → 맞춤 치료
  • 추천 시스템
    •  넷플릭스 ‘오징어 게임’ 배치 위치 변경이 시청 시간에 미치는 영향
  • 마케팅
    •  업리프트 모델로 광고에 반응할 “설득 가능 고객” 선별 → CAC ↓, ROI ↑
  • 공공 정책
    •  탄소배출 보조금이 기업 R&D 투자에 미치는 인과 효과 평가

7. 한계와 실무 팁

  1. 데이터 정합성 > 알고리즘
    • DAG 가설 → 도메인 전문가 검증 필수
  2. 가정 검증은 계속
    • SUTVA 위반(네트워크 효과 등)·선택 편향 체크
  3. 불확실성 표시
    • 95% CI 또는 posterior distribution 함께 보고
  4. 의사결정 속도 vs 근거 깊이
    • 모든 경우 RCT 불가 → 증거 피라미드 상단(메타분석)만 고집 X
    • 시간·자원 제약에 맞춰 귀납 ML + Causal ML 혼합 전략

마치며

Causal ML은 예측을 넘어 개입의 결과를 추정 함으로써

  • 비즈니스 KPI를 움직이는 레버(레지버) 가 무엇인지 밝히고,
  • 제한된 자원 · 시간 속에서 최적의 의사결정을 가능케 한다.

“데이터가 말해 주는 상관관계”에 머무르지 않고
“무엇이 결과를 바꿀 수 있는가”를 알고 싶다면,
이제 Causal ML을 여러분의 도구 상자에 넣어 두길 권한다. 🛠️

+ Recent posts