인과성과 기계학습 I
인과성이란 무엇인가?
인과성은 원인과 결과의 관계를 말합니다. 예를 들어, “비가 오면 땅이 젖는다”에서 비(원인)와 젖은 땅(결과) 사이의 관계가 인과관계입니다.
1.1 인과성 추론의 예
의료 분야에서 자주 사용되는 예를 들어보겠습니다. 환자의 상태(경미 또는 심각)에 따라 치료약 A와 B의 효과를 비교한다고 가정해봅시다.
C가 T와 O에 영향을 끼치는 경우에는 B가 유리
C가 T에 영향을 끼치지 않는 경우 A가 유리
베이즈 볼 알고리즘
이 알고리즘은 변수들 간의 관계를 그래프로 표현하여 인과관계를 추론합니다.
- 체인 구조 (Chain Structure) 형태: X → C → Y 예시: 과거 → 현재 → 미래 특징: X와 Y는 C가 주어졌을 때 조건부 독립
- 포크 구조 (Fork Structure) 형태: X ← C → Y 예시: 이미지1 ← 클래스 → 이미지2 특징: X와 Y는 C가 주어졌을 때 조건부 독립
- 충돌자 구조 (Collider Structure) 형태: X → C ← Z 예시: 남성 → 아기 ← 여성 특징: X와 Z는 독립이지만, C가 주어졌을 때 독립이 아니게 됨
신경망 모델
- T-Net: 각 회귀 작업에 대해 별도의 신경망을 사용합니다.
- S-Net: 여러 작업 간에 정보를 공유하는 구조를 가집니다.
메타러너
- S-Learner: 처리 지표를 추가 특성으로 포함시킵니다.
- T-Learner: 처리군과 대조군에 대해 별도의 모델을 학습시킵니다.
- DR-Learner: 이중 강건 학습기로, 성향 점수나 결과 회귀 중 하나만 정확해도 좋은 성능을 냅니다.
결과 분석
실험 결과, 데이터의 특성에 따라 최적의 모델이 달라질 수 있음을 알 수 있습니다. 예를 들어:
- 교란 변수만 있고 처리 효과가 없는 경우: DR-Learner가 우수
- 교란 변수와 처리 효과가 모두 있는 경우: RA-Learner가 우수
- 처리와 결과에 영향을 미치는 변수가 분리된 경우: Plug-in Learner가 우수
인과 다이어그램
변수 간의 인과관계를 도식화 한 것을 인과다이어그램(Causal Diagram)이라고 합니다. 동그라미로 표시된 노드는 변수를 의미하고, 화살표로 표시된 엣지는 두 변수 간 직접적인 인과 관계를 의미합니다.
위의 그래프에서 T가 Y에 미치는 인과 효과를 알고 싶다면 T←A←B→C→Y로 흐르는 외부 영향을 통제해야합니다.
Causal Discovery
Causal Discovery는 우리가 가진 데이터에서 변수 간 관계를 이용하여 인과 다이어그램을 그리는 방법입니다.
PC 알고리즘
PC 알고리즘은 전통적인 방법 중 하나입니다. 이 알고리즘은 변수들 간의 독립성을 테스트하면서 그래프를 만들어갑니다.
- 모든 변수들을 연결합니다.
- 독립적인 변수들 사이의 연결을 제거합니다.
- 남은 연결들의 방향을 결정합니다.
Continuous Optimization
이 방법은 최근에 개발된 더 현대적인 접근법입니다. 기본 아이디어는 “올바른 인과관계를 학습한 모델은 새로운 상황에 더 빨리 적응할 수 있다”는 것입니다.
과정은 이렇습니다:
- 두 가지 모델을 만듭니다: A가 B를 일으킨다고 가정한 모델과 B가 A를 일으킨다고 가정한 모델.
- 새로운 데이터(개입이 있는 데이터)를 주고 어느 모델이 더 빨리 적응하는지 봅니다.
- 더 빨리 적응하는 모델의 가정이 올바른 인과관계일 가능성이 높습니다.
이 방법의 장점은 복잡한 관계도 잘 찾아낼 수 있다는 것입니다.