[개념 정리] WassersteinGAN
WassersteinGAN
Metric (Distance)
- 특징
- 𝒅(𝑥, 𝑦) ≥ 0
- 𝒅(𝑥, 𝑦) = 0 ⟷ x = y
- 𝒅(𝑥, 𝑦) = 𝒅(𝑦, 𝑥) → x, y는 대칭
- 𝒅(𝑥, 𝑧) ≤ 𝒅(𝑥, 𝑦) + 𝒅(𝑦, 𝑧)
- 공간 별 metric
- 실수공간 ℝ, 복소공간 ℂ : |𝑥 - 𝑦|
- 유클리드 공간 ℝn : 유클리드 거리 √(∑|𝑥 - 𝑦|²)
- 맨헤튼 거리 : ∑|𝑥 - 𝑦|
- 힐베르트 공간 : 내적 𝒅(𝑢, 𝑣) = √((𝑢, 𝑣) ∙ (𝑢, 𝑣))
- 함수 공간(L1공간 L2공간)
- 수렴을 정의하기 위해 Metric 개념이 중요
⇨ 거리함수가 바뀌면 수렴의 방식이 바뀜
- 수렴간의 비교
- 𝒅₁-수렴이 𝒅₂수렴보다 강하다 (𝒅₁ is stronger than 𝒅₂)
- 𝒅₁(𝑥, 𝑦) → 0 ⇒ 𝒅₂(𝑥, 𝑦) → 0
- 거꾸로 성립 : 약하다 (weaker)
- 양방향 성립 : 동등하다 (equivalent)
- 유클리드 거리 and 맨헤튼 거리
- 공간마다 차이 때문에 항상 비교 가능한건 아님
- 𝒅₁-수렴이 𝒅₂수렴보다 강하다 (𝒅₁ is stronger than 𝒅₂)
- 유한 측도를 가진 공간에서는 다음이 성립
- L∞ ⇒ L2 ⇒ 측도 수렴 (converge in measure)
- WassersteinGAN에서는 확률분포 공간에서의 Wasserstein distance를 다룸
Compact metric set
- compact 집합을 가져온 이유
- 연속함수들이 항상 최대 최소를 가짐 (최대 최소의 정리)
- 모든 확률변수 𝑿에 대해 조건부 확률분포가 정의
- 완비공간이다 (Complete space)
- 확률 측도 = 확률 분포
Different Distance (Metrics)
Total Variation (TV)
Kullback-Leibler divergence
- metric의 특징(대칭성, 삼각부등식)이 성립 X
- 그래도 사용가능
- stronger than TV
- 𝛳 ≠ 0 → ㏒ = ∞ → KL = ∞ (발산)
Jensen-Shanonon divergence
- Equivalent with TV
- 𝛳 ≠ 0 → JS = ㏒2
- ㏒2 로 고정되어서 얼마나 먼지 모름
TV, KL, JS는 두 확률분포가 다른 영역에서 측정된 경우 완전히 다르다 라고 판단 ⇨ GAN에서 Discrimitor의 학습이 죽는 원인
즉, 유연하면서 수렴에 Focus가 집중된 metric이 필요
EM distance or Wasserstein distance
- 𝛱(P, Q) : P, Q의 결합확률분포
- 모든 결합 확률분포 중 𝒅(𝑥, 𝑦)의 기댓값 중 하한값
- 𝔼(𝒅(𝑥, 𝑦)) ≥ |𝛳|
- 𝑍₁ = 𝑍₂ → 𝒅(𝑥, 𝑦) = |𝛳|
- 즉, 𝑊 = |𝛳|
EM distance와 JS divergence 비교
This post is licensed under CC BY 4.0 by the author.