[질문/답] DDPM에서 pθ(xt−1∣xt)를 학습할 때는 q(xt−1∣x0)에 일치 시키면 안되는가?

**결론부터 말씀드리면**, \(\\\) DDPM에서 \(\displaystyle p_\theta(x_{t-1}\mid x_t)\)를 학습할 때는 **\(\displaystyle q(x_{t-1}\mid x_t, x_0)\)**와 일치시키는 것이 맞고, \(\displaystyle q(x_{t-1}\mid x_0)\)와 직접 일치시키는 것은 올바른 방식이 아닙니다. 아래에 그 이유를 좀 더 구체적으로 정리해 드리겠습니다. \(\\\) 1. Forward Process와 Posterior의 정의 \(\\\) DDPM(또는 일반적인 마코프 체인 기반 확산 모델)에서 **Forward Process**는 \[ q(x_1, x_2, \dots, x_T \mid x_0) = \prod_{t=1}^T q(x_t \mid x_{t-1}) \] 형태로 정의됩니다. 즉, 깨끗한 데이터 \( x_0 \)에서 시작하여 \( x_1 \), \( x_2 \), \(\dots\), \( x_T \)에 이르는 과정에서 점진적으로 노이즈가 추가되는 마코프 체인이죠. 그렇다면 ‘\(\displaystyle x_t\)가 주어졌을 때, \(\displaystyle x_{t-1}\)는 어떻게 분포할까?’를 묻는다면, 이는 \[ q(x_{t-1} \mid x_t, x_0) \] 이라는 **Posterior 분포**(역방향 확률)로 표현됩니다. - 마코프 체인 상, \( x_{t-1} \to x_t \) 순으로 노이즈가 붙었다면, “이미 \(\displaystyle x_t\)를 알고 있을 때 \(\displaystyle x_{t-1}\)가 무엇이었을까?”는 당연히 \(\displaystyle x_t\)와 \(\displaystyle x_0\)에 모두 의존하게 됩니다. - 따라서 **정확한 역방향 분포**(posterior)는 \(\displaystyle q(x_{t-1}\mid x_t, x_0)\)가 됩니다. \(\\\) 2. \(\displaystyle p_\theta(x_{t-1}\mid x_t)\)를 왜 \(\displaystyle q(x_{t-1}\mid x_t, x_0)\)와 맞추는가? \(\\\) DDPM에서 모델이 학습해야 하는 ‘역확산(denoising)’ 과정은 \[ p_\theta(x_{t-1} \mid x_t) \] 라는 파라미터화된 확률 분포를 통해 구현됩니다. 즉, 현재 시점의 노이즈 섞인 샘플 \( x_t \)에서 한 단계 덜 노이즈가 섞인 \(\displaystyle x_{t-1}\)를 복원하는 ‘**역방향**’ 과정인 것이죠. - **원리**: 실제(또는 이상적인) 역방향 분포가 있다면, 그것은 정확히 \[ q(x_{t-1} \mid x_t, x_0) \] 이라고 할 수 있습니다. - **학습 목표**: 우리가 정의한 모델 분포 \[ p_\theta(x_{t-1}\mid x_t) \] 가 위의 참(posterior) 분포와 가깝도록(예: KL Divergence 최소화) 학습하겠다는 것입니다. 즉, **“\(\displaystyle x_0\)를 알고 있는 상태에서 ‘\(\displaystyle x_t\)’가 관측되었을 때 \(\displaystyle x_{t-1}\)가 어떻게 분포하는가?”**가 진짜 우리가 맞추고 싶은(=흉내 내고 싶은) 분포이므로, 이를 모델로 근사하는 것이 DDPM의 핵심 아이디어입니다. \(\\\) 3. 그럼 \(\displaystyle q(x_{t-1}\mid x_0)\)와 맞추면 안 되나? \(\\\) \(\displaystyle q(x_{t-1}\mid x_0)\)는 - “\(\displaystyle x_0\)가 있을 때 \(\displaystyle x_{t-1}\)는 어떻게 분포하는가?”를 묻지만, - **중간 단계** \( x_t \)가 주어졌다는 정보를 반영하지 않습니다. 즉, 역방향 과정에서 **실제로** 우리가 알고 있는(=실제로 들어오는 입력) 정보는 “시점 \(t\)의 노이즈 섞인 샘플 \( x_t \)”입니다. - 모델 입장에서는 “\(\displaystyle x_t\)가 이렇게 주어졌으니 \(\displaystyle x_{t-1}\)를 어떻게 복원할까?”가 궁금하지, - 단순히 \(\displaystyle x_0\)만 보고 \(\displaystyle x_{t-1}\) 분포를 이야기하는 것은 현재 시점의 입력 \( x_t \)를 무시해버리는 셈입니다. 조금 더 이론적으로 보면, **Markov Chain**에서 \( x_{t-1} \)와 \( x_{t+1} \)는 중간 단계 \( x_t \)를 통해 이어집니다(조건부 독립 구조). - 역으로 말하면, \( x_t \)를 모르는 상태의 분포 \(\displaystyle q(x_{t-1}\mid x_0)\)는 우리가 실제로 ‘복원’할 때 사용할 정보(\( x_t \))를 배제한 것이므로, **역방향 전이**를 나타내지 못합니다. \(\\\) 4. 요약 \(\\\) \(\\\) 1. Forward Process: \(\\\) \(\displaystyle x_0 \to x_1 \to \dots \to x_T\)로 노이즈를 점진적으로 추가 \(\displaystyle q(x_t \mid x_{t-1})\)로 정의 \(\\\) 2. 역방향(Posterior) 분포: \(\\\) \[ q(x_{t-1}\mid x_t, x_0) \quad\Longleftarrow\quad \text{"실제로는 } x_t \text{가 주어졌을 때 } x_{t-1} \text{는?"} \] \(\\\) 3. DDPM 모델 학습: \(\\\) \[ p_\theta(x_{t-1}\mid x_t)\; \approx\; q(x_{t-1}\mid x_t, x_0) \] - 이상적인 역방향 확률(Posterior)인 \(\displaystyle q(x_{t-1}\mid x_t, x_0)\)를 최대한 유사하게 모델링 - \(\displaystyle q(x_{t-1}\mid x_0)\)는 \(\displaystyle x_t\) 정보를 포함하지 못하므로, 올바른 타깃이 아님 \(\\\) 4. 직관: \(\\\) 실제 모델이 “\(\displaystyle x_t\)”를 입력받아야 하는 상황에서, “\(\displaystyle x_{t-1}\)”에 대한 올바른 조건부분포(Posterior)를 학습하기 위함. \(\\\) 정리하면 \(\\\) - \(\displaystyle q(x_{t-1}\mid x_t, x_0)\)는 Forward Process에서 **실제**로 필요한 “역방향”(Posterior) 정보입니다. - \(\displaystyle q(x_{t-1}\mid x_0)\)는 “중간 샘플 \(\displaystyle x_t\)”를 **조건**에 포함하지 않으므로, 우리가 학습하려는 “\(\displaystyle x_t\)에서 \(\displaystyle x_{t-1}\)로 복원”하는 과정과 맞지 않습니다. 결국 DDPM에서 \(\displaystyle p_\theta(x_{t-1} \mid x_t)\)를 학습할 때는, “\(\displaystyle x_t\)가 주어졌을 때 \(\displaystyle x_{t-1}\)가 어떻게 분포할까?”의 참 값인 \(\displaystyle q(x_{t-1}\mid x_t, x_0)\)를 근사해야 **정확한 역방향 전이**를 배울 수 있게 됩니다.

'학술 > deep learning' 카테고리의 다른 글

DDPM에서 원본 데이터 복원 신경망에서 x_0를 예측 하는 이유 (0)	2025.03.21
DDPM에서 노이즈 예측 신경망 평균 공식 유도 (0)	2025.03.21
윈도우에서 tensorrt 설치 하기 및 python 확인 (2)	2022.05.20

headway 블로그

[질문/답] DDPM에서 pθ(xt−1∣xt)를 학습할 때는 q(xt−1∣x0)에 일치 시키면 안되는가?

'학술 > deep learning' 카테고리의 다른 글

티스토리툴바

[질문/답] DDPM에서 pθ(xt−1∣xt)를 학습할 때는 q(xt−1​∣x0​)에 일치 시키면 안되는가?

'학술 > deep learning' 카테고리의 다른 글

'학술/deep learning' Related Articles

티스토리툴바

[질문/답] DDPM에서 pθ(xt−1∣xt)를 학습할 때는 q(xt−1∣x0)에 일치 시키면 안되는가?