주어진 식의 증명은 조건부 기대값의 정의와 베이즈 추론, 로그 우도의 그라디언트를 계산하는 과정을 통해 이루어집니다. 여기서 \( \mathbb{E}[\mu | x] = x + \sigma^2 \nabla_x \log p(x) \) 또는 \( \mathbb{E}[\mu | x] = x + \sum \nabla_x \log p(x) \)의 형태는 관측값 \( x \)에 대한 사후 확률 \( p(\mu | x) \)를 활용합니다.
- 조건부 기대값 정의
조건부 기대값은 다음과 같이 정의됩니다: \[ \mathbb{E}[\mu | x] = \int \mu \, p(\mu | x) \, d\mu \] 베이즈 정리를 통해 \( p(\mu | x) \)는 다음과 같이 표현됩니다: \[ p(\mu | x) = \frac{p(x | \mu)p(\mu)}{p(x)} \] 여기서: - \( p(x | \mu) \): 관측값 \( x \)의 우도 - \( p(\mu) \): \( \mu \)의 사전 확률 - \( p(x) = \int p(x | \mu)p(\mu)d\mu \): 정규화 상수 - 로그 우도 그라디언트 계산
로그 우도를 계산하면: \[ \log p(x) = \log \int p(x | \mu)p(\mu)d\mu \] 로그 우도의 그라디언트 \( \nabla_x \log p(x) \)는 다음과 같이 정의됩니다: \[ \nabla_x \log p(x) = \frac{\nabla_x p(x)}{p(x)} \] 정규화 상수 \( p(x) \)에 대한 미분은 다음과 같습니다: \[ \nabla_x p(x) = \nabla_x \int p(x | \mu)p(\mu)d\mu \] 우도의 \( x \)에 대한 그라디언트를 계산하면: \[ \nabla_x p(x | \mu) = -\frac{x - \mu}{\sigma^2} p(x | \mu) \] 따라서: \[ \nabla_x p(x) = \int \left( -\frac{x - \mu}{\sigma^2} \right) p(x | \mu)p(\mu)d\mu \] 이를 \( \nabla_x \log p(x) \)에 대입하면: \[ \nabla_x \log p(x) = -\frac{1}{\sigma^2 p(x)} \int (x - \mu) p(x | \mu)p(\mu)d\mu \] - 조건부 기대값과 연결
조건부 확률 \( p(\mu | x) \)를 사용하면: \[ \nabla_x \log p(x) = -\frac{1}{\sigma^2} \left( x - \int \mu p(\mu | x)d\mu \right) \] 여기서 \( \mathbb{E}[\mu | x] = \int \mu p(\mu | x)d\mu \)를 대입하면: \[ \nabla_x \log p(x) = -\frac{1}{\sigma^2} (x - \mathbb{E}[\mu | x]) \] 이를 \( \mathbb{E}[\mu | x] \)에 대해 풀면: \[ \mathbb{E}[\mu | x] = x + \sigma^2 \nabla_x \log p(x) \] - 일반화된 형태 \( \sum \nabla_x \log p(x) \)
벡터 \( x \)의 경우, \( \nabla_x \log p(x) \)는 \( p(x) \)의 각 성분에 대한 그라디언트를 나타냅니다. 스칼라 \( x \) 대신 벡터 \( \mathbf{x} \)를 고려하면: \[ \mathbb{E}[\mu | \mathbf{x}] = \mathbf{x} + \sigma^2 \nabla_{\mathbf{x}} \log p(\mathbf{x}) \] 여기서 \( \nabla_{\mathbf{x}} \log p(\mathbf{x}) \)는 각 차원 \( i \)에 대해: \[ \nabla_{\mathbf{x}} \log p(\mathbf{x}) = \left( \frac{\partial \log p(\mathbf{x})}{\partial x_1}, \frac{\partial \log p(\mathbf{x})}{\partial x_2}, \dots \right) \] 따라서: \[ \mathbb{E}[\mu | \mathbf{x}] = \mathbf{x} + \sigma^2 \sum_i \nabla_{x_i} \log p(\mathbf{x}) \]
결론 주어진 식 \( \mathbb{E}[\mu | x] = x + \sum \nabla_x \log p(x) \)는 조건부 기대값의 정의와 로그 우도 그라디언트를 결합하여 증명되었습니다. 이 공식은 베이즈 추론에서 중요한 결과로, 관측값 \( x \)를 기반으로 숨겨진 변수 \( \mu \)를 추정하는 데 사용됩니다.
[참고 1] 식 \[ p(x) = \int p(x | \mu) p(\mu) d\mu \] 는 **전체 확률의 법칙**에 기반한 결과입니다. 이 식의 의미와 이유를 단계별로 설명드리겠습니다.
- 전체 확률의 법칙
확률론에서 어떤 사건 \( x \)의 확률은 모든 가능한 원인 \( \mu \)에 대한 확률의 합으로 표현될 수 있습니다. \[ p(x) = \sum_{\mu} p(x, \mu) \] 여기서 \( p(x, \mu) \)는 \( x \)와 \( \mu \)가 동시에 발생할 확률(결합 확률)입니다. 연속 확률 분포에서는 합이 적분으로 대체되므로: \[ p(x) = \int p(x, \mu) d\mu \] - 결합 확률의 분해
결합 확률 \( p(x, \mu) \)는 조건부 확률의 정의에 따라 다음과 같이 분해됩니다: \[ p(x, \mu) = p(x | \mu) p(\mu) \] 여기서: - \( p(x | \mu) \): 주어진 \( \mu \)에서 \( x \)가 발생할 조건부 확률. - \( p(\mu) \): \( \mu \)의 사전 확률(사전에 알고 있는 \( \mu \)의 분포). 이를 결합 확률 표현에 대입하면: \[ p(x) = \int p(x | \mu) p(\mu) d\mu \] - 의미
이 식은 다음을 나타냅니다: - \( p(x) \): \( x \)가 관찰될 전체 확률. - \( p(x | \mu) \): 특정 \( \mu \)가 주어졌을 때 \( x \)가 발생할 확률. - \( p(\mu) \): \( \mu \)의 분포를 반영하여 모든 가능한 \( \mu \)에 대해 \( p(x | \mu) \)를 가중 평균한 값. 즉, \( x \)의 확률은 모든 \( \mu \)에 대해 \( \mu \)가 일어날 가능성(\( p(\mu) \))과 \( x \)가 \( \mu \) 아래에서 발생할 가능성(\( p(x | \mu) \))을 합친 결과입니다. - 베이즈 추론에서의 역할
이 식은 특히 베이즈 정리에서 \( p(x) \)가 정규화 상수 역할을 한다는 점에서 중요합니다. 베이즈 정리는 다음과 같이 표현됩니다: \[ p(\mu | x) = \frac{p(x | \mu) p(\mu)}{p(x)} \] 여기서 \( p(x) \)는 사후 확률 \( p(\mu | x) \)를 정규화(normalization)하기 위한 값입니다.
결론
\[ p(x) = \int p(x | \mu) p(\mu) d\mu \] 는 **전체 확률의 법칙**에 따른 표현이며, \( x \)가 관찰될 확률을 모든 가능한 원인 \( \mu \)에 대해 평균한 결과입니다. 이 식은 베이즈 추론과 확률 모델링에서 핵심적인 역할을 합니다.
[참고 2]
\[ \nabla_x p(x | \mu) = -\frac{x - \mu}{\sigma^2} p(x | \mu) \] 의 이유:
이를 이해하려면, \( p(x | \mu) \)가 정규 분포를 따른다고 가정하고, 그 미분 과정을 살펴보아야 합니다.
1. \( p(x | \mu) \) 정의
정규 분포 \( \mathcal{N}(x; \mu, \sigma^2) \)의 확률 밀도 함수는 다음과 같습니다: \[ p(x | \mu) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \] 여기서: - \( \mu \): 평균 - \( \sigma^2 \): 분산 - \( x \): 관측값
2. \( \nabla_x p(x | \mu) \) 계산
\( p(x | \mu) \)를 \( x \)에 대해 편미분하면 됩니다. 확률 밀도 함수의 미분은 다음과 같은 두 부분으로 나뉩니다:
2-1. 상수 부분
(\( \frac{1}{\sqrt{2\pi} \sigma} \))은 미분에 영향을 주지 않으므로 생략합니다.
2-2. 지수 함수 부분
(\( \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \))을 미분합니다.
(1) 지수 함수 미분
지수 함수의 미분은 체인 룰(chain rule)을 사용합니다: \[ \frac{\partial}{\partial x} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) = \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \cdot \frac{\partial}{\partial x} \left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \] 먼저 내부 표현 \( -\frac{(x - \mu)^2}{2\sigma^2} \)를 \( x \)에 대해 미분합니다: \[ \frac{\partial}{\partial x} \left(-\frac{(x - \mu)^2}{2\sigma^2}\right) = -\frac{1}{2\sigma^2} \cdot \frac{\partial}{\partial x} \left((x - \mu)^2\right) \] \( (x - \mu)^2 \)를 미분하면: \[ \frac{\partial}{\partial x} (x - \mu)^2 = 2(x - \mu) \] 따라서: \[ \frac{\partial}{\partial x} \left(-\frac{(x - \mu)^2}{2\sigma^2}\right) = -\frac{1}{2\sigma^2} \cdot 2(x - \mu) = -\frac{x - \mu}{\sigma^2} \]
(2) 최종 결과
위 결과를 지수 함수 미분 식에 대입하면: \[ \frac{\partial}{\partial x} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) = \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \cdot \left(-\frac{x - \mu}{\sigma^2}\right) \] 이제 상수 부분 \( \frac{1}{\sqrt{2\pi} \sigma} \)을 곱해 원래의 \( p(x | \mu) \) 형태로 복원하면: \[ \nabla_x p(x | \mu) = \left(-\frac{x - \mu}{\sigma^2}\right) p(x | \mu) \]
3. 직관적인 이유
- 정규 분포 \( p(x | \mu) \)는 \( x \)에 대해 대칭성을 가지며, 중심(평균)인 \( \mu \)로부터 멀어질수록 확률 값이 감소합니다. - 미분 결과 \(-\frac{x - \mu}{\sigma^2}\)는 \( x \)가 평균 \( \mu \)에서 얼마나 떨어져 있는지를 나타냅니다. 부호는 증가 또는 감소 방향을 결정하며, 이는 분포의 기울기(gradient)를 의미합니다.
최종 식
따라서: \[ \nabla_x p(x | \mu) = -\frac{x - \mu}{\sigma^2} p(x | \mu) \]
'학술 > 공학' 카테고리의 다른 글
Bayes Discriminants and Neural Networks (0) | 2020.06.02 |
---|---|
Sufficient Statistics and the Exponential Family (0) | 2020.04.15 |
BAYESIAN PARAMETER ESTIMATION : General theory and 예제 (0) | 2020.04.03 |