주어진 식의 증명은 조건부 기대값의 정의와 베이즈 추론, 로그 우도의 그라디언트를 계산하는 과정을 통해 이루어집니다. 여기서 E[μ|x]=x+σ2∇xlogp(x) 또는 E[μ|x]=x+∑∇xlogp(x)의 형태는 관측값 x에 대한 사후 확률 p(μ|x)를 활용합니다.
- 조건부 기대값 정의
조건부 기대값은 다음과 같이 정의됩니다: E[μ|x]=∫μp(μ|x)dμ 베이즈 정리를 통해 p(μ|x)는 다음과 같이 표현됩니다: p(μ|x)=p(x|μ)p(μ)p(x) 여기서: - p(x|μ): 관측값 x의 우도 - p(μ): μ의 사전 확률 - p(x)=∫p(x|μ)p(μ)dμ: 정규화 상수 - 로그 우도 그라디언트 계산
로그 우도를 계산하면: logp(x)=log∫p(x|μ)p(μ)dμ 로그 우도의 그라디언트 ∇xlogp(x)는 다음과 같이 정의됩니다: ∇xlogp(x)=∇xp(x)p(x) 정규화 상수 p(x)에 대한 미분은 다음과 같습니다: ∇xp(x)=∇x∫p(x|μ)p(μ)dμ 우도의 x에 대한 그라디언트를 계산하면: ∇xp(x|μ)=−x−μσ2p(x|μ) 따라서: ∇xp(x)=∫(−x−μσ2)p(x|μ)p(μ)dμ 이를 ∇xlogp(x)에 대입하면: ∇xlogp(x)=−1σ2p(x)∫(x−μ)p(x|μ)p(μ)dμ - 조건부 기대값과 연결
조건부 확률 p(μ|x)를 사용하면: ∇xlogp(x)=−1σ2(x−∫μp(μ|x)dμ) 여기서 E[μ|x]=∫μp(μ|x)dμ를 대입하면: ∇xlogp(x)=−1σ2(x−E[μ|x]) 이를 E[μ|x]에 대해 풀면: E[μ|x]=x+σ2∇xlogp(x) - 일반화된 형태 ∑∇xlogp(x)
벡터 x의 경우, ∇xlogp(x)는 p(x)의 각 성분에 대한 그라디언트를 나타냅니다. 스칼라 x 대신 벡터 x를 고려하면: E[μ|x]=x+σ2∇xlogp(x) 여기서 ∇xlogp(x)는 각 차원 i에 대해: ∇xlogp(x)=(∂logp(x)∂x1,∂logp(x)∂x2,…) 따라서: E[μ|x]=x+σ2∑i∇xilogp(x)
결론 주어진 식 E[μ|x]=x+∑∇xlogp(x)는 조건부 기대값의 정의와 로그 우도 그라디언트를 결합하여 증명되었습니다. 이 공식은 베이즈 추론에서 중요한 결과로, 관측값 x를 기반으로 숨겨진 변수 μ를 추정하는 데 사용됩니다.
[참고 1] 식 p(x)=∫p(x|μ)p(μ)dμ 는 **전체 확률의 법칙**에 기반한 결과입니다. 이 식의 의미와 이유를 단계별로 설명드리겠습니다.
- 전체 확률의 법칙
확률론에서 어떤 사건 x의 확률은 모든 가능한 원인 μ에 대한 확률의 합으로 표현될 수 있습니다. p(x)=∑μp(x,μ) 여기서 p(x,μ)는 x와 μ가 동시에 발생할 확률(결합 확률)입니다. 연속 확률 분포에서는 합이 적분으로 대체되므로: p(x)=∫p(x,μ)dμ - 결합 확률의 분해
결합 확률 p(x,μ)는 조건부 확률의 정의에 따라 다음과 같이 분해됩니다: p(x,μ)=p(x|μ)p(μ) 여기서: - p(x|μ): 주어진 μ에서 x가 발생할 조건부 확률. - p(μ): μ의 사전 확률(사전에 알고 있는 μ의 분포). 이를 결합 확률 표현에 대입하면: p(x)=∫p(x|μ)p(μ)dμ - 의미
이 식은 다음을 나타냅니다: - p(x): x가 관찰될 전체 확률. - p(x|μ): 특정 μ가 주어졌을 때 x가 발생할 확률. - p(μ): μ의 분포를 반영하여 모든 가능한 μ에 대해 p(x|μ)를 가중 평균한 값. 즉, x의 확률은 모든 μ에 대해 μ가 일어날 가능성(p(μ))과 x가 μ 아래에서 발생할 가능성(p(x|μ))을 합친 결과입니다. - 베이즈 추론에서의 역할
이 식은 특히 베이즈 정리에서 p(x)가 정규화 상수 역할을 한다는 점에서 중요합니다. 베이즈 정리는 다음과 같이 표현됩니다: p(μ|x)=p(x|μ)p(μ)p(x) 여기서 p(x)는 사후 확률 p(μ|x)를 정규화(normalization)하기 위한 값입니다.
결론
p(x)=∫p(x|μ)p(μ)dμ 는 **전체 확률의 법칙**에 따른 표현이며, x가 관찰될 확률을 모든 가능한 원인 μ에 대해 평균한 결과입니다. 이 식은 베이즈 추론과 확률 모델링에서 핵심적인 역할을 합니다.
[참고 2]
∇xp(x|μ)=−x−μσ2p(x|μ) 의 이유:
이를 이해하려면, p(x|μ)가 정규 분포를 따른다고 가정하고, 그 미분 과정을 살펴보아야 합니다.
1. p(x|μ) 정의
정규 분포 N(x;μ,σ2)의 확률 밀도 함수는 다음과 같습니다: p(x|μ)=1√2πσexp(−(x−μ)22σ2) 여기서: - μ: 평균 - σ2: 분산 - x: 관측값
2. ∇xp(x|μ) 계산
p(x|μ)를 x에 대해 편미분하면 됩니다. 확률 밀도 함수의 미분은 다음과 같은 두 부분으로 나뉩니다:
2-1. 상수 부분
(1√2πσ)은 미분에 영향을 주지 않으므로 생략합니다.
2-2. 지수 함수 부분
(exp(−(x−μ)22σ2))을 미분합니다.
(1) 지수 함수 미분
지수 함수의 미분은 체인 룰(chain rule)을 사용합니다: ∂∂xexp(−(x−μ)22σ2)=exp(−(x−μ)22σ2)⋅∂∂x(−(x−μ)22σ2) 먼저 내부 표현 −(x−μ)22σ2를 x에 대해 미분합니다: ∂∂x(−(x−μ)22σ2)=−12σ2⋅∂∂x((x−μ)2) (x−μ)2를 미분하면: ∂∂x(x−μ)2=2(x−μ) 따라서: ∂∂x(−(x−μ)22σ2)=−12σ2⋅2(x−μ)=−x−μσ2
(2) 최종 결과
위 결과를 지수 함수 미분 식에 대입하면: ∂∂xexp(−(x−μ)22σ2)=exp(−(x−μ)22σ2)⋅(−x−μσ2) 이제 상수 부분 1√2πσ을 곱해 원래의 p(x|μ) 형태로 복원하면: ∇xp(x|μ)=(−x−μσ2)p(x|μ)
3. 직관적인 이유
- 정규 분포 p(x|μ)는 x에 대해 대칭성을 가지며, 중심(평균)인 μ로부터 멀어질수록 확률 값이 감소합니다. - 미분 결과 −x−μσ2는 x가 평균 μ에서 얼마나 떨어져 있는지를 나타냅니다. 부호는 증가 또는 감소 방향을 결정하며, 이는 분포의 기울기(gradient)를 의미합니다.
최종 식
따라서: ∇xp(x|μ)=−x−μσ2p(x|μ)
'학술 > 공학' 카테고리의 다른 글
Bayes Discriminants and Neural Networks (0) | 2020.06.02 |
---|---|
Sufficient Statistics and the Exponential Family (0) | 2020.04.15 |
BAYESIAN PARAMETER ESTIMATION : General theory and 예제 (0) | 2020.04.03 |