Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

학술/공학

트위디 공식(Tweedies' Formula)

주어진 식의 증명은 조건부 기대값의 정의와 베이즈 추론, 로그 우도의 그라디언트를 계산하는 과정을 통해 이루어집니다. 여기서 E[μ|x]=x+σ2xlogp(x) 또는 E[μ|x]=x+xlogp(x)의 형태는 관측값 x에 대한 사후 확률 p(μ|x)를 활용합니다.

  1. 조건부 기대값 정의
    조건부 기대값은 다음과 같이 정의됩니다: E[μ|x]=μp(μ|x)dμ 베이즈 정리를 통해 p(μ|x)는 다음과 같이 표현됩니다: p(μ|x)=p(x|μ)p(μ)p(x) 여기서: - p(x|μ): 관측값 x의 우도 - p(μ): μ의 사전 확률 - p(x)=p(x|μ)p(μ)dμ: 정규화 상수
  2. 로그 우도 그라디언트 계산
    로그 우도를 계산하면: logp(x)=logp(x|μ)p(μ)dμ 로그 우도의 그라디언트 xlogp(x)는 다음과 같이 정의됩니다: xlogp(x)=xp(x)p(x) 정규화 상수 p(x)에 대한 미분은 다음과 같습니다: xp(x)=xp(x|μ)p(μ)dμ 우도의 x에 대한 그라디언트를 계산하면: xp(x|μ)=xμσ2p(x|μ) 따라서: xp(x)=(xμσ2)p(x|μ)p(μ)dμ 이를 xlogp(x)에 대입하면: xlogp(x)=1σ2p(x)(xμ)p(x|μ)p(μ)dμ
  3. 조건부 기대값과 연결
    조건부 확률 p(μ|x)를 사용하면: xlogp(x)=1σ2(xμp(μ|x)dμ) 여기서 E[μ|x]=μp(μ|x)dμ를 대입하면: xlogp(x)=1σ2(xE[μ|x]) 이를 E[μ|x]에 대해 풀면: E[μ|x]=x+σ2xlogp(x)
  4. 일반화된 형태 xlogp(x)
    벡터 x의 경우, xlogp(x)p(x)의 각 성분에 대한 그라디언트를 나타냅니다. 스칼라 x 대신 벡터 x를 고려하면: E[μ|x]=x+σ2xlogp(x) 여기서 xlogp(x)는 각 차원 i에 대해: xlogp(x)=(logp(x)x1,logp(x)x2,) 따라서: E[μ|x]=x+σ2ixilogp(x)
    결론 주어진 식 E[μ|x]=x+xlogp(x)는 조건부 기대값의 정의와 로그 우도 그라디언트를 결합하여 증명되었습니다. 이 공식은 베이즈 추론에서 중요한 결과로, 관측값 x를 기반으로 숨겨진 변수 μ를 추정하는 데 사용됩니다.

[참고 1] 식 p(x)=p(x|μ)p(μ)dμ 는 **전체 확률의 법칙**에 기반한 결과입니다. 이 식의 의미와 이유를 단계별로 설명드리겠습니다.

  1. 전체 확률의 법칙
    확률론에서 어떤 사건 x의 확률은 모든 가능한 원인 μ에 대한 확률의 합으로 표현될 수 있습니다. p(x)=μp(x,μ) 여기서 p(x,μ)xμ가 동시에 발생할 확률(결합 확률)입니다. 연속 확률 분포에서는 합이 적분으로 대체되므로: p(x)=p(x,μ)dμ
  2. 결합 확률의 분해
    결합 확률 p(x,μ)는 조건부 확률의 정의에 따라 다음과 같이 분해됩니다: p(x,μ)=p(x|μ)p(μ) 여기서: - p(x|μ): 주어진 μ에서 x가 발생할 조건부 확률. - p(μ): μ의 사전 확률(사전에 알고 있는 μ의 분포). 이를 결합 확률 표현에 대입하면: p(x)=p(x|μ)p(μ)dμ
  3. 의미
    이 식은 다음을 나타냅니다: - p(x): x가 관찰될 전체 확률. - p(x|μ): 특정 μ가 주어졌을 때 x가 발생할 확률. - p(μ): μ의 분포를 반영하여 모든 가능한 μ에 대해 p(x|μ)를 가중 평균한 값. 즉, x의 확률은 모든 μ에 대해 μ가 일어날 가능성(p(μ))과 xμ 아래에서 발생할 가능성(p(x|μ))을 합친 결과입니다.
  4. 베이즈 추론에서의 역할
    이 식은 특히 베이즈 정리에서 p(x)가 정규화 상수 역할을 한다는 점에서 중요합니다. 베이즈 정리는 다음과 같이 표현됩니다: p(μ|x)=p(x|μ)p(μ)p(x) 여기서 p(x)는 사후 확률 p(μ|x)를 정규화(normalization)하기 위한 값입니다.
    결론
    p(x)=p(x|μ)p(μ)dμ 는 **전체 확률의 법칙**에 따른 표현이며, x가 관찰될 확률을 모든 가능한 원인 μ에 대해 평균한 결과입니다. 이 식은 베이즈 추론과 확률 모델링에서 핵심적인 역할을 합니다.

[참고 2]
xp(x|μ)=xμσ2p(x|μ) 의 이유:

이를 이해하려면, p(x|μ)가 정규 분포를 따른다고 가정하고, 그 미분 과정을 살펴보아야 합니다.

1. p(x|μ) 정의

정규 분포 N(x;μ,σ2)의 확률 밀도 함수는 다음과 같습니다: p(x|μ)=12πσexp((xμ)22σ2) 여기서: - μ: 평균 - σ2: 분산 - x: 관측값
2. xp(x|μ) 계산

p(x|μ)x에 대해 편미분하면 됩니다. 확률 밀도 함수의 미분은 다음과 같은 두 부분으로 나뉩니다:

2-1. 상수 부분

(12πσ)은 미분에 영향을 주지 않으므로 생략합니다.
2-2. 지수 함수 부분

(exp((xμ)22σ2))을 미분합니다.

(1) 지수 함수 미분

지수 함수의 미분은 체인 룰(chain rule)을 사용합니다: xexp((xμ)22σ2)=exp((xμ)22σ2)x((xμ)22σ2) 먼저 내부 표현 (xμ)22σ2x에 대해 미분합니다: x((xμ)22σ2)=12σ2x((xμ)2) (xμ)2를 미분하면: x(xμ)2=2(xμ) 따라서: x((xμ)22σ2)=12σ22(xμ)=xμσ2

(2) 최종 결과

위 결과를 지수 함수 미분 식에 대입하면: xexp((xμ)22σ2)=exp((xμ)22σ2)(xμσ2) 이제 상수 부분 12πσ을 곱해 원래의 p(x|μ) 형태로 복원하면: xp(x|μ)=(xμσ2)p(x|μ)

3. 직관적인 이유

- 정규 분포 p(x|μ)x에 대해 대칭성을 가지며, 중심(평균)인 μ로부터 멀어질수록 확률 값이 감소합니다. - 미분 결과 xμσ2x가 평균 μ에서 얼마나 떨어져 있는지를 나타냅니다. 부호는 증가 또는 감소 방향을 결정하며, 이는 분포의 기울기(gradient)를 의미합니다.

최종 식

따라서: xp(x|μ)=xμσ2p(x|μ)