Sufficient Statistics and the Exponential Family

학술/공학

Sufficient Statistics and the Exponential Family

ksyoon 2020. 4. 15. 22:03

Factorization Theorem 이 어떻게 sufficient statistics를 구하는데 사용되는지 알기 위하여 $d$ 차원 normal case, 고정 covariance인 경우를 생각해 본다. 평균을 알려져 있지 않고, $ p(x|\theta) \;\sim \; N(\theta,\Sigma) $ 여기서 우리는

$$ \begin{split} p(\mathcal{D}|\theta) &= \prod_{k=1}^n \cfrac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} exp[-\cfrac{1}{2}(x_k-\theta)\Sigma ^{-1}(x_k -\theta)] \\&= \cfrac{1}{(2\pi)^{nd/2}|\Sigma|^{n/2}} exp[-\cfrac{1}{2}\sum_{k=1}^n (\theta^t \Sigma^{-1}\theta - 2\theta\Sigma^{-1}x_k + x_k^t\Sigma^{-1}x_k)] \\&= exp[-\cfrac{n}{2}\theta^t\Sigma^{-1}\theta+\theta^t\Sigma^{-1}(\sum_{k=1}^{n}x_k)] \times \cfrac{1}{(2\pi)^{nd/2}|\Sigma|^{n/2}} exp[-\cfrac{1}{2}\sum_{k=1}^n x_k^t\Sigma^{-1}x_k] \end{split}$$

이 factoring은$p(\mathcal{D}|\theta)$에서 $\theta $를 첫번째 항으로 모으고, Factorization Theorem 에 의해서 $\sum_{k=1}^{n}x_k $은 $ \theta $에 대한 sufficient 조건임을 알수 있다. 물론 이 statistic의 1대1 함수는 $ \theta$에 대하여 충분조건이다. 또한 샘플의 평균은 아래와 같다.

$$ \hat \mu_n = \cfrac{1}{n}\sum_{k=1}^{n}x_k $$

이 또한 $ \theta$에 대하여 충분조건이다. 이 statistic을 사용하여 우리는 아래와 같이 쓸 수 있다.

$$ g( \hat \mu_n,\theta)= exp[-\cfrac{n}{2}(\theta^t\Sigma^{-1}\theta - 2\theta^t\Sigma^{-1} \hat \mu_n)]\tag{Eq 67}$$

이다. Eq. 63와 square 방식을 사용하여 kernel density를 얻는다.

$$ \bar g (s, \theta) = \cfrac{g(s,\theta)}{\int g(s,\theta)d\theta}\tag{Eq 63}$$

또한 $d $차원에서의 normal density는 아래와 같으므로

$$ p(x)= \cfrac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} exp[-\cfrac{1}{2}(x-\mu)\Sigma^{-1}(x-\mu)]$$

$$ \int exp[-\cfrac{1}{2}(x-\mu)\Sigma^{-1}(x-\mu)] dx = (2\pi)^{d/2}|\Sigma|^{1/2}$$

이다.

Eq 67에서 $ n$을 괄호 안으로 넣어서 제곱 형태로 바꾸면.

$$\begin{split} g( \hat \mu_n,\theta) &= exp[-\cfrac{1}{2}(\theta^t (\cfrac{1}{n}\Sigma^{-1})\theta - 2\theta^t(\cfrac{1}{n}\Sigma^{-1})\hat \mu_n)] \\&= exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \times exp[\cfrac{1}{2}\hat\mu_n^{t} (\cfrac{\Sigma}{n})^{-1}\hat\mu_n] \end{split}$$

그러므로 kernel density는

$$\begin{split} \bar g(\hat\mu_n,\theta) &= \cfrac{exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \times exp[\cfrac{1}{2}\hat\mu_n^{t} (\cfrac{\Sigma}{n})^{-1}\hat\mu_n]}{\int exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \times exp[\cfrac{1}{2}\hat\mu_n^{t} (\cfrac{\Sigma}{n})^{-1}\hat\mu_n] d\theta} \\&= \cfrac{1}{(2\pi)^{d/2}|\cfrac{1}{n}\Sigma|^{1/2}}exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \end{split}$$

가 된다.