Sufficient Statistics and the Exponential Family
Factorization Theorem 이 어떻게 sufficient statistics를 구하는데 사용되는지 알기 위하여 \(d\) 차원 normal case, 고정 covariance인 경우를 생각해 본다. 평균을 알려져 있지 않고, \( p(x|\theta) \;\sim \; N(\theta,\Sigma) \) 여기서 우리는
$$ \begin{split} p(\mathcal{D}|\theta) &= \prod_{k=1}^n \cfrac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} exp[-\cfrac{1}{2}(x_k-\theta)\Sigma ^{-1}(x_k -\theta)] \\&= \cfrac{1}{(2\pi)^{nd/2}|\Sigma|^{n/2}} exp[-\cfrac{1}{2}\sum_{k=1}^n (\theta^t \Sigma^{-1}\theta - 2\theta\Sigma^{-1}x_k + x_k^t\Sigma^{-1}x_k)] \\&= exp[-\cfrac{n}{2}\theta^t\Sigma^{-1}\theta+\theta^t\Sigma^{-1}(\sum_{k=1}^{n}x_k)] \times \cfrac{1}{(2\pi)^{nd/2}|\Sigma|^{n/2}} exp[-\cfrac{1}{2}\sum_{k=1}^n x_k^t\Sigma^{-1}x_k] \end{split}$$
이 factoring은\(p(\mathcal{D}|\theta)\)에서 \(\theta \)를 첫번째 항으로 모으고, Factorization Theorem 에 의해서 \(\sum_{k=1}^{n}x_k \)은 \( \theta \)에 대한 sufficient 조건임을 알수 있다. 물론 이 statistic의 1대1 함수는 \( \theta\)에 대하여 충분조건이다. 또한 샘플의 평균은 아래와 같다.
$$ \hat \mu_n = \cfrac{1}{n}\sum_{k=1}^{n}x_k $$
이 또한 \( \theta\)에 대하여 충분조건이다. 이 statistic을 사용하여 우리는 아래와 같이 쓸 수 있다.
$$ g( \hat \mu_n,\theta)= exp[-\cfrac{n}{2}(\theta^t\Sigma^{-1}\theta - 2\theta^t\Sigma^{-1} \hat \mu_n)]\tag{Eq 67}$$
이다. Eq. 63와 square 방식을 사용하여 kernel density를 얻는다.
$$ \bar g (s, \theta) = \cfrac{g(s,\theta)}{\int g(s,\theta)d\theta}\tag{Eq 63}$$
또한 \(d \)차원에서의 normal density는 아래와 같으므로
$$ p(x)= \cfrac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} exp[-\cfrac{1}{2}(x-\mu)\Sigma^{-1}(x-\mu)]$$
$$ \int exp[-\cfrac{1}{2}(x-\mu)\Sigma^{-1}(x-\mu)] dx = (2\pi)^{d/2}|\Sigma|^{1/2}$$
이다.
Eq 67에서 \( n\)을 괄호 안으로 넣어서 제곱 형태로 바꾸면.
$$\begin{split} g( \hat \mu_n,\theta) &= exp[-\cfrac{1}{2}(\theta^t (\cfrac{1}{n}\Sigma^{-1})\theta - 2\theta^t(\cfrac{1}{n}\Sigma^{-1})\hat \mu_n)] \\&= exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \times exp[\cfrac{1}{2}\hat\mu_n^{t} (\cfrac{\Sigma}{n})^{-1}\hat\mu_n] \end{split}$$
그러므로 kernel density는
$$\begin{split} \bar g(\hat\mu_n,\theta) &= \cfrac{exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \times exp[\cfrac{1}{2}\hat\mu_n^{t} (\cfrac{\Sigma}{n})^{-1}\hat\mu_n]}{\int exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \times exp[\cfrac{1}{2}\hat\mu_n^{t} (\cfrac{\Sigma}{n})^{-1}\hat\mu_n] d\theta} \\&= \cfrac{1}{(2\pi)^{d/2}|\cfrac{1}{n}\Sigma|^{1/2}}exp[-\cfrac{1}{2}(\theta -\hat\mu_n)^{t} (\cfrac{\Sigma}{n})^{-1}(\theta -\hat\mu_n)] \end{split}$$
가 된다.