Bayes Discriminants and Neural Networks
Pattern Classification Duda 책에 나온 Bayes룰과 Neural Networks의 관계에 대하여 증명하는 내용이 다소 불친절하여 좀 더 정리하고자 한다.
Neural Networks에서의 \( k\)번째 출력을 \( g_k (x;w_k)\) 라고 한다. 카테고리가 \(w_k)\) 일때 이에 해당하는 discriminant function이 된다.
Bayes 룰은 아래와 같다.
$$ P(w_k | x) = \cfrac{p(x | w_k)P(w_k)}{\sum_{i=1}^c p(x|w_i)p(w_i)} = \cfrac{p(x,w)}{p(x)}$$
어떤 패턴 \( x\) 에 대한 Bayes decision : \( g_k(x) =P(w_k|x) \)를 갖는 가장 큰 카테고리 \(w_k \)를 선택하는 것이다.
타겟을
$$ t_k(x) = \begin{cases} 1 \quad if \; x \in w_k\\ 0 \quad otherwise.\end{cases}$$
\(x\) 입력에 대한 criterion function은
$$ \begin{split} J(w) &= \sum_x [g_k (x;w)-t_k]^2 \\ &= \sum_{x \in w_k } [g_k (x;w)-1]^2 + \sum_{x \notin w_k } [g_k (x;w)-0]^2 \\ &= n\left\{ \cfrac{n_k}{n} \cfrac{1}{n_k} \sum_{x \in w_k } [g_k (x;w)-1]^2 + \cfrac{n-n_k}{n} \cfrac{1}{n-n_k} \sum_{x \notin w_k } [g_k (x;w)-0]^2 \right\}\end{split}$$
\(n\)은 모든 패턴의 갯수이고 \(n_k\)는 \(w_k\) 카테고리에 속하는 패턴의 갯수이다.
아래 수식을 전개하기 전에 \( p(w_k,x) = P(w_k |x) p(x) = p(x |w_k)P(w_k)\) 숙지하여 사용한다.
$$ \begin{split} \lim_{x\to\infty} J(w) &= \tilde{J}(w) \\ &= P(w_k) \int [g_k(x;w)-1]^2p(x|w_k)dx + P(w_{i\neq k}) \int g_k(x;w)^2p(x|w_{i \neq k})dx \\&= \int [g_k(x;w)-1]^2 P(w_k)p(x|w_k)dx + \int g_k(x;w)^2 P(w_{i\neq k}) p(x|w_{i \neq k})dx \\&= \int [g_k(x;w)-1]^2 p(x,w_k)dx + \int g_k(x;w)^2 p(x,w_{i \neq k})dx \\&= \int [g_k(x;w)-1]^2 P(w_k | x)p(x)dx + \int g_k(x;w)^2 P(w_{i \neq k} |x )p(x)dx \\&= \int [g_k(x;w)^2+1 -2g_k(x;w)] P(w_k | x)p(x)dx + \int g_k(x;w)^2 [1-P(w_{k} |x )]p(x)dx \\&= \int [g_k(x;w)^2-2g_k(x;w)P(w_k | x)+P(w_k | x)^2] p(x) - \int P(w_k | x)^2dx + \int P(w_{k} |x )p(x)dx \\&= \int [g_k(x;w)-P(w_k | x)]^2 p(x) + \int P(w_{k} |x )[1-P(w_{k} |x )]p(x)dx \\&= \int [g_k(x;w)-P(w_k | x)]^2 p(x) + \int P(w_{k} |x )P(w_{i\neq k} |x )p(x)dx\end{split}$$
오른쪽 항은 \( w \)와 독립적이므로
Backpropagation rule은 \( w\)를 변화 시켜 왼쪽 항을 최소화 한다.
각 카테고리 \( w_k \; (k=1,2,...,c)\),에 대하여 Backpropagation은 아래 합을 최소화 한다.
$$ \sum_{k=1}^c \int [g_k(x;w)-P(w_k | x)]^2 p(x)$$
따라서 훈련 된 네트워크의 출력을 \(n\)을 무한대로 하면 출력은 (최소 제곱의 의미에서) 사후(posteriori) 확률에 근접한다. 즉 단위 출력은 사후 확률을 나타내며
$$ g_k (x; w) \simeq P(w_k | x) $$
그런데 여기서 주의 해야 할 사항은 기본 가정에서 네트워크가 충분하지 않은 hidden units에서 \(P(w_k | x)\)
로 나타내진다고 했는데, 이것은 사실이 아닐것이다. 그럼에도 불구하고, 상기 결과는 신경망이 매우 바람직한 제한 특성을 가질 수 있음을 보여준다.