시스템을 상태방정식으로 표현 할때 내부 변수의 최적 추정 방법은 다음과 같다.
실 세상에서는 많은 측정의 문제가 아래와 같이 표현 된다.
$$ y(t)= \int_T h(t,\tau)\theta(\tau)d\tau + n(t) $$
\( y(t) \)는 측정(observation or measurement) T는 적분 범위이고, \( \theta(\tau)\) 는 우리가 알려고 하는 내부 변수이다. \(h(t,\tau)\)는 시스템의 특성(characteristic) 함수이다. 내부변수를 알려면 노이즈로 인하여 에러가 발생한다. 계산의 용의 성을 위하여 위식은 아래와 같이 discrete 형태로 만들어진다.
$$ Y=H\theta +N $$
여기서 \( Y \) 은 \( n \times1 \), \( H \) 은 \( n \times k \) matrix \( (n > k) \), \( \theta \) 은 \( k \times 1 \), \( N \) 은 \( n \times 1 \) 벡터 이고 \( N_i \) \( i=1,...,n \) 은 \( i \)번째 \( Y_i\)의 측정값과 연관 되어 있다. 이때 \( E[N]=0 \) 이라고 가정한다.
여기서 \( \theta \)로 부터 추정값 \( \hat{\theta} \) 을 가장 잘 추정 할수 있는 방법을 알아본다.
\( \hat{\theta} \) 이 \( Y \)의 선형함수로 제안하면
$$ \hat{\theta}=BY $$
로 나타낼수 있다. 여기서 \( B \)는 \( Y \)에 의존 적이지 않다. 이것은 추정 이론에서 가장 중요한 기본적인 문제이며 여러 책에서 소개 되는 내용이다.
\( B \)를 계산하기 전에 계산을 위한 기본적인 내용을 살펴본다.
스칼라 함수를 벡터로 미분
\(q(t) \)를 스칼라 함수, \( x=(x_1,....,x_n)^T\) 라고 하면
$$ \cfrac{dq(x)}{dx} = ( \cfrac{\partial q}{\partial x_1},...,\cfrac{\partial q}{\partial x_n})^T $$
\( q(x) \)를 \( x\)로 미분하면 열 벡터가 되고 \( i\) 번째 요소는 \( q(x) \)를 \( x_i \)로 미분한 값이다.
quadratic forms 미분
\( A \)를 real-symmetric \( n \times n \) 행렬이라고 하고 \( x \) 를 어떤 \( n \)-벡터라고 하자. 그러면 quadratic forms 미분은
$$ q(x)= x^{T}Ax $$
\( x \)로 미분을 하면
$$ \cfrac{dq(x)}{dx}= 2Ax $$
이다.
증명 :
$$ q(x)=\sum^n_{i=1} \sum^n_{j=1} x_{i}a_{ij}x_j \\=\sum^n_{i=1} x^2_i a_{ii}+ \sum^n_{i=} \sum^n_{j} a_{ij}x_i x_j $$
그러므로
$$ \cfrac {\partial q(x)}{\partial x_k}=2 x_k a_{kk} + 2\sum^n_{i \ne k} a_{ki}x_i \\= 2 \sum^n_{i = 1}a_{ki}x_i \\= \cfrac{dq(x)}{dx}= 2Ax$$
스칼라 곱의 미분
\( a \)와 \( x \)을 \( n \)-벡터라고 하자. \( y=a^T x \)
$$ \cfrac {dy}{dx} = a. $$
\( x \), \( y \)를 two \( n \)-벡터 그리고 \( A \)를 \( n \times n \) 행렬이라고 하자. \( q=y^T Ax \)
$$ \cfrac {\partial q}{\partial x} = A^T y. $$
잘보면 변수가 사라지고 transpose가 붙는다.
그럼 다시 본론으로 들어가서
$$ Y=H\theta +N $$
\( E[N]=0 \) 임을 다시 상기하고.
$$ K=E[N N^T] = \sigma^2 I $$
제곱의 합 \( S \)을 최소화 하는 적당한 \( \theta \)를 찾아보자.
$$ S=(Y - H \hat{\theta})^T (Y - H \hat{\theta}) = \parallel Y - H \hat{\theta} \parallel ^2$$
$$ S=Y^T Y + \hat{\theta}^T H^T H\hat{\theta} - \hat{\theta}^T H^T Y - Y^T H \hat{\theta}^T $$
이를 계산하면
$$ \cfrac {\partial S}{\partial \hat{\theta}^T} = 2[H^T H]\hat{\theta} - 2H^T Y $$
\( H^T H \)가 역행렬이 있다고 가정하면
$$ \hat{\theta}_{LS} = (H^T H)^{-1}H^T Y$$
와 같은 유명한 식이 나온다. \(LS\): Least square
'학술 > 수학' 카테고리의 다른 글
Expected value of Quadratic forms (0) | 2019.05.22 |
---|---|
Orthogonality Principle (0) | 2019.05.07 |
The derivative of a quadratic form (0) | 2019.05.03 |
[미적분] 라이프니츠 규칙 (Leibniz Rule) (1) | 2019.05.01 |
TRANSFORMING DENSITY FUNCTIONS (0) | 2019.04.22 |