학술/수학

Linear estimation of vector parameters

ksyoon 2019. 5. 16. 13:29

시스템을 상태방정식으로 표현 할때 내부 변수의 최적 추정 방법은 다음과 같다.

실 세상에서는 많은 측정의 문제가 아래와 같이 표현 된다.

 $$  y(t)= \int_T h(t,\tau)\theta(\tau)d\tau + n(t) $$

 \( y(t) \)는 측정(observation or measurement) T는 적분 범위이고, \( \theta(\tau)\) 는 우리가 알려고 하는 내부 변수이다.  \(h(t,\tau)\)는 시스템의 특성(characteristic) 함수이다. 내부변수를 알려면 노이즈로 인하여 에러가 발생한다. 계산의 용의 성을 위하여 위식은 아래와 같이 discrete 형태로 만들어진다.

 $$ Y=H\theta +N $$

여기서 \( Y \) 은 \( n \times1 \), \( H \) 은 \( n \times k \) matrix \( (n > k) \), \( \theta \) 은 \( k \times 1 \), \( N \) 은 \( n \times 1 \) 벡터 이고 \( N_i \) \( i=1,...,n \) 은 \( i \)번째 \( Y_i\)의 측정값과 연관 되어 있다. 이때 \( E[N]=0 \) 이라고 가정한다.

여기서 \( \theta \)로 부터 추정값 \(  \hat{\theta} \) 을 가장 잘 추정 할수 있는 방법을 알아본다.

\(  \hat{\theta} \) 이  \( Y \)의 선형함수로 제안하면

$$ \hat{\theta}=BY $$

로 나타낼수 있다. 여기서 \( B \)는 \( Y \)에 의존 적이지 않다. 이것은 추정 이론에서 가장 중요한 기본적인 문제이며 여러 책에서 소개 되는 내용이다.

\( B \)를 계산하기 전에 계산을 위한 기본적인 내용을 살펴본다.

 

스칼라 함수를 벡터로 미분

\(q(t) \)를  스칼라 함수, \( x=(x_1,....,x_n)^T\) 라고 하면

$$ \cfrac{dq(x)}{dx} = ( \cfrac{\partial q}{\partial x_1},...,\cfrac{\partial q}{\partial x_n})^T $$

\( q(x) \)를  \( x\)로 미분하면 열 벡터가 되고 \( i\) 번째 요소는 \( q(x) \)를 \( x_i \)로 미분한 값이다.

 

quadratic forms 미분

\( A \)를 real-symmetric \( n \times n \) 행렬이라고 하고 \( x \) 를 어떤 \( n \)-벡터라고 하자. 그러면 quadratic forms 미분은

$$ q(x)= x^{T}Ax $$

 \( x \)로 미분을 하면

$$ \cfrac{dq(x)}{dx}= 2Ax $$

이다.

증명 :

$$ q(x)=\sum^n_{i=1} \sum^n_{j=1} x_{i}a_{ij}x_j \\=\sum^n_{i=1} x^2_i a_{ii}+ \sum^n_{i=} \sum^n_{j} a_{ij}x_i x_j $$

그러므로

$$ \cfrac {\partial q(x)}{\partial x_k}=2 x_k a_{kk} +  2\sum^n_{i \ne k} a_{ki}x_i \\= 2 \sum^n_{i = 1}a_{ki}x_i \\= \cfrac{dq(x)}{dx}= 2Ax$$

 

스칼라 곱의 미분

\( a \)와 \( x \)을 \( n \)-벡터라고 하자. \( y=a^T x \)

$$ \cfrac {dy}{dx} = a. $$

\( x \), \( y \)를 two \( n \)-벡터 그리고 \( A \)를  \( n \times n \) 행렬이라고 하자. \( q=y^T Ax \)

$$ \cfrac {\partial q}{\partial x} = A^T y. $$

잘보면 변수가 사라지고 transpose가 붙는다.

그럼 다시 본론으로 들어가서

 $$ Y=H\theta +N $$

\( E[N]=0 \) 임을 다시 상기하고.

 $$ K=E[N N^T] = \sigma^2 I $$

제곱의 합 \( S \)을 최소화 하는 적당한 \( \theta \)를 찾아보자.

 $$ S=(Y - H \hat{\theta})^T (Y - H \hat{\theta}) =  \parallel Y - H \hat{\theta} \parallel ^2$$

 $$ S=Y^T Y + \hat{\theta}^T H^T H\hat{\theta} - \hat{\theta}^T H^T Y - Y^T H \hat{\theta}^T   $$

이를 계산하면

$$ \cfrac {\partial S}{\partial \hat{\theta}^T} = 2[H^T H]\hat{\theta} - 2H^T Y $$

\( H^T H \)가 역행렬이 있다고 가정하면

$$ \hat{\theta}_{LS} = (H^T H)^{-1}H^T Y$$

와 같은 유명한 식이 나온다. \(LS\): Least square