next 3. Nekontrolované učenie na RC NN
previous 2.2 Metóda spätného šírenia chyby (BP) na RC NN
up 2.2 Metóda spätného šírenia chyby (BP) na RC NN
Obsah

2.2.1 Odvodenie adaptaèného pravidla

Ak chceme pravidlo exaktne vyjadriť, môžeme urobiť nasledovné kroky:
1.
môžeme vyjadriť, že
\begin{displaymath}
\frac{\partial J(t)}{\partial w_{rs}}~=~0.5~~\sum_{k}
\fr...
...-e_i~\sum_{k}
\frac{\partial x_{k}^{*}(t)}{\partial w_{rs}}
\end{displaymath} (2.33)

teda
\begin{displaymath}
\Delta w_{rs}~=~\gamma e_i~\sum_{k}
\frac{\partial x_{k}^{*}(t)}{\partial w_{rs}}
\end{displaymath} (2.34)

týmto sa náš problém zúžil na výpočet $\frac{\partial x_{k}^{*}}{\partial w_{rs}}$
2.
vieme, že všeobecne môžeme napísať
\begin{displaymath}
x_{i}^{*}(t)~=~f(in_{i}(t))
\end{displaymath} (2.35)

kde
\begin{displaymath}
in_{i}(t)~=~\sum_{j} w_{ij}x_{j}^{*}(t)~+~I_{i}
\end{displaymath} (2.36)

z toho ale vyplýva, že
\begin{displaymath}
\frac{\partial x_{i}^{*}(t)}{\partial w_{rs}}~=~
\frac{\p...
...artial in_{i}(t)}
\frac{\partial in_{i}(t)}{\partial w_{rs}}
\end{displaymath} (2.37)

3.
prvý člen rovnice (2.37) z pravej strany je zrejmý lebo
\begin{displaymath}
\frac{\partial x_{i}^{*}(t)}{\partial in_{i}(t)}~=~f^{'}(in_{i}(t))
\end{displaymath} (2.38)

4.
druhý člen v (2.37), môžeme pomocou (2.36) upraviť:
\begin{displaymath}
\frac{\partial in_{i}(t)}{\partial w_{rs}}~=~
\sum_{j} \l...
...
w_{ij}\frac{\partial x_{j}^{*}(t)}{\partial w_{rs}} \right\}
\end{displaymath} (2.39)

kde prvý člen pravej strany, vzhľadom na to, že SV sú od seba nezávislé, môžeme vyjadriť pomocou indexovej funkcie Cronekerovo-delta2.2 v tvare ${\bf\delta}_{ij}$
\begin{displaymath}
\frac{\partial w_{ij}}{\partial w_{rs}}~=~{\bf\delta}_{ir}{\bf\delta}_{js}
\end{displaymath} (2.40)

kde potom $\sum_{j} {\bf\delta}_{js}$ pre $j=s$ je rovné $1$ a pre všetky ostatné je $0$. Vzťah (2.39) môžeme prepísať do tvaru
\begin{displaymath}
\frac{\partial in_{i}(t)}{\partial w_{rs}}~=
~{\bf\delta}...
...\sum_{j} w_{ij} \frac{\partial x_{j}^{*}(t)}{\partial w_{rs}}
\end{displaymath} (2.41)

5.
teraz môžeme pomocou indexovej funkcie ${\bf\delta}_{ij}$ napísať
\begin{displaymath}
\frac{\partial x_{i}^{*}(t)}{\partial w_{rs}}~=~
\sum_{j} {\bf\delta}_{ij} \frac{\partial x_{j}^{*}(t)}{\partial w_{rs}}
\end{displaymath} (2.42)

Ak je zrejmé že $x_{i}~=~f(in_{i})$, tak môžeme pomocou predchádzajúceho vzorca napísať, že
\begin{displaymath}
\sum_{j} {\bf\delta}_{ij} \frac{\partial x_{j}^{*}(t)}{\par...
...artial in_{i}(t)}
\frac{\partial in_{i}(t)}{\partial w_{rs}}
\end{displaymath} (2.43)

Pravú stranu tejto rovnice môžeme prepísať za pomoci (2.38) a (2.41) do tvaru
\begin{displaymath}
\sum_{j} {\bf\delta}_{ij} \frac{\partial x_{j}^{*}(t)}{\par...
...w_{ij} \frac{\partial x_{j}^{*}(t)}{\partial w_{rs}} \right\}
\end{displaymath} (2.44)

po úprave tohto vzorca dostaneme nasledovný výraz
\begin{displaymath}
{\bf\delta}_{ir}f^{'}(in_{i}(t))x_{s}^{*}~=~
\sum_{j} \le...
...{ij}} \right\}
\frac{\partial x_{j}^{*}(t)}{\partial w_{rs}}
\end{displaymath} (2.45)

kde teda môžeme skrátene napísať
\begin{displaymath}
\sum_{j} L_{ij} \frac{\partial x_{j}^{*}(t)}{\partial w_{rs}}
~=~{\bf\delta}_{ir}f^{'}(in_{i}(t))x_{s}^{*}(t)
\end{displaymath} (2.46)

kde $i~=~1,\dots,N$. Odtiaľ potom môžeme prejsť k vektorovému vyjadreniu pomocou vektorov L a ${\bf x ^{*}}$ a to nasledovne
\begin{displaymath}
{\bf L} \frac{\partial {\bf x}^{*}(t)}{\partial w_{rs}}~=~...
...
{\bf\delta}_{Nr}f^{'}(in_{N}) & \cr } \right\}
x_{s}^{*}(t)
\end{displaymath} (2.47)

z (2.47) môžeme vyjadriť $\frac{\partial {\bf x}^{*}(t)}{\partial w_{rs}}$ :
\begin{displaymath}
\frac{\partial {\bf x}^{*}(t)}{\partial w_{rs}}~=~({\bf L}^...
...
{\bf\delta}_{Nr}f^{'}(in_{N}) &\cr } \right\}
x_{s}^{*}(t)
\end{displaymath} (2.48)

Teraz keď sa vrátime ku skalárnemu vyjadreniu pre "k"-ty riadok dostaneme nasledovný výraz
\begin{displaymath}
\frac{\partial x_{k}^{*}(t)}{\partial w_{rs}}~=~
({\bf L}^{-1}_{kr})f^{'}(in_{r}(t)) x_{s}^{*}(t)
\end{displaymath} (2.49)

kde $({\bf L}^{-1}_{kr})$ je kr-tý element v inverznej matici. Teda konečne môžeme napísať pomocou (2.34), že
\begin{displaymath}
\Delta w_{rs}~=~\gamma
\sum_{k} e_{i} {({\bf L}^{-1}_{kr})}
f^{'}(in_{r}(t)) x_{s}^{*}(t)
\end{displaymath} (2.50)

Vzťah (2.50) môžeme prezentovať v obvyklom zápise pre BP v tvare2.3
\begin{displaymath}
\Delta w_{rs}~=~\gamma \delta_{r}x_{s}^{*}(t)
\end{displaymath} (2.51)

kde
\begin{displaymath}
\delta_{r}~=~f^{'}(in_{r}) \sum_{k} e_{i} {({\bf L}^{-1})}_{kr}
\end{displaymath} (2.52)

Nevýhodou výrazu (2.51) je, že vyžaduje výpočet ${({\bf L})}^{-1}$, čo je globálna a nie lokálna operácia. Toto je možné vyriešiť nasledovným postupom
1.
vo vzťahu (2.52) zavedieme substitúciu teda
\begin{displaymath}
\delta_{r}^{*}~=~f^{'}(in_{r}(t) y_{r}^{*}(t))
\end{displaymath} (2.53)

kde je zrejmé, že $y_{r}^{*}(t)$ je vlastne (z (2.30))
\begin{displaymath}
y_{r}^{*}(t)~=~\sum_{k} e_{i} {({\bf L}^{-1})}_{kr}
\end{displaymath} (2.54)

2.
teraz keď vzorec (2.54) upravíme, resp. ho rozpíšeme a vyberieme z neho sadu rovníc po eliminácii $({\bf L}^{-1})$, tak potom dostaneme $e_{i}$ :
\begin{displaymath}
e_{i}~(t)=~\sum_{r} {\bf L}_{ri} y_{r}^{*}(t)
\end{displaymath} (2.55)

Ak zo vzťahu (2.45) vyberieme časť pre ${\bf L}$, tak potom
\begin{displaymath}
e_{i}~(t)=~\sum_{r}
\left\{ {\bf\delta}_{ri}~-~f^{'}(in_{r}(t))w_{ri} \right\}
y_{r}^{*}(t)
\end{displaymath} (2.56)

3.
ale vieme, že
\begin{displaymath}
\sum_{r} {\bf\delta}_{ri} y_{r}^{*}(t)~=~y_{i}^{*}(t)
\end{displaymath} (2.57)

a teda vzťah (2.56) môžeme prepísať do tvaru
\begin{displaymath}
e_{i}~=~y_{i}^{*}(t)~-~\sum_{r}~f^{'}(in_{r}(t))w_{ri}y_{r}^{*}(t)
\end{displaymath} (2.58)

Ak zameníme index "r" za "j", môžeme dostať po úprave tvar
\begin{displaymath}
0~=~-~y_{i}^{*}(t)~+~\sum_{j}~f^{'}(in_{j}^{*}(t))w_{ji}y_{j}^{*}(t)~+~e_{i}(t)
\end{displaymath} (2.59)

4.
ak predpokladáme, že skutočne $y_{i}^{*}(t)$ je bodom stability2.4 tak potom musí platiť $\frac{\partial y_{i}(t)}{\partial t}~=~0$, resp. potom
\begin{displaymath}
\frac{\partial y_{i}(t)}{\partial t}~=~
~-~y_{i}(t)~+~\sum_{j}~f^{'}(in_{j}^{*})w_{ji}y_{j}(t)~+~e_{i}(t)
\end{displaymath} (2.60)

Rovnica (2.60) vyjadruje neurodynamiku systému, a preto tam je $y_{i}(t)$ a nie ako v rovnici (2.59) $y_{i}^{*}(t)$. Teda ak rovnica (2.28) vyjadrovala formu dopredného šírenia cez synapsie ${\bf w_{ij}}$ tak vzťah (2.60) vyjadruje dynamiku spätného šírenia chyby po synapsii ${\bf w_{ji}}$. Ak porovnáme tieto vzťahy, tak zistíme, že ${\bf w_{ij}}$ bol nahradený vo vzťahu (2.60) výrazom $f^{'}(in_{j}(t))w_{ji}$. Teda celkový postup môžeme zhrnúť do nasledovných bodov: Z hľadiska porovnania autor v  [5] komentuje zvýšenie účinnosti učenia a skrátenie času pri použití RC NN. Na druhej strane BP na RC NN je citlivejší na zmenu parametrov samotného učenia $\gamma$.

previous next up
CIG Homepage(E-mail us!)