5.3.1 Ojove adaptačné pravidlo zmeny SV

Obsah

5.3.1 Ojove adaptačné pravidlo zmeny SV

Majme jednoduchú NN s n vstupmi a jedným výstupným neurónom (viď obr. 5.9) Nech výstupný neurón je lineárneho typu, teda

$\begin{displaymath} ou(t)~=~\sum_{i=1}^{n} w_{i}(t)x_{i}(t)~=~{\bf w}(t){\bf x}(t) \end{displaymath}$

(5.17)

**Obrázok 5.9:** Priklad NN pre hľadanie prvého hlavného komponentu
$\begin{figure} \begin{center} \epsfig {file=img/59.ps} \end{center} \end{figure}$

Predpokladajme Hebbove synapsie medzi neurónmi, teda je zrejmé, že adaptačné pravidlo bude mať tvar^5.8

$\begin{displaymath} \Delta {\bf w}(t)~=~ou(t){\bf x}(t) \end{displaymath}$

(5.18)

čo v konečnom dôsledku ovplyvňuje novú hodnotu SV v

iterácii

$\begin{displaymath} {\bf w}(t+1)={\bf w}(t)+\gamma ou(t) {\bf x}(t) \end{displaymath}$

(5.19)

pre $\forall i=1,\dots,n$ . Problém vzorca (5.19) spočíva v tom, že pre $t \to \infty$ $w_{i}$ neúmerne rastie, čo pri reálnych systémoch spôsobuje problémy. Predísť tejto saturácii môžeme určitou formou normalizácie výrazu (5.19). Oja navrhol nasledovnú formu (výrazy sú vo vektorovom tvare):

$\begin{displaymath} {\bf w}(t+1)=\frac{{\bf w}(t)+\gamma {\bf\Delta w}(t)} {L(\gamma)} \end{displaymath}$

(5.20)

kde $L(\gamma)$ je $\vert {\bf w}(t)+\gamma {\bf \Delta w}(t) \vert$ a po dosadení zo vzorca (5.18) má tvar

$\begin{displaymath} L(\gamma)= \sqrt{ {\vert {\bf w}(t) \vert}^{2} + 2 \gamma... ...} + {\gamma}^{2} {ou(t)}^{2} {\vert {\bf x}(t) \vert}^{2} }} \end{displaymath}$

(5.21)

Funkciu $L(\gamma)$ rozvinieme do Taylorovho radu a členy ${\gamma}^{2}$ a vyššie mocniny ${\gamma}$ pri predpoklade malého $\gamma$ zanedbajme.^5.9 Potom pre druhý člen rozvoja dostaneme (predpokladáme ${\vert {\bf w}(t) \vert}=1$ ) :

$\begin{displaymath} 2{\frac{\partial L}{\partial \gamma}}_{\gamma=0}~=~ 2ou(t)\underbrace{{\bf w}(t){\bf x}(t)}_{ou(t)} + 0 \end{displaymath}$

(5.22)

čo po úprave znamená, že

$\begin{displaymath} {\frac{\partial L}{\partial \gamma}}_{\gamma=0}~=~{ou}^{2}(t) \end{displaymath}$

(5.23)

teda samotný Taylorov rozvoj $L(\gamma)$ má konečný tvar pri zanedbaní členov s vyššími mocninami ${\gamma}$

$\begin{displaymath} {L(\gamma)}~=~1~+~\gamma{ou}^{2}(t) \end{displaymath}$

(5.24)

ale v podstate my máme v zmysle situácie v (5.20) tvar

$\begin{displaymath} 1\over{1~+~\gamma{ou}^{2}(t)} \end{displaymath}$

(5.25)

ktorý keď rozšírime výrazom $1~-~\gamma{ou}^{2}(t)$ dostaneme

$\begin{displaymath} \frac{1 - \gamma {ou}^{2}(t)}{1~-~\gamma^{2}{ou}^{4}(t)}. \end{displaymath}$

(5.26)

Pretože $\gamma$ môže byť zvolené dostatočne malé, $\gamma^{2}{ou}^{4}(t)\rightarrow 0$ , teda menovateľ sa blíži k 1 a môžeme písať

$\begin{displaymath} \frac{1}{1~+~\gamma{ou}^{2}(t)}~\doteq~1~-~\gamma{ou}^{2}(t)~ \end{displaymath}$

(5.27)

ak to dosadíme späť do vzorca (5.20) a znova zanedbáme ${\gamma}^{2}$ dostaneme

$\begin{displaymath} {\bf w}(t+1)~=~({\bf w}(t)~+~\gamma ou(t) {\bf x}(t)) (1~-~\gamma {ou}^{2}(t)) \end{displaymath}$

(5.28)

čo v konečnom dôsledku znamená

$\begin{displaymath} {\bf w}(t+1)~=~({\bf w}(t)~+~\gamma ou(t) \underbrace{({\bf x}(t)~-~ou(t){\bf w}(t))}_{{\bf x^{'}}(t)} \end{displaymath}$

(5.29)

kde je zrejmé, že

$\begin{displaymath} \Delta {\bf w}(t)~=~\gamma ou(t)({\bf x}(t)~-~ou(t){\bf w}(t)) \end{displaymath}$

(5.30)

teda nová hodnota SV sa vypočíta ako

$\begin{displaymath} {\bf w}(t+1)~=~({\bf w}(t)~+~\gamma ou(t) {\bf x^{'}}(t)) \end{displaymath}$

(5.31)

kde ${\bf x^{'}}(t)$ predstavuje tzv. efektívny vstup do výstupného neurónu. Teda doteraz uvedený proces môžeme zhrnúť do nasledovných bodov:

nárast SV na základe vstupu x(t)
pomyselná spätná vazba $-ou(t){\bf w}(t)$ , ktorej úloha je kontrolovať nárast SV a tak stabilizovať činnosť NN. Táto pomyselná spätná väzba sa nazýva tiež zabúdací faktor.

Vzorec (5.29) sa tiež nazýva Ojove adaptačné pravidlo zmeny SV. Po nájdení GS NN dostaneme v hodnotách w vektora prvý hlavný komponent. To, že NN s takýmto adaptačným pravidlom určite nájde svoju GS, nájdeme popísané v [5]. Rozšírme teraz náš zámer o hľadanie ďalších hlavných komponentov zhusteného priestoru komponentov. Teda majme jednoduchú NN s M vstupmi a N výstupmi viď obr. 5.10 súčasne platí, že

a výstupné neuróny sú lineárneho typu. Z výhodných dôvodov si označme jednotlivé neuróny vo vstupnej vrstve nasledovne vstupné

$\begin{displaymath}{\bf j~=~0,\dots,M-1}\end{displaymath}$

a výstupné

$\begin{displaymath}{\bf i~=~0,\dots,N-1}\end{displaymath}$

. Potom výstup v neurónu "i" vypočítame ako (v skalárnom vyjadrení)

**Obrázok 5.10:** NN pre vypočet 3 hlavných komponentov
$\begin{figure} \begin{center} \epsfig {file=img/510.ps} \end{center} \end{figure}$

$\begin{displaymath} ou_{i}(t)~=~\sum_{l=0}^{M-1} w_{ij} x_{j} \end{displaymath}$

(5.32)

potom dostaneme vo vzorci (5.33) tzv. zovšeobecnený tvar Hebbovho adaptačného pravidla v tvare^5.10

$\begin{displaymath} \Delta w_{ij}(t)~=~\gamma ou_{i}(t) \left( x_{j}(t)~- ~\sum_{l=0}^{i} w_{lj}(t)ou_{l}(t) \right) \end{displaymath}$

(5.33)

Ak do vzorca (5.33) dosadíme

, tak dostaneme vzorec pre adaptačné pravidlo, ktoré sme už odvodili vo vzťahu (5.30). Teraz opäť pre následnú výhodnosť si vzorec (5.33) do tvaru

$\begin{displaymath} \Delta w_{ij}(t)~=~\gamma ou_{i}(t) \left(\underbrace{x_{j... ...(t)ou_{l}(t)} _{x_{j}^{'}(t)} -~w_{ij}(t)ou_{i}(t) \right) \end{displaymath}$

(5.34)

Teraz v podstate dostávame situáciu, keď máme jedno adaptačné pravidlo, kde sa efektívny vstup do jednotlivých výstupných neurónov mení. V rámci jednej učebnej procedúry sa nám podľa (5.33) budú meniť SV rôzne, podľa toho, ku ktorému z výstupných neurónov smerujú (index "i"). Ak chceme nájsť všetkých N hlavných komponentov, potom vlastne hľadáme

1.

prvý hlavný komponent potom $x_{'}(t)$ zo vzorca (5.34) má tvar ( ${\bf i~=~0}$ )

$\begin{displaymath} x_{j}^{'}(t)~=~x_{j}(t) \end{displaymath}$

(5.35)

2.

druhý hlavný komponent ( ${\bf i~=~1}$ )

$\begin{displaymath} x_{j}^{'}(t)~=~x_{j}(t)~-~w_{0j}(t)ou_{0}(t) \end{displaymath}$

(5.36)

3.

tretí hlavný komponent ( ${\bf i~=~2}$ )

$\begin{displaymath} x_{j}^{'}(t)~=~x_{j}(t)~-~w_{0j}(t)ou_{0}(t)~-~w_{1j}(t)ou_{1}(t) \end{displaymath}$

(5.37)

4.

atď

Takýmto spôsobom je možné postupne vypočítať jednotlivé hlavné komponenty dát a realizovať ich zhustenie. Existuje ešte verzia učiaceho algoritmu, ktorá uvažuje o laterálnych prepojeniach. Tak isto aj pre prípad nelineárnych neurónov bol vyvinutý Ojo-om podobný postup.

CIG Homepage(E-mail us!)