5.3 Adaptačné pravidlo pre ACE

Obsah

5.3 Adaptačné pravidlo pre ACE

Subsieť ACE je taktiež nazývaná ako hodnotiaca sieť. Vstupom do ACE je stavový vektor riadenej sústavy a reinforcement signál "r". Výstupom z ACE je tzv. predikcia "r" v tvare $\hat r$ ^5.4. Hlavnou úlohou je teda vyprodukovať predikciu signálu v tvare $\hat r$ na základe doposiaľ získaných skúsenosti. V podstate môžeme definovať hodnotiacu funkciu na základe reinforcement signálov "r" v tvare strednej hodnoty:

$\begin{displaymath} J(t)~=~E \left\{ \sum_{k=0}^{t} \chi^{k} r(k+1) \right\} \end{displaymath}$

(5.6)

kde $\chi$ je tzv. pomerový parameter zľavy^5.5 a je z intervalu

. Z toho môžeme odvodiť tvar

v prípade korektného učenia ako

$\begin{displaymath} J(t)~=~r(t-1)~+~\chi J(t-1) \end{displaymath}$

(5.7)

a potom v konečnom dôsledku môže byť predikčný signál definovaný ako

$\begin{displaymath} \hat r(t)~=~r(t)~+~\chi J(t)~-~J(t-1) \end{displaymath}$

(5.8)

Ak budeme uvažovať pod hodnotiacou funkciou jednotlivé SV $w_{cj}$ , tak potom ich zmena bude mať prírastok Hebbovského typu

$\begin{displaymath} \Delta w_{cj}(t)~=~\gamma \hat r(t) h_{j}(t) \end{displaymath}$

(5.9)

kde $\gamma$ je učiaci pomer a koeficient $h_{j}(t)$ má tvar

$\begin{displaymath} h_{j}(t)~=~\tau h_{j}(t-1)~+~(1~-~\tau)x_{j}(t-1) \end{displaymath}$

(5.10)

Teda samotný vzorec (5.9) predstavuje adaptačný mechanizmus SV pre subsieť ACE. Táto metóda učenia na NN so špecializovanými topológiami sa vo veľkej miere využíva a má veľké ambície využitia pri riadení v reálnom čase. Najčastejším demonštratívnym príkladom je riadenie vozíka so vspriamenou tyčou upevnenou v otočnom kĺbe na pohybujúcom sa vozíku. Cieľom je riadiť vozík v reálnom čase tak, aby tyč bola stále vzpriamená (viď Obr. 5.2).

**Obrázok 5.2:** Riadený systém
$\begin{figure} \begin{center} \epsfig{file=img/52.ps} \end{center} \end{figure}$

CIG Homepage(E-mail us!)