next 5.4 Repetitórium č. 4
previous 5.2 Adaptačné pravidlo pre ASE
up 5. Učenie NN podľa stavu systému
Obsah

5.3 Adaptačné pravidlo pre ACE

Subsieť ACE je taktiež nazývaná ako hodnotiaca sieť. Vstupom do ACE je stavový vektor riadenej sústavy a reinforcement signál "r". Výstupom z ACE je tzv. predikcia "r" v tvare $\hat r$5.4. Hlavnou úlohou je teda vyprodukovať predikciu signálu v tvare $\hat r$ na základe doposiaľ získaných skúsenosti. V podstate môžeme definovať hodnotiacu funkciu na základe reinforcement signálov "r" v tvare strednej hodnoty:
\begin{displaymath}
J(t)~=~E \left\{
\sum_{k=0}^{t} \chi^{k} r(k+1) \right\}
\end{displaymath} (5.6)

kde $\chi$ je tzv. pomerový parameter zľavy5.5 a je z intervalu $(0,1)$. Z toho môžeme odvodiť tvar $J(t)$ v prípade korektného učenia ako
\begin{displaymath}
J(t)~=~r(t-1)~+~\chi J(t-1)
\end{displaymath} (5.7)

a potom v konečnom dôsledku môže byť predikčný signál definovaný ako
\begin{displaymath}
\hat r(t)~=~r(t)~+~\chi J(t)~-~J(t-1)
\end{displaymath} (5.8)

Ak budeme uvažovať pod hodnotiacou funkciou jednotlivé SV $w_{cj}$, tak potom ich zmena bude mať prírastok Hebbovského typu
\begin{displaymath}
\Delta w_{cj}(t)~=~\gamma \hat r(t) h_{j}(t)
\end{displaymath} (5.9)

kde $\gamma$ je učiaci pomer a koeficient $h_{j}(t)$ má tvar
\begin{displaymath}
h_{j}(t)~=~\tau h_{j}(t-1)~+~(1~-~\tau)x_{j}(t-1)
\end{displaymath} (5.10)

Teda samotný vzorec (5.9) predstavuje adaptačný mechanizmus SV pre subsieť ACE. Táto metóda učenia na NN so špecializovanými topológiami sa vo veľkej miere využíva a má veľké ambície využitia pri riadení v reálnom čase. Najčastejším demonštratívnym príkladom je riadenie vozíka so vspriamenou tyčou upevnenou v otočnom kĺbe na pohybujúcom sa vozíku. Cieľom je riadiť vozík v reálnom čase tak, aby tyč bola stále vzpriamená (viď Obr. 5.2).

Obrázok 5.2: Riadený systém
\begin{figure}
\begin{center}
\epsfig{file=img/52.ps}
\end{center}
\end{figure}

previous next up
CIG Homepage(E-mail us!)