V predchádzajúcich kapitolách tohto dielu sme sa venovali, buď
kontrolovanému alebo nekontrolovanej učeniu na
RC NN. Ak používame NN na riadenie nejakého
systému, tak v podstate nám ide v o to, aby
správanie riadeného systému bolo podľa stanovených
požiadaviek. Teda v takýchto prípadoch výstup riadeného
systému, by mal ovplyvňovať samotnú činnosť NN. Na takejto
logike je založené učenie podľa stavu riadeného systému v
svetovej literatúre označované ako reinforcement learning
.
Tieto metódy učenia si vyžadujú špeciálnu topológiu NN, ktorá obsahuje
dve subsiete. Z globálneho pohľadu, nie je možné vhodne kategorizovať
túto metódu učenia, a preto sa jej venuje špeciálna kapitola. Celá filozofia
je postavené na odmene alebo pokute5.1. Ak napríklad, chceme aby riadený
systém ostal v nejakej množine parametrov ,
tak potom
za pomoci tzv. reinforcement signálu "r", ktorý nadobúda
hodnoty