V predošlej časti matematicky odvodené DP vlastne
predstavuje základ učenia so spätným šírením
chyby4.5 a umožňuje použitie v podstate
ľubovoľnej aktivačnej funkcie
aj nelineárneho typu, ktorá splňuje podmienku
diferencovateľnosti, t.j. platí
(4.26)
Ide teda znova o určovanie zmeny SV pre NN s nelineárnymi neurónmi.
Postup bude analogický ako pri základnom DP, avšak o funkcii
predpokládame, že
nie je lineárna a je diferencovateľná. Teda opäť stav neurónu "i" pri ľubovoľnom
vstupe do NN má tvar
(4.27)
kde
(4.28)
Z predchádzajúceho DP vieme, že
(4.29)
má tvar
(4.30)
kde
je počet neurónov vo výstupnej vrstve NN. Samotný výpočet
parciálnej derivácie chybovej funkcie podľa príslušnej SV má tvar
(4.31)
Označme
(4.32)
a
(4.33)
potom dostaneme obvykly zápis výpočtu zmeny SV v tvare
(4.34)
Základným problémom je teraz stanovenie príslušného
pre
každý neurón NN. Vedie to k jednoduchému rekurzívnemu vzťahu
pre výpočet jednotlivých ,
ktoré predstavujú spätné
šírenie chyby smerom od výstupu NN.
Pre príslušné
môžeme ďalej písať na základe (4.32)
(4.35)
Najprv vyriešme druhý člen pravej strany (4.35). Vzhľadom na
nelineárny neurón je zrejmé, že môžeme napísať pomocou (4.27),že
(4.36)
Obrázok 4.3:
Zobrazenie toku chybového signálu z
výstupu pre "i"-ty neurón
Pre výpočet prvého člena z rovnice musíme uvažovať dva rôzne
prípady :
ak neurón "i" je výstupným neurónom - vtedy je to
pomerne jednoduché, lebo hľadaná parciálna derivácia má tvar
(4.37)
a tým máme výpočet
pre tento prípad vyriešený
pomocou (4.36) a (4.37) v tvare
(4.38)
ak neurón "i" nie je výstupným neurónom - výpočet je trocha
zložitejší a postupuje sa takto
(4.39)
kde
je počet neurónov vo výstupnej vrstve, resp. napravo
od "i", čo je znázornené na Obr. 4.3. Z matematického
hľadiska pri výpočte derivácie chybovej
funkcie J, ktorá popisuje celkovú chybu na výstupnej vrstve,
podľa 4.6, je nutné vyjadriť J ako funkciu .
Preto rovnica
(4.39) má takýto tvar. Súčasne prvý člen pravej strany
je jasný z rovnice (4.32) a teda platí, že
(4.40)
Tu je potrebné poznamenať, že
v rovnici (4.40)
je z inej vrstvy ako
v rovnici (4.39).
Čo sa týka druhého člena rovnice (4.39), tam samotný člen
predstavuje vstup do výstupného neurónu "h" a
môžeme ho nahradiť nasledovne
(4.41)
avšak parciálna derivácia
podľa
znamená, že jedno
z
a tým
(4.42)
teda v konečnom dôsledku
(4.43)
a konečne hľadaný koeficient
bude mať tvar na základe
(4.36) a (4.43)
(4.44)
Je potrebné dobre si všimnúť rekurzívnosť tohoto vzťahu. Ide o výpočet
koeficientu
neurónu "i", ktorý nie je
výstupným neurónom. Vypočítame ho za pomoci ,
ktoré prichádzajú z vrstvy napravo od neurónu "i" a ich počet je
(všimnite si obr. 4.3).
Existuje modifikácia vzťahu (4.44) a to v tvare
(4.45)
kde parameter
je tzv.parameter rovinnosti, ktorý rieši
prípad, ak chyba sa nachádza na rovinnej časti chybovej plochy.