next 4.3.2 Úprava váh bránového modulu
previous 4.3 Učiaci algoritmus pre regresiu
up 4.3 Učiaci algoritmus pre regresiu
Obsah

4.3.1 Úprava váh expertných modulov




Modulárna sieť podľa schémy na Obr. 4.1 pozostáva z $K$ expertných modulov a jedného bránového modulu. Každý expertný modul obsahuje jednu vrstvu pozostávajúcu z $q$ lineárnych neurónov. Ich výstupné hodnoty tvoria vektor výstupných hodnôt $\bf y_{\it i}$ $i$-teho modulu $(i=\it 1\dots K)$. Hodnoty výstupného vektora určené podľa vzťahu (4.3) závisia od matice vektorov hodnôt váh $\bf w_{\it i}$. Prvok $\bf w_{\it ij}$ tejto matice predstavuje vektor váh prislúchajúci $j$-temu neurónu $i$-teho expertného modulu. Nové hodnoty tohto vektora sa v $n$-tom kroku učiaceho procesu vypočítajú analogicky ako vo vzťahoch (4.15) a (4.16).
\begin{displaymath}
\bf\ w_{\it ij}\rm (n+1) = \bf w_{\it ij}\rm (n)+\bf\Delta w_{\it ij}\rm (n)
\end{displaymath} (4.17)


\begin{displaymath}
\bf\Delta w_{\it ij} =
\gamma
\frac{\partial\it l_{R}(\bf w_{\it ij}\rm )}{\partial\bf w_{\it ij}}
\end{displaymath} (4.18)


Rozdiel oproti metóde najstrmšieho zostupu chybovej funkcie je v znamienku na pravej strane výrazu (4.18). Cieľom pri metóde najstrmšieho vzostupu pravdepodobnostnej funkcie je zväčšovanie jej hodnoty.
Deriváciu funkcie $l_{R}$ podľa $\bf w_{\it ij}$ možno podľa pravidla zreťazenia prepísať do tvaru
\begin{displaymath}
\frac{\partial\it l_{R}}{\partial\bf w_{\it ij}} =
\frac{...
...t ij}}
\frac{\partial\it y_{\it ij}}{\partial\bf w_{\it ij}}
\end{displaymath} (4.19)


Výpočet zložitej derivácie sa rozdelil na výpočet dvoch jednoduchších. Derivácia $l_{R}$ podľa $\it y_{\it ij}$ sa vypočíta nasledovne
\begin{displaymath}
\frac{\partial\it l_{R}}{\partial\it y_{\it ij}} =
\it h_{i}\rm (\it d_{j}-y_{\it ij}\rm )
\end{displaymath} (4.20)

$y_{ij}$
- výstupná hodnota $j$-teho neurónu $i$-tej expertnej siete.
$d_j$
- požadovaná hodnota $j$-teho prvku celkového výstupného vektora $\bf d$
$h_i$
- aposteriórna pravdepodobnosť, že $i$-ty expertný modul generuje požadovaný výstupný vektor $\bf d$. Jej hodnota je daná vzťahom
\begin{displaymath}
\it h_{i} = \frac{\it g_{i}
\enspace\rm exp(-\frac{1}{2}...
...nspace\rm exp(-\frac{1}{2}\Vert\bf d-y_{\it j}\Vert^{\rm 2})}
\end{displaymath} (4.21)

Zo vzťahu (4.21) vyplýva, že všetky $h_{1\dots K}$ spĺňajú podmienky
\begin{displaymath}
\it h_i\in\enspace <0, 1>
\end{displaymath} (4.22)


\begin{displaymath}
\it\sum_{i=1}^{K} h_i = \rm 1
\end{displaymath}


Keďže aktivačné aj výstupné funkcie neurónov v expertných moduloch sú lineárne, hodnota $y_{ij}$ sa podľa vzťahu (4.3) vypočíta nasledovne
\begin{displaymath}
\it y_{ij} = \bf x^{\it T} w_{\it ij}
\end{displaymath} (4.23)


Deriváciou výrazu (4.23) podľa $\bf w_{\it ij}$ sa získa druhá časť výrazu (4.19).
\begin{displaymath}
\frac{\partial\it y_{\it ij}}{\partial\bf w_{\it ij}} = \bf x
\end{displaymath} (4.24)


Dosadením (4.20) a (4.24) do (4.19) a dosadením do (4.18) sa získa vzorec pre výpočet hodnoty $\bf\Delta w_{\it ij}$
\begin{displaymath}
\bf\Delta w_{\it ij} =
\gamma
\it h_{i}\rm (\it d_{j}-y_{\it ij}\rm )\bf x
\end{displaymath} (4.25)


kde $\gamma$ predstavuje veľkosť učiaceho parametra. Výsledný vzorec pre výpočet novej hodnoty vektora váh $\bf w_{\it ij}$, ktorý prislúcha $j$-temu neurónu $i$-teho expertného modulu má tvar
\begin{displaymath}
\bf\ w_{\it ij}\rm (\it n \rm +1) = \bf w_{\it ij}\rm (\it...
...m (\it d_j\rm (\it n\rm )-y_{\it ij}\rm (\it n\rm )\rm )\bf x
\end{displaymath} (4.26)

previous next up
CIG Homepage(E-mail us!)