next 4.3 Učiaci algoritmus pre regresiu
previous 4.1 Štruktúra modulárnej siete
up 4. Modulárne neurónové siete
Obsah

4.2 Pravdepodobnostná funkcia




Neurónovú sieť možno chápať aj ako prostriedok pre štatistické modelovanie a predikciu. Z tohto hľadiska je činnosť naučenej neurónovej siete úspešná, ak modeluje proces, pomocou ktorého boli učiace vzorky generované. Veľkosť chyby v procese učenia preto nemôže byť postačujúcim ukazovateľom kvality naučenia siete.
Najvšeobecnejší a kompletný popis vzoriek učiacej množiny je možný podľa funkcie rozdelenia ich pravdepodobnosti $p({\bf x, d})$ [21]. Cieľom učiaceho algoritmu aplikovaného na danú architektúru je modelovanie pravdepodobnostného rozdelenia množiny učiacich vzoriek $\{{\bf x, d}\}$ alebo aj maximalizácia funkcie rozdelenia pravdepodobnosti $l=p({\bf x, d})$. Podľa [21] môže byť maximalizácia logaritmickej pravdepodobnostnej funkcie $l$ interpretovaná ako minimalizácia chybovej funkcie $J$ doprednej siete
\begin{displaymath}
\it J = {\rm -ln}\enspace l
\end{displaymath} (4.6)


Ak $p({\bf x})$ predstavuje nepodmienenú pravdepodobnosť vstupu a $p({\bf d\vert x})$ je podmienená pravdepodobnosť výstupu, ktorá je podmienená vstupným vektorom  x, potom sa funkcia rozdelenia pravdepodobnosti vypočíta ako súčin hodnôt týchto dvoch pravdepodobností
\begin{displaymath}
\it p({\bf x, d}) = \rm ln\enspace\it p({\bf d\vert x}) p({\bf x})
\end{displaymath} (4.7)


Pri ďalšom odvodzovaní učiaceho algoritmu je výhodnejšie pracovať s prirodzeným logaritmom výrazu (4.7). Je tak možné urobiť, pretože funkcia logaritmus je monotónne rastúca na celom definičnom obore.
Logaritmická pravdepodobnostná funkcia je definovaná nasledovne:
\begin{displaymath}
\it l({\bf\theta}) = \rm ln\enspace\it p({\bf d\vert x}) p({\bf x})
\end{displaymath} (4.8)


Hodnota pravdepodobnostnej funkcie závisí od množiny hodnôt voľných parametrov siete $\bf\theta$. Typ podmienenej pravdepodobnosti $p({\bf d\vert x})$ závisí od typu úlohy, pre ktorý je modulárna sieť určená. Za predpokladu, že kovariančná matica $\bf\Lambda$ vo výraze (4.9) je jednotková, je možné hodnotu argumentu funkcie $exp$ v Gaussovskom rozdelení pravdepodobnosti vypočítať ako Euklidovskú normu vektora.
\begin{displaymath}
\it p({\bf d\vert x}) = \frac{\rm 1}{\sqrt[q]{2\pi}}
\ens...
...gl ( -\frac{\rm 1}{\rm 2} \Vert{\bf d-y}\Vert^{\rm 2} \Bigr )
\end{displaymath} (4.11)


Dosadením výrazu (4.11) do (4.7) pre všetky $K$ expertné siete sa získa vzorec pre výpočet celkovej podmienenej pravdepodobnosti.
\begin{displaymath}
\it p({\bf d\vert x}) = \frac{\rm 1}{\sqrt[q]{2\pi}}
\ens...
...rac{\rm 1}{\rm 2} \Vert{\bf d-y_{\it i}}\Vert^{\rm 2} \Bigr )
\end{displaymath} (4.12)


Dosadením výrazu (4.12) do (4.8) pri zanedbaní konštanty ${\rm -ln}\sqrt[q]{2\pi}$ sa získa konečný tvar logaritmickej pravdepodobnostnej funkcie pre regresiu.
\begin{displaymath}
\it l_{R}({\bf\theta}) =
{\rm ln}\enspace \sum_{i=1}^{K} ...
...rac{\rm 1}{\rm 2} \Vert{\bf d-y_{\it i}}\Vert^{\rm 2} \Bigr )
\end{displaymath} (4.13)


Toto rozdelenie pravdepodobnosti je uvedené v [5] pod názvom Gaussov zmesový model. (Gaussian mixture model). Logaritmickú pravdepodobnostnú funkciu pre klasifikáciu možno vyjadriť podobne v tvare
\begin{displaymath}
\it l_{K}({\bf\theta}) =
{\rm ln}\enspace \sum_{i=1}^{K} ...
...d_{j=1}^{q}y_{ij}^{d_{ij}}
({\rm 1}-y_{ij})^{{\rm 1}-d_{ij}}
\end{displaymath} (4.14)


Pravdepodobnostné funkcie (4.13) a (4.14) budú ďalej základom pre odvádzanie učiacich algoritmov pre regresiu a klasifikáciu.

previous next up
CIG Homepage(E-mail us!)