4.4 Učiaci algoritmus pre klasifikáciu

Obsah

4.4 Učiaci algoritmus pre klasifikáciu

Výstupné hodnoty klasifikátora nadobúdajú diskrétne hodnoty. Ich popis je možný pomocou Bernoulliho rozdelenia pravdepodobnosti. Pravdepodobnostnú funkciu $\it l_K\rm (\bf\theta\rm )$ potom možno vyjadriť podľa vzťahu (4.14). Neuróny v expertných a bránovom module nie sú lineárne. Výstupná hodnota

-teho neurónu

-teho experného modulu je určená sigmoidálnou funkciou

$\begin{displaymath} \it y_{ij} = \frac{\rm 1}{\rm 1+exp(-\bf x^{\it T}\bf w_{\it ij})} \end{displaymath}$

(4.35)

Podobne je určená aj aktivačná hodnota

-teho neurónu bránového modulu

$\begin{displaymath} \it a_i = \frac{\rm 1}{\rm 1+exp(-\bf x^{\it T}\bf v_{\it i})} \end{displaymath}$

(4.36)

Výstupné hodnoty

neurónov bránového modulu sú určené nelinearitou typu softmax, ale bez funkcie exp

$\begin{displaymath} \it g_i = \frac{\it a_i}{\sum_{\it j=1}^{\it K}\it a_j} \end{displaymath}$

(4.37)

Hodnoty $y_{ij}$ a

spĺňajú nasledujúce podmienky:

$\begin{displaymath} \it y_{ij}, g_i \in\enspace\rm <0, 1> \end{displaymath}$

(4.38)

$\begin{displaymath} \it\prod_{j=1}^{q}y_{ij} \in\enspace\rm <0, 1> \end{displaymath}$

$\begin{displaymath} \it\sum_{i=1}^{K}g_i = \rm 1 \end{displaymath}$

Podľa týchto ohraničení sa interpretuje činnosť bránového modulu ako klasifikácia nad celým definičným oborom aproximovanej funkcie. Takto sa vstupný priestor vzoriek rozdelí na viacej oblastí. Činnosť expertných modulov sa interpretuje ako klasifikácia vo vnútri jednotlivých oblastí vstupného priestoru vzoriek. Na tomto mieste je potrebné podotknúť, že výstupné vektory učiacich vzoriek sú kódované podľa pravidla 1-z-

. Ak aktuálna učiaca vzorka patrí do triedy

, výstupný vektor potom obsahuje jednu jednotku na pozícii

a zvyšné prvky vektora sú nulové. Hodnota

sa interpretuje ako pravdepodobnosť, že

-ty expertný modul generoval aktuálnu učiacu vzorku. Hodnota $y_{ij}$ sa interpretuje ako pravdepodobnosť, že

-ty modul klasifikuje aktuálnu vzorku do triedy

.
Ďalší postup odvodenia učiaceho algoritmu je analogický postupu pre odvodenie učiaceho algoritmu pre regresiu. Rozdiel je pri výpočte aposteriórnych pravdepodobností

pre potreby klasifikácie. ^4.2

$\begin{displaymath} \it h_i = \frac{ \enspace \it g_i \prod_{k=1}^{q}y_{ik}^{... ..._{k=1}^{q}y_{jk}^{d_{jk}} ({\rm 1}-y_{jk})^{{\rm 1}-d_{jk}}} \end{displaymath}$

(4.39)

Derivácie $y_{ij}$ a

podľa vektorov váh, ktoré k nim prislúchajú, sú tvaru

$\begin{displaymath} \frac{\partial\it y_{\it ij}}{\partial\bf w_{\it ij}} = \f... ... {\rm (1+exp(-\bf x^{\it T}w_{\it ij}\rm ))^2} \enspace\bf x \end{displaymath}$

(4.40)

$\begin{displaymath} \frac{\partial\it a_i}{\partial\bf v_{\it i}} = \frac{\rm ... ...} {\rm (1+exp(-\bf x^{\it T}v_{\it i}\rm ))^2} \enspace\bf x \end{displaymath}$

(4.41)

Vzťahy pre úpravu hodnôt váh expertných a bránového modulu sú podobné vzťahom (4.26) a (4.34). Zhrnutie učiaceho algoritmu pre klasifikáciu:

1.

Inicializácia.
Hodnoty všetkých váh celej siete sa nastavia na náhodnú hodnotu z malého intervalu napr.

2.

Úprava váh.
Úprava váh sa uskutočňuje v

cykloch. V každom cykle sa privedú na vstup a výstup siete všetky vzorky trénovacej množiny. Každá vzorka je reprezentovaná dvojicou $\rm\{\bf x, d \rm\}$ .

(a)

$\begin{displaymath} \it a_i \rm (\it n\rm ) = \frac{\rm 1}{\rm 1+exp(-\bf x^{\it T}\bf v_{\it i}\rm (\it n\rm ))} \end{displaymath}$

$\begin{displaymath} \it g_i \rm (\it n\rm ) = \frac{\it a_i\rm (\it n\rm )} {\sum_{\it j=1}^{\it K}\it a_j\rm (\it n\rm )} \end{displaymath}$

(b)

$\begin{displaymath} \it y_{ij} \rm (\it n\rm ) = \frac{\rm 1} {\rm 1+exp(-\bf x^{\it T}\bf w_{\it ij}\rm (\it n\rm ))} \end{displaymath}$

(c)

$\begin{displaymath} \it h_i \rm (\it n\rm ) = \frac{ \enspace \it g_i \rm (\it... ...}^{d_{jk}} ({\rm 1}-y_{jk})^{{\rm 1}-d_{jk}}\rm (\it n\rm )} \end{displaymath}$

(d)

$\begin{displaymath} \bf\ w_{\it ij}\rm (\it n \rm +1) = \bf w_{\it ij}\rm (\it ... ...+exp(-\bf x^{\it T}w_{\it ij}\rm ))^2} \enspace\bf x \enspace \end{displaymath}$

(e)

$\begin{displaymath} \bf\ v_{\it i}\rm (\it n \rm +1) = \bf v_{\it i}\rm (\it n ... ...1+exp(-\bf x^{\it T}v_{\it i}\rm ))^2} \enspace\bf x \enspace \end{displaymath}$

CIG Homepage(E-mail us!)