Bloková štruktúra základného modelu modulárnej neurónovej siete je zobrazená
na Obr. 4.1. Sieť pozostáva z
expertných modulov a
jedného bránového modulu. Všetky moduly sú zložené z jednej skrytej vrstvy.
Medzi vstupnou vrstvou a vrstvami jednotlivých modulov sú prepojenia typu
,,full connection''.
Obrázok 4.1:
Základná bloková schéma modulárnej neurónovej siete
pozostávajúcej z
expertných modulov a jedného bránového modulu.
Nech sú vstupné vzorky reprezentované vstupným vektorom
s rozmerom
a výstupným vektorom
s rozmerom .
Expertné moduly obsahujú
neurónov, bránová sieť obsahuje
neurónov. Každému expertnému modulu prislúcha jeden neurón
bránového modulu. Vstupný vektor
je zo vstupu privedený do všetkých
modulov naraz. Každý expertný modul produkuje výstupný vektor ,
ktorý má
prvkov.
Bránový modul produkuje vektor
s
prvkami.
Nech
je výstupná hodnota -teho neurónu bránového modulu. Celkový výstupný
vektor
sa vypočíta ako súčet výstupov jednotlivých expertných
modulov
násobených príslušnými hodnotami .
(4.2)
Druh úlohy, pre ktorý je určené použitie siete určuje typ aktivačnej
funkcie neurónov v expertných sieťach. Pre
potreby regresie sú určené lineárne aktivačné funkcie,
pre potreby klasifikácie sú určené nelineárne neuróny so sigmoidálnou aktivačnou
funkciou. Zatiaľ bude výklad venovaný opisu štruktúry siete určenej pre regresné
úlohy.
Výstupy jednotlivých expertných modulov sú zhodné s aktivačnými hodnotami
neurónov v týchto moduloch a ich hodnoty výsledkom násobenia
vstupného vektora
vektormi váh
prislúchajúcich k
jednotlivým modulom
(4.3)
Aktivačná funkcia neurónov bránového modulu je tiež lineárna. Vektor
je vektor váh bránovej siete. Vektor aktivačných hodnôt
sa vypočíta podľa vzťahu
(4.4)
Keďže pri tvorbe základného modelu bol zvolený štatistický prístup4.1,
výstupné hodnoty
neurónov bránovej siete sú potom upravené tak, aby
nadobúdali hodnoty z intervalu
a ich súčet bol rovný jednej. Táto
požiadavka je zabezpečená výstupnou funkciou typu softmax tvaru
(4.5)
Použitie funkcie softmax v tomto prípade dovoľuje interpretovať hodnoty
ako pravdepodobnosti. Hodnota
tak určuje apriórnu
pravdepodobnosť, že -ty modul generoval aktuálnu učiacu vzorku.