Lexikon der Mathematik: Boltzmann-Lernregel
eine spezielle Lernregel für Neuronale Netze, die auf der Boltzmann-Verteilung (oder allgemeiner auch auf der Fermi-Dirac-Verteilung) aufbaut und durch das temperatur- und energieabhängige statistische Verhalten der Molekularteilchen in idealen Gasen motiviert ist.
Im folgenden wird die prinzipielle Idee der Boltzmann-Lernregel anhand einer einfachen Modifikation der Hebb-Lernregel für ein sog. Hopfield-Netz erläutert.
Dem Netz seien im Lern-Modus die bipolar codierten Trainingswerte
\begin{eqnarray}{x}^{(s)}\in {\{-1,1\}}^{n},\,1\le s\le t,\end{eqnarray}
zur Speicherung übergeben worden. Wird nun mit \(\tau \gt 0\) ein beliebiger fester Parameter fixiert und mit diesem unter Zugriff auf die Fermi-Dirac-Verteilungsfunktion der Wahrscheinlichkeitsparameter \({p}_{\tau }\) definiert als\begin{eqnarray}{p}_{\tau }:=1/(1+\exp (-\frac{1}{\tau })),\end{eqnarray}
so generiert man zunächst aus den primär gegebenen Trainingswerten die sogenannten τ-Trainingswerte \({x}^{(s,\tau )}\in {\{-1,1\}}^{n}\) gemäß\begin{eqnarray}{x}_{i}^{(s,\tau )}:=\{\,{x}_{i}^{(s)},\text{\hspace{0.17em}}\text{mit}\text{\hspace{0.17em}}\text{Wahrscheinlichkeit}\text{\hspace{0.17em}}{p}_{\tau },\\ -{x}_{i}^{(s)},\text{\hspace{0.17em}}\text{mit}\text{\hspace{0.17em}}\text{Wahrscheinlichkeit}(1-{p}_{\tau }),\end{eqnarray}
Mit diesen τ-Trainingswerten wird dann unter Anwendung der Hebb-Lernregel ein Satz von τ-Gewichten für das Hopfield-Netz berechnet nach der Vorschrift
\begin{eqnarray}{{\mathscr{W}}}_{ij}^{\tau }:={{\mathscr{W}}}_{ji}^{\tau }:=\displaystyle \sum _{s=1}^{t}{x}_{i}^{(s,\tau )}{x}_{j}^{(s,\tau )}\end{eqnarray}
für \(1\le j\lt i\), \(1\le i\le n\).Dieses Vorgehen führt man nun für eine endliche Anzahl gegen Null strebender Werte τk > 0, 1 ≤ k ≤ m, durch („simuliertes Abkühlen”) und definiert dann die endgültigen Gewichte des Hopfield-Netzes z. B. als
\begin{eqnarray}{{\mathscr{W}}}_{ij}:={{\mathscr{W}}}_{ji}:={(\displaystyle \sum _{k=1}^{m}{p}_{{\tau }_{k}})}^{-1}\displaystyle \sum _{k=1}^{m}{p}_{{\tau }_{k}}{{\mathscr{W}}}_{ij}^{({\tau }_{k})},\end{eqnarray}
für \(1\le j\lt i\), \(1\le i\le n\), sowie\begin{eqnarray}{{\mathscr{W}}}_{ii}:=0,1\le i\le n.\end{eqnarray}
Im allgemeinen Kontext werden Ideen dieses Typs für Netze mit verborgenen Neuronen eingesetzt sowie wie darüber hinaus die zu trainierenden Gewichte durch Subtraktion von Korrelationen gewisser im Ausführ-Modus erhaltener Terminierungszustände modifiziert („Hebb-Lernen mit Vergessen”).
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.