Lexikon der Mathematik: Backpropagation-Lernregel
eine spezielle Lernregel für Neuronale Netze, die auf dem Gradienten-Verfahren beruht.
Im folgenden wird die prinzipielle Idee der Backpropagation-Lernregel kurz im Kontext diskreter dreischichtiger neuronaler Feed-Forward- Netze mit Ridge-Typ-Aktivierung in den verborgenen Neuronen erläutert:
Wenn man diesem dreischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten
Nimmt man nun an, daß die Transferfunktion T stetig differenzierbar ist, und setzt t partiell differenzierbare Fehlerfunktionen
- Gewichte gpj, 1 ≤ p ≤ q, 1 ≤ j ≤ m:
\begin{eqnarray}{g}_{pj}^{(neu)}:={g}_{pj}-\lambda {F}_{{g}_{pj}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\end{eqnarray} - Gewichte wip, 1 ≤ i ≤ n, 1 ≤ p ≤ q:
\begin{eqnarray}{w}_{ip}^{(neu)}:={w}_{ip}-\lambda {F}_{{w}_{ip}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\end{eqnarray} - Schwellwerte Θp, 1 ≤ p ≤ q:
\begin{eqnarray}{{\rm{\Theta }}}_{p}^{(neu)}:={{\rm{\Theta }}}_{p}-\lambda {F}_{{{\rm{\Theta }}}_{p}}^{(s)}(..,\,{g}_{pj},..,\,{w}_{ip},..,\,{{\rm{\Theta }}}_{p},\,\mathrm{.}.).\,\end{eqnarray}
In den obigen Aktualisierungsvorschriften bezeichnen natürlich \({F}_{{g}_{pj}}^{(s)}\), \({F}_{{w}_{ip}}^{(s)}\) und \({F}_{{{\rm{\Theta }}}_{p}}^{(s)}\) jeweils die partiellen Ableitungen von F(s) nach gpj, wip und Θp. Die sukzessive Anwendung des obigen Verfahrens auf alle vorhandenen Fehlerfunktionen F(s), 1 ≤ s ≤ t, und anschließende Iteration bezeichnet man nun als Backpropagation-Lernregel oder-Algorithmus (die Fehler F(s), 1 ≤ s ≤ t, werden geschickt in das Netz zurückpropagiert und zur Korrektur der Netzparameter benutzt).
Erstmals wurde dieser Algorithmus 1974 von Paul Werbos auf Neuronale Netze angewandt und bildet heute mit seinen zahlreichen Variationen eine der effizientesten Strategien zur Konfigurierung Neuronaler Netze.
Würde man bei der Herleitung der Backpropagation-Lernregel anstelle der sukzessiven Betrachtung der t Fehlerfunktionen F(s), 1 ≤ s ≤ t, direkt die gesamte Fehlerfunktion über alle t zu lernenden Trainingswerte heranziehen,
Die On-Line-Variante hat den Vorteil, daß keine Gewichts- und Schwellwertkorrekturen zwischengespeichert werden müssen und eine zufällige, nicht-deterministische Reihenfolge der zu lernenden Trainingswerte erlaubt ist (stochastisches Lernen).
Sie hat jedoch den Nachteil, daß nach einem Lernzyklus, d. h. nach Präsentation aller t zu lernenden Trainingswerte, der Gesamtfehler F des Netzes auch für beliebig kleines λ > 0 nicht unbedingt abgenommen haben muß; bei jedem Teilschritt wird zwar F(s) im allgemeinen kleiner, die übrigen Fehler F(r), r ≠ s, können jedoch wachsen.
Trotz dieser Problematik hat sich die On-Line- Variante in der Praxis bewährt und wird im allgemeinen der rechen- und speicherintensiveren Off-Line-Variante vorgezogen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.