Lexikon der Mathematik: Delta-Lernregel
Widrow-Hoff-Lernregel, eine spezielle Lernregel für Neuronale Netze, die bereits gegen Ende der fünfziger Jahre von Bernard Widrow und seinem Schüler Marcian Hoff vorgeschlagen wurde und sich als Spezialfall der Back-propagation-Lernregel für zweischichtige Feed-Forward-Netze mit identischer Transferfunktion interpretieren läßt.
Im folgenden wird die prinzipielle Idee der Delta-Lernregel kurz im Kontext diskreter zweischichtiger neuronaler Feed-Forward-Netze mit Ridge-Typ-Aktivierung und identischer Transferfunktion in den Ausgabeneuronen erläutert: Wenn man diesem zweischichtigen Feed-Forward-Netz eine Menge von t Trainingswerten
Setzt man nun t partiell differenzierbare Fehlerfunktionen
- Gewichte wij, 1 ≤ i ≤ n, 1 ≤ j ≤ m:
\begin{eqnarray}{w}_{ij}^{(neu)}:={w}_{ij}-\lambda {F}_{wij}^{(s)}(\mathrm{..},{w}_{ij},\mathrm{..},{{\rm{\Theta }}}_{j},\mathrm{..}),\end{eqnarray} also\begin{eqnarray}{w}_{ij}^{(neu)}:={w}_{ij}-2\lambda ({y}_{j}^{(s)}-(\displaystyle \sum _{k=1}^{n}{w}_{kj}{x}_{k}^{(s)}-{{\rm{\Theta }}}_{j})){x}_{i}^{(s)}.\end{eqnarray} - Schwellwerte Θj, 1 ≤ j ≤ m:
\begin{eqnarray}{{\rm{\Theta }}}_{j}^{(neu)}:={{\rm{\Theta }}}_{j}-\lambda {F}_{{{\rm{\Theta }}}_{j}}^{(s)}(\mathrm{..},{w}_{ij},\mathrm{..},{{\rm{\Theta }}}_{j},\mathrm{..}),\end{eqnarray} also\begin{eqnarray}{{\rm{\Theta }}}_{j}^{(neu)}:={{\rm{\Theta }}}_{j}-2\lambda ({y}_{j}^{(s)}-(\displaystyle \sum _{k=1}^{n}{w}_{kj}{x}_{k}^{(s)}-{{\rm{\Theta }}}_{j})).\end{eqnarray}
In den obigen Aktualisierungsvorschriften bezeichnen \({F}_{{w}_{ij}}^{(s)}\) und \({F}_{{{\rm{\Theta }}}_{ij}}^{(s)}\) jeweils die partiellen Ableitungen von F(s) nach wij und Θj.
Die sukzessive Anwendung des obigen Verfahrens auf alle vorhandenen Fehlerfunktionen F(s), 1 ≤ s ≤ t, und anschließende Iteration bezeichnet man nun als Delta-Lernregel oder Widrow-Hoff-Lernregel.
Würde man bei der Herleitung der Delta-Lernregel anstelle der sukzessiven Betrachtung der t Fehlerfunktionen F(s), 1 ≤ s ≤ t, direkt die gesamte Fehlerfunktion über alle t zu lernenden Trainingswerte heranziehen,
Die On-Line-Variante hat den Vorteil, daß keine Gewichts- und Schwellwertkorrekturen zwischengespeichert werden müssen sowie eine zufällige, nicht-deterministische Reihenfolge der zu lernenden Trainingswerte erlaubt ist (stochastisches Lernen).
Sie hat jedoch den Nachteil, daß nach einem Lernzyklus, d. h. nach Präsentation aller t zu lernenden Trainingswerte, der Gesamtfehler F des Netzes auch für beliebig kleines λ > 0 nicht unbedingt abgenommen haben muß; bei jedem Teilschritt wird zwar F(s) im allgemeinen kleiner, die übrigen Fehler F(r), r ≠ s, können jedoch wachsen.
Trotz dieser Problematik hat sich die On-Line-Variante in der Praxis bewährt und wird i. allg. der rechen- und speicherintensiveren Off-Line-Variante vorgezogen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.