Freistetters Formelwelt: Bitte nicht zu perfekt!
Auf meinem Schreibtisch steht eine kleine elektronische Wetterstation. Sie zeigt mir die aktuelle Außentemperatur, die Luftfeuchtigkeit und den Luftdruck an. Ich benutze sie rein privat, um zu wissen, was mich erwartet, wenn ich vor die Tür gehe. Aber theoretisch könnte ich mich damit auch als Amateur-Meteorologe betätigen. Ich könnte zum Beispiel jeden Tag die Temperatur notieren und dann nach einer Gesetzmäßigkeit zwischen den Datenpunkten suchen. Ich kann mir sogar sicher sein, dass ich fündig werde, denn dafür sorgt diese Formel:
Sie sieht harmlos aus, hat es allerdings in sich – und kann für massive Probleme sorgen, wenn sie falsch angewandt wird. Angenommen, ich habe n + 1 Temperaturmessungen durchgeführt und entsprechend viele Datenpunkte (x, f) für die Temperatur f zu einem bestimmten Zeitpunkt x gesammelt. Dann sagt die Formel, dass es auf jeden Fall ein Polynom P (maximal vom Grad n) gibt, das alle n + 1 Gleichungen erfüllt. Oder anders gesagt: Ich kann immer einen mathematischen Ausdruck finden, der eine Kurve beschreibt, die durch alle meine Datenpunkte verläuft.
Das klingt zuerst einmal großartig, denn in vielen praktischen Fällen ist es genau das, was man sucht. Ausgehend von Mess- oder Beobachtungsdaten will man ein mathematisches Gesetz finden, das die zu Grunde liegenden Zusammenhänge beschreibt. Das Problem dabei ist jedoch: Nicht jeder Zusammenhang stellt auch eine echte Beziehung dar. Und weil man bei der »Polynominterpolation« immer zu einem Ergebnis kommt, sollte man sehr vorsichtig bei der Interpretation sein.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.
Würde ich meine Temperaturdaten tatsächlich auf die oben beschriebene Weise analysieren, könnte ich zwar eine Funktion finden, die diesen Datensatz perfekt beschreibt – damit aber höchstens Aussagen über die Temperatur treffen, die von meiner Wetterstation an einer speziellen Position (meinem Balkon) gemessen wird (und das auch nur innerhalb des Zeitraums, den die Daten abdecken). Irgendwelche allgemeinen Schlüsse lassen sich daraus nicht ziehen.
Das Problem, um das es hier geht, nennt sich »Überanpassung« beziehungsweise »overfitting«. Ein Polynom vom Grad n hat prinzipiell n + 1 Koeffizienten; es gibt also ebenso viele Parameter, die ich so lange anpassen kann, bis die Formel am Ende perfekt mit meinen Daten übereinstimmt. Doch gerade weil alles so perfekt abgestimmt ist, kann ich mir sicher sein, dass die Formel für jeden anderen Datensatz nicht mehr brauchbar ist. Außerdem wäre es sehr überraschend, wenn zwei Wetterstationen exakt die gleichen Daten messen würden, selbst wenn sie direkt nebeneinander stehen.
Wir brauchen keine KI, die sich für schlauer hält, als sie ist
Wenn man allgemeine Zusammenhänge finden will, sollte man versuchen, mit möglichst wenigen frei wählbaren Parametern auszukommen. Ein reales Naturgesetz kann echte Messpunkte und Beobachtungsdaten außerdem nie exakt wiedergeben, da alle Messungen zwangsläufig mit Fehlern behaftet sind. Eine perfekte Anpassung durch ein Interpolationspolynom ist deshalb das Gegenteil von dem, was wir suchen. Anstatt fundamentale Zusammenhänge zwischen den Daten zu finden, hat man eine Formel exakt an die fehlerbehafteten Messwerte angepasst – und diese Fehler damit in das Modell übernommen.
Das Problem der Überanpassung existiert natürlich nicht nur bei der Verwendung von Polynomen, sondern taucht immer auf, wenn man Modelle an Datensätze anpassen will. Es wird besonders relevant, wenn man die Anpassung automatisiert durchführen lässt. Wenn etwa KI-Algorithmen aus Trainingsdaten selbstständig lernen sollen, muss man Vorkehrungen gegen die wenig hilfreiche Perfektion treffen. Sonst lernt das Programm zwar, Datensätze perfekt zu interpolieren – aber nicht, dass man daraus keine Aussagen über Fälle treffen kann, die nicht von den Trainingsdaten abgedeckt sind. Maschinen, die sich für schlauer halten, als sie sind, können wir nicht gebrauchen. Das bekommen wir Menschen ja schon mehr als gut genug hin.
Schreiben Sie uns!
2 Beiträge anzeigen