Direkt zum Inhalt

Freistetters Formelwelt: Bitte nicht zu perfekt!

Die Mathematik muss exakt sein. Aber manchmal ist zu viel Perfektion auch ein Problem – vor allem wenn es darum geht, Zusammenhänge in Datenmengen zu finden.
Eine Hand reiht Erbsen in gleichmäßigen Reihen auf.
Zu viel Genauigkeit kann in der Mathematik auch hinderlich sein.

Auf meinem Schreibtisch steht eine kleine elektronische Wetterstation. Sie zeigt mir die aktuelle Außentemperatur, die Luftfeuchtigkeit und den Luftdruck an. Ich benutze sie rein privat, um zu wissen, was mich erwartet, wenn ich vor die Tür gehe. Aber theoretisch könnte ich mich damit auch als Amateur-Meteorologe betätigen. Ich könnte zum Beispiel jeden Tag die Temperatur notieren und dann nach einer Gesetzmäßigkeit zwischen den Datenpunkten suchen. Ich kann mir sogar sicher sein, dass ich fündig werde, denn dafür sorgt diese Formel:

Sie sieht harmlos aus, hat es allerdings in sich – und kann für massive Probleme sorgen, wenn sie falsch angewandt wird. Angenommen, ich habe n + 1 Temperaturmessungen durchgeführt und entsprechend viele Datenpunkte (x, f) für die Temperatur f zu einem bestimmten Zeitpunkt x gesammelt. Dann sagt die Formel, dass es auf jeden Fall ein Polynom P (maximal vom Grad n) gibt, das alle n + 1 Gleichungen erfüllt. Oder anders gesagt: Ich kann immer einen mathematischen Ausdruck finden, der eine Kurve beschreibt, die durch alle meine Datenpunkte verläuft.

Das klingt zuerst einmal großartig, denn in vielen praktischen Fällen ist es genau das, was man sucht. Ausgehend von Mess- oder Beobachtungsdaten will man ein mathematisches Gesetz finden, das die zu Grunde liegenden Zusammenhänge beschreibt. Das Problem dabei ist jedoch: Nicht jeder Zusammenhang stellt auch eine echte Beziehung dar. Und weil man bei der »Polynominterpolation« immer zu einem Ergebnis kommt, sollte man sehr vorsichtig bei der Interpretation sein.

Die legendärsten mathematischen Kniffe, die übelsten Stolpersteine der Physikgeschichte und allerhand Formeln, denen kaum einer ansieht, welche Bedeutung in ihnen schlummert: Das sind die Bewohner von Freistetters Formelwelt.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.

Würde ich meine Temperaturdaten tatsächlich auf die oben beschriebene Weise analysieren, könnte ich zwar eine Funktion finden, die diesen Datensatz perfekt beschreibt – damit aber höchstens Aussagen über die Temperatur treffen, die von meiner Wetterstation an einer speziellen Position (meinem Balkon) gemessen wird (und das auch nur innerhalb des Zeitraums, den die Daten abdecken). Irgendwelche allgemeinen Schlüsse lassen sich daraus nicht ziehen.

Das Problem, um das es hier geht, nennt sich »Überanpassung« beziehungsweise »overfitting«. Ein Polynom vom Grad n hat prinzipiell n + 1 Koeffizienten; es gibt also ebenso viele Parameter, die ich so lange anpassen kann, bis die Formel am Ende perfekt mit meinen Daten übereinstimmt. Doch gerade weil alles so perfekt abgestimmt ist, kann ich mir sicher sein, dass die Formel für jeden anderen Datensatz nicht mehr brauchbar ist. Außerdem wäre es sehr überraschend, wenn zwei Wetterstationen exakt die gleichen Daten messen würden, selbst wenn sie direkt nebeneinander stehen.

Wir brauchen keine KI, die sich für schlauer hält, als sie ist

Wenn man allgemeine Zusammenhänge finden will, sollte man versuchen, mit möglichst wenigen frei wählbaren Parametern auszukommen. Ein reales Naturgesetz kann echte Messpunkte und Beobachtungsdaten außerdem nie exakt wiedergeben, da alle Messungen zwangsläufig mit Fehlern behaftet sind. Eine perfekte Anpassung durch ein Interpolationspolynom ist deshalb das Gegenteil von dem, was wir suchen. Anstatt fundamentale Zusammenhänge zwischen den Daten zu finden, hat man eine Formel exakt an die fehlerbehafteten Messwerte angepasst – und diese Fehler damit in das Modell übernommen.

Das Problem der Überanpassung existiert natürlich nicht nur bei der Verwendung von Polynomen, sondern taucht immer auf, wenn man Modelle an Datensätze anpassen will. Es wird besonders relevant, wenn man die Anpassung automatisiert durchführen lässt. Wenn etwa KI-Algorithmen aus Trainingsdaten selbstständig lernen sollen, muss man Vorkehrungen gegen die wenig hilfreiche Perfektion treffen. Sonst lernt das Programm zwar, Datensätze perfekt zu interpolieren – aber nicht, dass man daraus keine Aussagen über Fälle treffen kann, die nicht von den Trainingsdaten abgedeckt sind. Maschinen, die sich für schlauer halten, als sie sind, können wir nicht gebrauchen. Das bekommen wir Menschen ja schon mehr als gut genug hin.

Schreiben Sie uns!

2 Beiträge anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.