Lexikon der Mathematik: Regressionsanalyse
ein Teilgebiet der mathematischen Statistik, welches statistische Methoden der Modellwahl, der Parameterschätzung und -prüfung umfaßt, die zur Untersuchung einseitiger stochastischer Abhängigkeiten einer Ergebnisvariablen Y von einer oder mehreren Einflußgrößen X1, …, Xn, d.h., von Ursache-Wirkungsbeziehungen und deren funktionaler Beschreibung, dienen.
Man spricht bei einer solch einseitigen Beziehung auch vom Modell I der Regressionsanalyse. Betrachtet man die Beziehungen zwischen Y, X1, …, Xm wechselseitig in alle Richtungen, so spricht man auch von dem Modell II der Regressionsanalyse bzw. der Korrelationsanalyse.
Bei der Regressionsanalyse wird von folgendem Modell ausgegangen:
Da es hier um die Bestimmung einer Funktion fo geht, spricht man bei der Regressionsanalyse auch von Kurvenschätzung bzw. Kurvenfitting.
In der Regel versucht man, die Regressionsfunktion fo durch parametrische Funktionen der Gestalt
Seien
Bei der Methode der kleinsten Quadrate werden die Parameter \(\vec{a}\) durch \(\hat{\vec{a}}\) so geschätzt, daß die sogenannte Residual-Sum of Squares (RSS)
Man spricht von einfacher Regressionanalyse, falls es nur eine Einflußgröße im Modell (1) gibt, d. h., falls m = 1 ist; ist dagegen m > 1, so spricht man von multipler Regressionsanalyse. Weiterhin spricht man von der linearen bzw. quasilinearen Regressionsanalyse, falls \({g}_{\vec{a}}(\vec{x})\) eine lineare Funktion in den Parametern \(\vec{a}\) ist, d. h., falls gilt:
Wird für \({g}_{\vec{a}}(\vec{x})\) ein nichüinearer Ansatz in \(\vec{a}\) gewählt, so spricht man von nichtlinearer Regression. Typische nichtlineare Ansätze für die Regressionsfunktion in der einfachen Regressionsanalyse sind zum Beispiel
Die sogenannte orthogonale Regression beschäftigt sich mit der Aufgabe, eine Gerade zu bestimmen, die gleichermaßen die Regression von Y bzgl. einer Einflußgröße X und von X bzgl. Y darstellt. Es bezeichne für eine Gerade g(x) = y =a0 + a1x in der (x, y)-Ebene \({d}_{({x}_{i},{y}_{i})}({a}_{0},{a}_{1})\) den Abstand des Punktes (xi, yi) von der Geraden g. Eine Gerade \(g(x)={\hat{a}}_{o}+{\hat{a}}_{1}x\) heißt dann orthogonale Regressionsgerade, falls anstelle von (4) die Beziehung
Der Gesamtfehler RSS(\(\hat{\vec{a}}\)) in (4) wird wesentlich durch zwei Teilfehler beeinflußt: Den sogenannten Modellfehler
Die Modellwahlverfahren der Regressionsanalyse beschäftigen sich damit, einen Ansatz für fo so zu wählen, daß der Modellfehler (6) bzw. der Gesamtfehler (4) möglichst klein wird. So gibt es zum Beispiel bei der einfachen linearen Regression Verfahren, die die ‚beste‘ Ordnung k in einem polynomialen Ansatz
Bei der quasi-linearen Regressionsanalyse (5) werden häufig sogenannte schrittweise Modellwahlverfahren angewendet: Ausgehend von einem ‚vollem‘ Modell mit k + 1 Parametern wird in jedem Schritt j die Null-Hypothese
Die Methoden zur Parameterschätzung in Regressionsmodellen umfassen exakte und (i. allg. im Falle der nichtlinearen Regression anzuwendende) numerische Methoden zur Lösung des Minimum-Problems (4), und beschäftigen sich mit der Untersuchung der Eigenschaften der entsprechenden Schätzungen.
Ein Spezialgebiet der Regressionsanalyse ist die Wahl wesenüicher auf die Zielgröße Y wirkender Einflußgrößen. Die Verfahren sind analog denen der Modellwahl; ausgehend von dem ‚vollen‘ Satz von m Einflußgrößen vergleicht man die RSS, die bei Weglassen einzelner Einflußgrößen entstehen, mit der RSS des vollen Modells. Ist die Differenz hinreichend klein, so spielt die entsprechende weggelassene Größe keine Rolle für die Zielgröße Y und kann aus dem Modell entfernt werden.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.