Varianzanalyse

Lexikon der Mathematik: Varianzanalyse

auch als ANOVA (Analysis of Variances) bezeichnet, ein in wesentlichen von Sir Ronald Aylmer Fisher entwickeltes Teilgebiet der mathematischen Statistik, welches darauf gerichtet ist, den Einfluß von gestuften Faktoren auf ein beobachtetes zufälliges Merkmal zu untersuchen.

Dabei wird die Frage beantwortet, ob die verschiedenen Stufen eines Einflußfaktors statistisch signifikant unterschiedliche Wirkungen auf das interessierende Merkmal haben. Die einzelnen Modelle der Varianzanalyse unterscheiden sich nach drei Kriterien:

a) Nach der Anzahl der im Versuchsplan enthaltenen Faktoren unterscheidet man die einfache, zweifache, dreifache, usw. Varianzanalyse.

b) Nach Anzahl der Beobachtungen je Faktorabstufung unterscheidet man zwischen der Varianzanalyse mit mehrfacher Klassenbesetzung und der Varianzanalyse mit einfacher Klassenbesetzung.

c) Nach Aufbau des Versuchsplanes und Zielsetzung unterscheidet man zwischen dem

– Modell I: Modell mit festen Effekten. Hier sind die einzelnen Faktorabstufungen fest vorgegeben. Das Ziel der Untersuchung besteht darin, den mittleren Effekt der vorgegebenen Faktorabstufungen auf das beobachtete Merkmal auszuweisen.

– Modell II: Modell mit zufälligen Effekten. Die einzelnen Faktorabstufungen sind nicht fest vorgegeben, sondern ihr konkreter Ausprägungsgrad wird zufällig realisiert. Die Zielstellung der Untersuchung ist hier, Kenntnis über die von den Faktoren erzeugte Variabilität (Streuung) innerhalb der Gesamtvariabilität zu erlangen.

– Modell III: Modell der gemischten Effekte, welches sowohl feste als auch zufällige Effekte enthält.

Geht es beispielsweise um die Untersuchung von bestimmten fest vorgegebenen Dosierungen eines Psychopharmakons auf das Leistungsvermögen, so handelt es sich um Modell I; geht es aber um die Untersuchung des Einflusses des Alters auf das Leistungsvermögen, und ergibt sich das Alter zufällig aus einer Zufallsstichprobe, so handelt es sich um Modell II. Um Modell III handelt es sich, wenn der Einfluß von beiden Einflußfaktoren, Dosis und Alter, auf das Leistungsvermögen untersucht werden soll.

Das Prinzip der Varianzanalyse sei im folgenden am Beispiel des Modells I für die einfache Klassifikation beschrieben.

1) Modell I, einfache Klassifikation.

Versuchsplan:

Abbildung 1 zum Lexikonartikel Varianzanalyse — © Springer-Verlag GmbH Deutschland 2017
Bild vergrößern

Modell: \begin{eqnarray}{y}_{ij}=\mu +{\alpha}_{i}+{\varepsilon}_{ij},\ i=1,\ldots,k;\ j=1,\ldots {n}_{i}.\end{eqnarray}

Dabei sind α_i der Einfluß des i-ten Faktors auf den Erwartungswert Ey_ij = μ_i = μ + α_i, μ der von den Faktorstufen unabhängige Teil des Erwartungswertes Ey_ij, und ϵ_ij für alle i und j stochastisch unabhängige identisch N(0, σ²) (normal)verteilte Zufallsgrößen, die den zufälligen Versuchsfehler darstellen.

Problemstellung: Prüfen der Hypothese: \begin{eqnarray}{H}_{0}:{\alpha}_{1}={\alpha}_{2}=\cdots ={\alpha}_{k}=0\\ {\rm{bzw}}.\ {H}_{0}:{\mu}_{1}={\mu}_{2}=\cdots ={\mu}_{k}\end{eqnarray}

Um die Auswertung zu normieren, wird i. a. die Gültigkeit der Bedingung \begin{eqnarray}{n}_{1}{\alpha}_{1}+{n}_{2}{\alpha}_{2}+\cdots +{n}_{k}{\alpha}_{k}=0\end{eqnarray} vorausgesetzt, die als Reparametrisierungsbedingung bezeichnet wird. Die Lösung der Problemstellung erfolgt mit einem F-Test. Zur Berechnung der Testgröße wird die Gesamtvarianz SQG der Beobachtungen in sogenannte Varianzkomponenten SQA und SQR zerlegt: \begin{eqnarray}\begin{array}{lll}SQG & = & SQA+SQR\ {\rm{mit}}\\ SQG & = & \displaystyle \sum _{i=1}^{k}\displaystyle \sum _{j=1}^{{n}_{i}}{({y}_{ij}-\overline{y})}^{2}\\ SQA & = & \displaystyle \sum _{i=1}^{k}{n}_{i}{(\overline{{y}_{i.}}-\overline{{y}_{\mathrm{..}}})}^{2}\\ SQR & = & \displaystyle \sum _{i=1}^{k}\displaystyle \sum _{j=1}^{{n}_{i}}{({y}_{ij}-\overline{{y}_{i.}})}^{2}\end{array}\end{eqnarray}

(SQA = Variation zwischen den Stufen, SQR = Variation innerhalb der Stufen des Faktors (Rest)).

Man kann zeigen, daß gilt: \begin{eqnarray}E\left(\frac{SQA}{k-1}\right)={\sigma}^{2}+\displaystyle \sum _{i=1}^{k}{n}_{i}{\alpha}_{i}^{2}\end{eqnarray} und \begin{eqnarray}E\left(\frac{SQR}{n-k}\right)={\sigma}^{2}\ \,\text{f}{\rm\ddot{u}}\text{r}\,\ n=\displaystyle \sum _{i=1}^{k}{n}_{i}.\end{eqnarray}

Unter der Hypothese H₀ sind also beide Teilvarianzen gleich. Deshalb verwendet man zum Prüfen der H₀-Hypothese einen F-Test auf Gleichheit der Varianzen. Die Teststatistik ist \begin{eqnarray}T=\frac{SQA/(k-1)}{SQR/(n-k)},\end{eqnarray} die bei Gültigkeit der Nullhypothese H₀ eine F-Verteilung mit k − 1 und n − k Freiheitsgraden besitzt. H₀ wird bei vorgegebenen Signifikanzniveau α abgelehnt, wenn \begin{eqnarray}T\gt {F}_{k-1,n-k}(1-\alpha)\end{eqnarray} gilt, wobei F_a,b(p) das p-Quantil der F-Verteilung mit a, b Freiheitsgraden ist. Die Stärke des Effektes der i-ten Faktorstufe wird aus der Stichprobe gemäß \begin{eqnarray}{\hat{\alpha}}_{i}=\overline{{y}_{i.}}-\overline{{y}_{\mathrm{..}}}\end{eqnarray} geschätzt.

Einige weitere wichtige Modelle und Hypothesen der Varianzanalyse:

2) Modell I, zweifache Klassifikation mit einfacher Besetzung: \begin{eqnarray}\begin{array}{l}{y}_{ij}=\mu +{\alpha}_{i}+{\beta}_{j}+{\varepsilon}_{ij}\\ i=1,\ldots,k,\ j=1,\ldots,l\end{array}\end{eqnarray} (α_i Einfluß der i–ten Stufe des Faktors A, β_j Einfluß der j-ten Stufe des Faktors B, ϵ_ij stochastisch unabhängig und identisch N(0, σ²)-verteilt). Ziel: Prüfung der Hypothesen \begin{eqnarray}{H}_{a}:{\alpha}_{1}=\cdots ={\alpha}_{k}=0\\ {H}_{b}:{\beta}_{1}=\cdots ={\beta}_{l}=0\end{eqnarray} mit den Reparametrisierungsbedingungen \begin{eqnarray}\displaystyle \sum _{i=1}^{k}{\alpha}_{i}=0,\ \displaystyle \sum _{j=1}^{l}{\beta}_{j}=0.\end{eqnarray}

In diesem Modell ist jede Kombination (α_i, β_j) der Faktorstufen jeweils nur mit einer einzigen Beobachtung y_ij besetzt.

3) Modell I, zweifache Klassifikation mit mehrfacher Besetzung \begin{eqnarray}\begin{array}{l}{y}_{ijm}=\mu +{\alpha}_{i}+{\beta}_{j}+{\gamma}_{ij}+{\varepsilon}_{ijm}\\ i=1,\ldots,k,\ j=1,\ldots,l\end{array}\end{eqnarray} (γ_ij Wechselwirkung zwischen den Faktoren α_i und β_j, ϵ_ijm ∼ N(0, σ²)-verteilt und stochastisch unabhängig). Neben dem Prüfen der Hypothesen H_a und H_b geht es hier um die Untersuchung des Einflusses von Wechselwirkungen zwischen den Faktoren, d. h. um das Prüfen der Hypothese \begin{eqnarray}{H}_{c}:{\gamma}_{ij}=0\ \,\text{f}{\rm\ddot{u}}\text{r}\,\ {\rm{alle}}\ i\ {\rm{und}}\ j\end{eqnarray} mit den Reparametrisierungsbedingungen \begin{eqnarray}\displaystyle \sum _{i=1}^{k}\displaystyle \sum _{j=1}^{l}{\gamma}_{ij}=0.\end{eqnarray}

4) Modell II, am Beispiel der zweifachen Klassifikation mit mehrfacher Besetzung: \begin{eqnarray}\begin{array}{l}{y}_{ijm}=\mu +{A}_{i}+{B}_{j}+{C}_{ij}+{\varepsilon}_{ijm}\\ i=1,\ldots,k,\ j=1,\ldots,l\end{array}\end{eqnarray}

Dabei sind A_i normalverteilte paarweise unabhängige Zufallsgrößen mit EA_i = 0 und \(Var({A}_{i})=\ {\sigma}_{A}^{2}\) für alle i, B_j normalverteilte paarweise unabhängige Zufallsgrößen mit EB_j = 0 und \(Var({B}_{j})=\ {\sigma}_{B}^{2}\) für alle j, C_ij normalverteilte paarweise unabhängige Zufallsgrößen mit EC_ij = 0 und \(Var({C}_{ij})=\ {\sigma}_{AB}^{2}\) für alle i und alle j, ϵ_ijm stochastisch unabhängig und identisch \(N(0,\ {\sigma}_{\varepsilon}^{2})\)-verteilt.

Die Aufgabenstellungen in einem solchen Modell sind:

(1) Ermittlung erwartungstreuer Schätzungen (Punktschätzungen) für die Varianzkomponenten \({\sigma}_{A}^{2}\), \({\sigma}_{B}^{2}\), \({\sigma}_{AB}^{2}\) und \({\sigma}_{\varepsilon}^{2}\).

(2) Prüfung der Hypothesen \begin{eqnarray}{H}_{A}:{\sigma}_{A}^{2}=0,\ {H}_{B}:{\sigma}_{B}^{2}=0,\ {H}_{AB}:{\sigma}_{AB}^{2}=0.\end{eqnarray}

(3) Konstruktion von Konfidenzintervallen für die Varianzkomponenten \({\sigma}_{A}^{2}\), \({\sigma}_{B}^{2}\), \({\sigma}_{AB}^{2}\).

Lexikon der Mathematik: Varianzanalyse

Schreiben Sie uns!

Artikel zum Thema

Knotentheorie: Ein Quantencomputer untersucht mathematische Knoten

Freistetters Formelwelt: Von verschlungenen Pfaden und Knoten

Freistetters Formelwelt: Warum fliegen Insekten zum Licht?

Die fabelhafte Welt der Mathematik: Mathematik erklärt, wie Tiger zu ihren Streifen kommen

Themenkanäle

Die neue Generation von Computern

Topologie

Quantenphysik

SponsoredPartnerinhalte