Direkt zum Inhalt

Lexikon der Mathematik: suffiziente Statistik

eine Stichprobenfunktionmit einer bestimmten Güteeigenschaft.

Es sei \(\overrightarrow{X}=({X}_{1},\ldots, {X}_{n})\) eine mathematische Stichprobe mit dem zugehörigen Stichprobenraum [ℝn, ℬn] (ℬn ist die σ-Algebra der Borel-Mengen des ℝn), deren Wahrscheinlichkeitsverteilung \({P}_{\overrightarrow{X}}\) einer parametrisierten Familie Q = (Qγ)γ∈+Γ von Wahrscheinlichkeitsverteilungen auf [ℝn, ℬn] angehört. Mit anderen Worten, \({P}_{\overrightarrow{X}}\) sei bis auf einen unbekannten Parameter (vektor) γ ∈ Γ bekannt.

Dem Begriff der Suffizienz einer Statistik Tn = T(X1, …, Xn) liegt die Vorstellung zugrunde, daß bei der durch Tn definierten Datenverdichtung kein Verlust an Information über γ eintritt. Man bezeichnet demzufolge die Statistik Tn (z. B. eine Punktschätzung für γ) als suffizient (hinreichend, erschöpfend), wenn die bedingte Verteilung \begin{eqnarray}{Q}_{\gamma}=(\overrightarrow{X}\in A|{T}_{n}=t)\end{eqnarray}

für alle A ∈ ℬn unabhängig von γ ∈ + ist.

Die Suffizienz einer Statistik bedeutet also, daß die Lage der einzelnen Stichprobenwerte xi innerhalb einer Stichprobe (x1, …, xn) mit T(x1, …, xn) = t keine zusätzlichen Informationen über γ liefert.

Beispiel. Sei Xi, i = 1,…,n, ein Bernoulli-Schema, d. h., sei \(\overrightarrow{X}\) = (X1, …, Xn) eine Stichprobe einer stochastisch unabhängigen zweipunktverteilten Zufallsgröße X mit den Werten 1 (Erfolg) und 0 (Mißerfolg) und der Erfolgswahrscheinlichkeit p = P(X = 1). Dann gilt für die Verteilung \({P}_{\overrightarrow{X}}\) : \begin{eqnarray}{P}_{\overrightarrow{X}}={Q}_{\gamma}(\overrightarrow{X}=\overrightarrow{x})={\gamma}^{\mathop{\sum ^{n}_{t=1}}}{(1-\gamma)}^{n-{\mathop{\sum ^{n}_{t=1}}}{x}_{i}}\end{eqnarray}

mit γ = p ∈ [0, 1]. Diese Verteilung hängt also außer von γ nur von der Anzahl der Gesamterfolge \(\mathop{\sum ^{n}_{i=1}} {x}_{i}\) ab.

Betrachten wir die Statistik \begin{eqnarray}{T}_{n}=\displaystyle \sum _{i=1}^{n}{X}_{i},\end{eqnarray}

die als Anzahl der Erfolge bei n-maliger Wiederholung eines zweipunktverteilten Versuches binomialverteilt ist, so folgt unter Anwendung der Definition von bedingten Wahrscheinlichkeiten sofort: \begin{eqnarray}{Q}_{\gamma}(\overrightarrow{X}=\overrightarrow{x}|{T}_{n}=t)=\left\{\begin{array}{cc}\left(\begin{array}{c}n\\ j\end{array}\right)^{-1} & \mathrm f\ddot{\mathrm u}\mathrm r\ & T(\overrightarrow{x})=t,\\ 0 & \mathrm f\ddot{\mathrm u}\mathrm r\ & T(\overrightarrow{x})\ne t.\end{array}\right.\end{eqnarray}

Dies bedeutet, daß die Statistik \({T}_{n}=\mathop{\sum ^{n}_{i=1}} {X}_{i}\) suffizient für den Parameter γ = p der Verteilung \({P}_{\overrightarrow{X}}\) ist.

  • Die Autoren
- Prof. Dr. Guido Walz

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.