Konfidenzschätzung für eine unbekannte Wahrscheinlichkeit

Lexikon der Mathematik: Konfidenzschätzung für eine unbekannte Wahrscheinlichkeit

Sei X eine dichotome Zufallsgröße, bei der nur die beiden Wahrscheinlichkeiten P(X = 1) = p und P(X =0) = 1−p eintreten können. p sei unbekannt und durch ein Konfidenzintervall zu schätzen. Sei X₁, …, X_n eine Stichprobe von X, auf deren Basis p zunächst durch die relative Häufigkeit \begin{eqnarray}\bar{X}=\frac{1}{n}\displaystyle \sum _{i=1}^{n}({X}_{i})\end{eqnarray}

geschätzt wird. Der Zentrale Grenzwertsatz besagt, daß bei genügend großem Stichprobenumfang n die Zufallsvariable \begin{eqnarray}U:=\frac{\sqrt{n}(\bar{X}-p)}{\sqrt{p(1-p)}}\end{eqnarray}

standardnormalverteilt ist. Davon ausgehend folgt näherungsweise für großes n\begin{eqnarray}P(|U|\le u(1-\frac{\alpha }{2}))\approx 1-\alpha.\end{eqnarray}

Quadriert man die Gleichung \(|U|\le u(1-\frac{\alpha }{2})\) und löst sie nach p auf, so erhält man für großes n ein näherungsweises Konfidenzintervall für p zur Überdeckungswahrscheinlichkeit 1−α gemäß folgender Vorschrift:

\begin{eqnarray}p_1\leq p \leq p_2,\ \text{wobei}\end{eqnarray}\begin{eqnarray}p_{1}:=\frac{n}{n+{u}^{2}(\phi )}\left(\bar{X}+\frac{{u}^{2}(\varphi )}{2n}-u(\phi )\sqrt{\frac{\bar{X}(1-\bar{X})}{n}+{\left(\frac{u(\phi )}{2n}\right)}^{2}}\right)\end{eqnarray}

und \begin{eqnarray}p_{2}:=\frac{n}{n+{u}^{2}(\phi )}\left(\bar{X}+\frac{{u}^{2}(\phi )}{2n}+u(\phi )\sqrt{\frac{\bar{X}(1-\bar{X})}{n}+{\left(\frac{u(\phi )}{2n}\right)}^{2}}\right)\end{eqnarray}

mit \(\phi :=1-{\scriptstyle \frac{\alpha }{2}}\).

Bei kleinem Stichprobenumfang n muß man zur Konstruktion eines Konfidenzintervalls für p die Binomialverteilung von \(n\bar{X}\) verwenden. Für ein zweiseitiges Intervall ergeben sich die Konfidenzgrenzen p₁ und p₂ aus den Beziehungen \begin{eqnarray}\begin{array}{lll}\displaystyle \sum _{k=\bar{X}n}^{n}\left(\begin{array}{c}n\\ k\end{array}\right){p}_{1}^{k}{(1-{p}_{1})}^{n-k} & \le & \frac{\alpha }{2},\\ \displaystyle \sum _{k=\bar{X}n}^{n}\left(\begin{array}{c}n\\ k\end{array}\right){p}_{2}^{k}{(1-{p}_{2})}^{n-k} & \le & \frac{\alpha }{2}.\end{array}\end{eqnarray}

Dieses Verfahren geht auf Clopper und Pearson (1934) zurück. Die Intervallgrenzen können Tafeln entnommen werden. Die Handhabung dieser Formeln zur Ermittlung von p₁ und p₂ ist sehr unbequem und führt in der Regel (da \(n\bar{X}\) eine diskrete Zufallsgröße ist) zu einer Konfidenzschätzung, deren Überdeckungswahrscheinlichkeit ≥ (1 − α) ist. In [2] ist beschrieben, wie man p₁ und p₂ mit Hilfe der F-Verteilung berechnen kann. Die Fachliteratur bietet Methoden zur Konstruktion verbesserter Konfidenzintervalle für p mit minimaler Länge.

Ein Beispiel. In einer Stichprobe von n = 200 produzierten Teilen wurden 8 fehlerhafte Teile ermittelt. Es ist eine Bereichsschätzung für die Anzahl der fehlerhaften Teile bei einer Produktion von 400000 Stück mit einer Sicherheit von 1 − α = 99 Prozent zu ermitteln. Für die relative Häufigkeit ergibt sich \begin{eqnarray}\bar{x}=\frac{8}{200}=0,04,\end{eqnarray}

und für das benötigte Quantil der Standardnormalverteilung liest man aus einer Tabelle den Wert \begin{eqnarray}u(1-\frac{\alpha }{2})=u(0,995)=2,58\end{eqnarray}

ab. Daraus ergibt sich durch Einsetzen \begin{eqnarray}\begin{array}{l}{p}_{1/2}:=\frac{200}{200+2,{58}^{2}}\left(0,04+\frac{2,{58}^{2}}{400}\pm 2,58\sqrt{\frac{0,04\ \cdot\ 0,96}{200}+{\left(\frac{2,58}{400}\right)}^{2}}\right),\end{array}\end{eqnarray} und man erhält das Konfidenzintervall für den Ausschußanteil p der Gesamtproduktion: \begin{eqnarray}[{p}_{1};{p}_{2}]=[0,017;0,093].\end{eqnarray}

Die Anzahl defekter Teile bei einer Produnktion von 400000 Stück liegt dann mit einer Sicherheit von 99 Prozent im Intervall [28000; 37400].

[1] Clopper, C.J., Pearson, E.S.: The use of confidence or fiducial limits illustrated in the case of binomial. Biometrika 26, S. 404-413, 1934.
[2] Storm,R.: Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitätskontrolle. Fachbuchverlag Leipzig-Köln, 1995.
[3] Weber, E.: Grundriß der biologischen Statistik. Fischer Verlag, Jena, 9. Auflage, 1986.

Lexikon der Mathematik: Konfidenzschätzung für eine unbekannte Wahrscheinlichkeit

Schreiben Sie uns!

Artikel zum Thema

Freistetters Formelwelt: Der Schlüssel zu den interessanten Regionen des Sonnensystems

Die fabelhafte Welt der Mathematik: Wie zwei Mathematiker die Zukunft berechenbar machten

Die fabelhafte Welt der Mathematik: Die mysteriöse Konstante, die Mathematiker verzweifeln lässt

Freistetters Formelwelt: Von einfachen Grenzwerten zu Schwarzen Löchern

Themenkanäle

Die neue Generation von Computern

Quantenphysik

Das Digital-Manifest

SponsoredPartnerinhalte