Lexikon der Mathematik: Klasseneinteilung
Die Klasseneinteilung ist eine Methode zur Ermittlung von Hypothesen über die Gestalt der Dichtefunktion bzw. zur Verdichtung und Auswertung von Stichprobendaten einer stetigen Zufallsgröße. Sei X eine stetige Zufallsgröße mit dem Wertebereich \({\mathcal{X}}\) und (x1, …, xn) eine konkrete Stichprobe von X. Um eine Vorstellung über die Gestalt der Verteilung von X in der zugrundeliegenden Grundgesamtheit zu bekommen, wird der Wertebereich \({\mathfrak{X}}\) von X in k disjunkte Intervalle \({K}_{1},\ldots,{K}_{k},{K}_{i}=({a}_{i}^{u},{a}_{i}^{0}]\), die auch Klassen genannt werden, zerlegt:
Anschließend werden die folgenden sogenannten Klassenhäufigkeiten der Stichprobendaten berechnet (j = 1, …n).
Hn(Ki) wird als absolute und hn(Ki) als relative Klassenhäufigkeit bezeichnet. H(i) und h(i) sind die absoluten und relative Summenhäufigkeiten bzw. kurz die kumulativen Klassenhäufigkeiten. Die tabellarische Darstellung liefert die sogenannte Klassenhäufigkeitstabelle:
Die Gesamtheit der absoluten bzw. relativen Klassenhäufigkeiten Hn(Ki), i = 1, …, k bzw. hn(Ki), i = 1, …, k ergibt die absolute bzw. relative Klassenhäufigkeitsverteilung; ihre graphische Darstellung bezeichnet man als Histogramm, siehe Abbildung 1.
Bei der Darstellung des Histogramms verwendet man zur Skalierung der y-Achse i. allg. die sogenannte relative Häufigkeitsdichte
In diesem Fall ist die Fläche eines Balkens über der Klasse Ki gerade hn(Ki) groß. Die Gesamtfläche unter den Balken beträgt 1.
Oft werden nach einer Klasseneinteilung die Stichprobendaten x1, …, xn vernichtet und nur die Klassenhäufigkeitstabelle aufbewahrt. Damit geht die Information über die einzelnen Beobachtungen verloren; man weiß nur noch, wieviele Daten in welcher Klasse liegen, aber nicht mehr, wie sie in einer Klasse verteilt sind. Unter der Modellannahme, daß die Stichprobendaten in jeder Klasse gleichmäßig verteilt sind, wird diese Tabelle zur Approximation der empirischen Verteilungsfunktion und der empirischen Momente wie Mittelwert und Streuung, sowie zur Approximation der empirischen Quantile von X herangezogen.
Seien \({a}_{j}^{u}\) die untere,\({a}_{j}^{o}\) die obere Klassengrenze und \({a}^{\prime}_{j}=\frac{{a}_{j}^{u}+{a}_{j}^{0}}{2}\) die Klassenmitte der Klasse Kj, dann wird die empirische Verteilungsfunktion Fn(x) wie folgt approximiert:
Unter der obigen Modellannnahme ist \(\tilde{{F}_{n}}(x)\) gleich dem Anteil aller xj mit xj ≤ x, siehe Abbildung 2a. Unter der obigen Modellanahme kann also das Histogramm als Schätzung der unbekannten Verteilungsdichte f(x) von X betrachtet werden (Dichteschätzung); die Fläche \(\tilde{{F}_{n}}(b)-\tilde{{F}_{n}}(a)\) unter den Balken zwischen a und b ist unter der obigen Modellannahme gleich dem Anteil aller Beobachtungen xj mit a ≤ xj ≤ b und wird dann als Schätzung der Wahrscheinlichkeit P(a ≤ X ≤ b) verwendet, siehe Abbildung 2b.
Das empirische α-Quantil wird aus dem Histogramm, d. h. unter Verwendung von \(\tilde{{F}_{n}}(x)\) geschätzt; aus der Definition des empirischen Quantils
folgt nach Umstellung
Die Klasse Ki, in welcher das Quantil liegt, identifiziert man unter Benutzung der Häufigkeitstabelle; offensichtlich gilt
Das arithmetische Mittel und die empirische Streuung werden approximiert durch
Dabei ist die Approximation von s2 durch \(\tilde{s}2\) abhängig von der Klassenbreite; in der Regel ist \(\tilde{s}2\) > s2, weshalb in der deskriptiven Statistik bei konstanter Klassenbreite Δ := ΔKi für alle i = 1, …, k anstelle von \({\tilde{s}}^{2}\) häufig die sogenannte Sheppardsche Korrekturformel
Die Güte dieser nur unter Benutzung der Klassenhäufigkeitstabelle berechneten Schätzungen der Verteilungsfunktion, der Dichte, der Momente und der Quantile hängt wesentlich von der Wahl der Klassen, d. h. ihrer Lage (untere Grenze der ersten Klasse, deren Häufigkeit ungleich 0 ist), ihrer Zahl und ihrer Breite ab. Diese drei Werte werden in speziellen Anwendungen oft in Standards festgelegt. Man findet in der statistischen Literatur aber auch verschiedene allgemeine heuristische Regeln für die Wahl der drei Größen; so zum Beispiel die folgende:
Klassenzahl : \(k\approx \sqrt{n}\), (runden), mit der Forderung k ≥ 5.
Einzuteilender Bereich : B = [xmin − ε; xmax + ε], wobei ε so gewählt wird, daß möglichst kein Wert auf eine Klassengrenze fällt. Die untere Grenze der ersten Klasse mit Häufigkeit ungleich 0 ist dann \({a}_{i}^{u}={x}_{min}-\epsilon \)
Klassenbreite: \(\Delta{K}_{i}=\frac{B}{k}\), (aufrunden), i = 1 …, k.
Beispiel. Bei der Produktion von Schrauben kommt es aufgrund der Technologie zu einer zufälligen Schwankung um eine gewünschte Normlänge von 150 mm. Es ist zu untersuchen, wie die Längen um die Norm schwanken. Dazu wurde eine Stichprobe von 40 Schrauben gemessen; es ergaben sich folgende Längen (in mm):
Hieraus erhalten wir in Anwendung der o. g. Empfehlungen zur Bildung der Klassen:
Wir erhalten damit folgende Klassenhäufigkeitstabelle:
Nachdem die Klassenhäufigkeitstabelle erstellt wurde, wurden die 40 Originalbeobachtungsdaten vernichtet. Es sollen nun nur unter Benutzung der vorliegenden Häufigkeitstabelle das arithmetische Mittel, die empirische Streuung, die beiden Quantile \({\tilde{x}}_{0,25}\) und \({\tilde{x}}_{0,75}\) (die sogenannten Quartile), sowie der Anteil der Schrauben (an der Stichprobe) bestimmt werden, die eine Länge zwischen 140 und 160 mm besitzen. Es ergibt sich:
Weiterhin sind
Für den Anteil der Schrauben, deren Länge im Intervall [140, 160] mm liegt, gilt schließlich (160 ∈ K5(i = 5), 140 ∈ K3(i = 3)):
Mit diesen Daten kann man jetzt einen χ2-Anpassungstest zum Prüfen der zufälligen Länge auf Normalverteilung, die Berechnung von Konfidenzintervallen (Bereichsschätzung) für den unbekannten Erwartungswert und für die unbekannte Varianz der Länge aller Schrauben der Gesamtprodunktion, sowie die Berechnung eines Konfidenzintervalls für die unbekannte Ausschußrate, d. h. den Anteil aller Schrauben an der Gesamtproduktion, die nicht im Intervall [140, 160] liegen, anschlie-ßen (Box-Plot).
Literatur
[1] Schwarze,J.: Grundlagen der Statistik I – Beschreibende Verfahren. Verlag Neue Wirtschafts-Briefe Herne/Berlin, 1990.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.