Lexikon der Mathematik: Kontingenztafel
Kreuztabelle, Kreuztafel, tabellarische Darstellung von zweidimensionalen Häufigkeitsverteilungen, meist zur Beurteilung von (Schein-)korrelationen.
Bei der Berechnung von Korrelationen zwischen verschiedenen Merkmalen muß man darauf achten, daß die Merkmale in einem sachlogischen Zusammenhang stehen, da sonst inhaltlich unsinnige Korrelationen bestimmt werden können. Für nominal skalierte Merkmale verwendet man dabei oft Kontingenztafeln.
Seien (X, Y) ein Paar diskreter Merkmale mit dem Wertebereich 𝒳 ={a1, …, ak} bzw. 𝒴 = {b1, …, bm} und (xi, yi), i = 1, …, N eine Stich-probe von (X, Y). Dann hat die Kontingenztafel folgende Gestalt:
Dabei sind Hij die Anzahl von Beobachtungspaaren (xl, yl) mit xl = ai und yl = bj. Hij wird auch als absolute Zellhäufigkeit bezeichnet. Die Gesamtheit \({({H}_{ij})}_{i=1,\ldots, k}^{j=1,\ldots, m}\) bildet die zweidimensionale absolute Häufigkeitsverteilung von (X, Y). Die jeweiligen Zeilen- und Spaltensummen liefern die Randhäufigkeiten
die die absolute Häufigkeitsverteilung von X bzw. Y bilden. Die obige Tabelle wird auch als (k, m)-Tafel bezeichnet. Auch stetige Variablen können in Kreuztabellen dargestellt werden, indem man vorher eine Klasseneinteilung der Wertebereiche 𝒳 und 𝒴 durchführt. An die Stelle der Werte ai und bj treten dann die Klassen \({K}_{i}^{X}\) und \({K}_{j}^{Y}\).
Die statistische Fragestellung in Kontingenztafeln besteht in der Untersuchung des Zusammenhangs zwischen den beiden Variablen X und Y. Dazu sind statistische Maßzahlen und spezielle Hypothesentests entwickelt worden. Durch Hypothesentests kann man die Aussagen überprüfen. Die verwendeten Maßzahlen und Teststatistiken hängen vom Skalentyp der Variablen ab. Wenn beide Variablen mindestens ordinalskaliert sind, verwendet man Korrelationskoeffizienten. Diese messen nicht nur die Abhängigkeit, sondern auch die Richtung der Abhängigkeit beider Variablen. Ist eine der beiden Variablen nur nominalskaliert, so gibt es keine Ordnung in den Daten und damit keine Orientierung mehr. In diesem Fall werden Assoziationsmaße verwendet, die die Stärke der Abhängigkeit beider Variablen ohne Orientierung messen. Bei diesen Maßen wird stets die absolute Zell-Häufigkeit \({H}_{ij}^{E}\) berechnet, die man bei Unabhängigkeit von X und Y erwarten kann, und mit der beobachteten Zellhäufigkeit Hij verglichen.
Bei Unabhängigkeit gilt folgender Zusammenhang zwischen der gemeinsamen Verteilung pij = P (X = ai und Y = bj) und den Randverteilungen pij = P (X = ai und Y = bj) und den Randverteilungen pi. = P(X = ai) und p.j = P(Y = bj):
Daraus ergibt sich unter Beachtung der Approximation der Wahrscheinlichkeiten durch die relativen Häufigkeiten
und folglich
Typische Maße zur Bewertung der Unabhängigkeit (Assoziation) von X und Y basieren auf dem sogenannten χ2-Abstand
wobei \({H}_{ij}^{B}:={H}_{ij}\) für die beobachtete Häufigkeit steht. Diese Größe ist approximativ χ2-verteilt (woraus sich ihr Name ergibt) und wird in Assoziationsmaßen und im χ2-Unabhängigkeitstest verwendet. Typische Assoziationsmaße sind der Kontingenzkoeffizient und Cramers V-Koeffizient.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.