Lexikon der Psychologie: Reliabilität
Reliabilität, auch: formale Zuverlässigkeit; Gütekriterium eines Tests oder Fragebogens, das angibt, wie stark die Meßwerte durch Störeinflüsse und Fehler belastet sind. Hintergrund für die Reliabilitätsbestimmung ist die Klassische Testtheorie. Es gibt im Prinzip vier verschiedene Methoden, die Reliabilität eines Tests empirisch abzuschätzen, wobei jedoch alle vier Methoden zu unterschiedlichen Reliabilitätsschätzungen führen können: Testwiederholung, Parallelitätstests, Testhalbierung und interne Konsistenzbestimmung.
1) Bei der Methode der Testwiederholung wird ein und derselbe Test der gleichen Personengruppe zu verschiedenen Zeitpunkten zwei- oder auch mehrmals vorgegeben; anschließend werden die Testrohwerte miteinander korreliert. Die Höhe dieser Korrelation(en) gilt dann als ein Indikator für die Reliabilität (Test-Retest-Reliabilität oder Stabilität). Dabei macht man jedoch die häufig unrealistische Annahme, daß sich sozialwissenschaftliche Merkmale im Laufe der Zeit nicht oder doch nur unwesentlich verändern und daß Lern- bzw. Erinnerungseffekte (”Was habe ich bei der vorangegangenen Testdurchführung angekreuzt?”) bedeutungslos sind.
2) Theoretisch zwar recht plausibel, praktisch aber in den meisten Fällen nicht realisierbar, ist die Bestimmung der Reliabilität mit Hilfe von parallelen Tests (Äquivalenz-Reliabilität): Eine Testwiederholung wird hier also durch die einmalige Vorgabe psychometrisch gleichwertiger Tests ersetzt. Derartige Tests können eigentlich nur für bestimmte eng begrenzte Fragestellungen der Leistungspsychologie und der Intelligenzmessung (z.B. zwei parallele Rechentests) konstruiert werden. Hat man parallele Tests, so läßt sich deren Reliabilität wiederum an der Höhe ihrer Testrohwerte-Korrelationen ablesen.
3) Auch bei der Testhalbierungs-Reliabilität erspart man sich eine Testwiederholung. Statt dessen werden die Items eines ebenfalls nur einmal präsentierten Tests einfach in zwei Gruppen aufgeteilt (etwa indem bei einem aus 10 Items bestehenden Test die Items durchnumeriert werden und die geradzahligen Items dann die erste und die ungeradzahligen Items die zweite Gruppe bilden). Anschließend werden die Testrohwerte beider Itemgruppen miteinander korreliert. Auch hier gilt: Je höher diese Korrelation der Testhälften, um so höher die Reliabilität. Da jedoch die Zuordnung von Items zu den beiden Itemgruppen beliebig ist und jede Gruppierung andere Reliabilitätsschätzungen erbringen kann, ist dieses Verfahren – selbst bei Verwendung speziell für diesen Zweck entwickelter Reliabilitätskoeffizienten – in Fachkreisen umstritten.
4) Als Weiterführung der Testhalbierungs-Reliabilität kann die Konsistenz-Reliabilität betrachtet werden. In ihr wird ein Test nicht nur in zwei, sondern in so viele Teile untergliedert, wie er Items umfaßt: Wie bereits gesagt, kann ja jedes Item als ein wiederholter Versuch der Messung eines Merkmales angesehen werden. Das setzt nun aber voraus, daß diese Items auch wirklich auf ein und dasselbe latente Merkmal schließen lassen, daß sie also eine hohe interne Konsistenz aufweisen. Empirisch erkennbar ist dies z.B. an der Höhe, mit der diese Items untereinander korrelieren. Für die Bestimmung des Grades der internen Konsistenz von Testitems sind eine Reihe von entsprechenden Reliabilitätskoeffizienten vorgeschlagen worden, deren bekanntester der nach seinem Entwickler Cronbach benannte ”Alpha-Koeffizient” ist. Diese Koeffizienten (bei denen auf die eine oder andere Art und Weise die geschätzte ”wahre Varianz” zur beobachteten Varianz ins Verhältnis gesetzt wird) liegen normalerweise in den Grenzen zwischen 0 und 1: Je höher sie ausfallen, um so konsistenter die Testitems und infolgedessen auch um so reliabler der gesamte Test. Die Höhe dieser Koeffizienten hängt jedoch nicht nur von dem Grad der Interkorrelation der verwendeten Items ab, sondern auch von der Zahl der Items: Geringere Item-Korrelationen können dabei durch größere Itemzahlen kompensiert werden. Schließlich sind auch faktorenanalytisch fundierte Konsistenz-Reliabilitätskoeffizienten konstruiert worden. Eine Besonderheit bei dieser Art der Reliabilitätsbestimmung besteht darin, daß bei der Aufsummierung der Item-Meßwerte zu einem Testrohwert diese nach der Höhe ihrer Faktorenladung unterschiedlich gewichtet werden. Vorausgesetzt wird bei diesem ”congenerischen Reliabilitätsmodell” lediglich, daß die verwendeten Testitems nur auf einem Faktor substantiell laden. Bei der einfachen (= ungewichteten) Aufsummierung der Item-Meßwerte zu einem Testrohwert wird die Reliabilität eines Tests in dem Maße unterschätzt, in dem diese Testitems das zu erfassende Persönlichkeitsmerkmal unterschiedlich effizient messen, d.h. unterschiedliche Faktorenladungen auf dem ”Generalfaktor” aufweisen.
H.Gi.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.