Lexikon der Psychologie: Tests
Essay
Tests
Helmut Giegler
Problemstellung
Tests (andere Bezeichnung “Skalen”) werden – keineswegs nur in der Psychologie, sondern in den Sozialwissenschaften generell – eingesetzt, um Aufschluß über Richtung und Stärke der Ausprägung (quantitative Tests) oder auch einfach nur über das Vorliegen (qualitative bzw. klassifizierende Tests) von spezifischen Merkmalen bei Einzelpersonen oder Personengruppen zu erlangen. Diese Merkmale (z.B. Intelligenz, Leistungsmotivation, Neurotizismus, Extraversion, soziale und politische Einstellungen) werden dabei als latente Größen angesehen, die empirisch nicht direkt (z.B. durch den bloßen Augenschein oder das Stellen einer einzigen Frage) erfaßbar sind, sondern nur indirekt erschlossen werden können.
In der Regel konfrontiert man bei Tests die zu diagnostizierenden Personen mit einer ganzen Reihe von sog. Items (Fragen, Aussagen oder Aufgaben, aber z.B. auch Bildern), von denen man vermutet, daß sie für die jeweils gegebene diagnostische Fragestellung von indizierender Relevanz sind. Wenn etwa bei einem Rechentest eine Person nur eine der Rechenaufgaben aus diesem Test richtig löst, kann dies auch zufällig geschehen sein (indem die Testperson beispielsweise bei einer “Multiple-Choice-Frage” zufällig die richtige Antwort angekreuzt hat). Je mehr Rechenaufgaben eine Person jedoch richtig löst, in einem um so geringeren Maße mag man hier noch an einen Zufall glauben. Vielmehr spricht dann wohl einiges dafür, daß hier eine tatsächlich vorliegende hohe Rechenfähigkeit (quantitatives Merkmal) diese richtigen Lösungen wesentlich bedingt hat. Ähnlich geht es bei der Erfassung von qualitativen Merkmalen (z.B. Konfliktbewältigungsstrategien; Konflikt) um das “Zusammenpassen” von nominalen Antwortmustern: Dabei wird jede Antwort gewissermaßen als ein gesondertes Mosaiksteinchen aufgefaßt: Je mehr passende Mosaiksteinchen sich finden, um so geschlossener ist das resultierende Mosaikbild. Diese Items bieten den Testpersonen also zwei oder auch mehr Reaktionsmöglichkeiten an, deren numerischer Code als Item-Meßwert bezeichnet wird.
Testtheoretische Gütekriterien
Der Gegenstand der KlassischenTesttheorie besteht nun darin, Gütekriterien für Tests bereitzustellen (Lienert & Raatz, 1994; Guthke et al., 1991). Erst wenn diese bei einem Test hinreichend erfüllt sind, sollte von einem wissenschaftlich fundierten Test gesprochen werden. Folgende Gütekriterien werden dabei herangezogen: Objektivität (Unabhängigkeit der Testresultate von der Testsituation und den Testleitern), Reliabilität (formale Zuverlässigkeit bzw. Meßgenauigkeit), Validität (inhaltliche Gültigkeit) und Praktikabilität (wissenschaftliche Ökonomie).
Probabilistische Testmodelle
Die den Gütekriterien für sozialwissenschaftliche Tests wesentlich zugrundeliegende “Klassische Testtheorie” ist in vielen Punkten zu Recht kritisiert worden. Ein wesentlicher Kritikpunkt besteht darin, daß sie die Existenz von – wenn auch “fehlerbehafteten” – Meßwerten zu einem bestimmten Gegenstandsbereich in einer operationalistischen Manier (etwa: “Intelligenz ist das, was ein Intelligenztest mißt”) letztlich voraussetzt (Steyer & Eid, 1993; Michell, 1990), dafür zwar Plausibilitätsannahmen (Reliabilität, Validität) ins Feld führen kann, aber keine falsifizierbaren Aussagen in Form einer mathematisch definierten Funktion darüber macht, wie diese Meßwerte als Repräsentanten von latenten Merkmalen gewissermaßen “verhaltenstheoretisch” (hier Ankreuzverhalten bei der Testerhebung) zustande kommen. Wenn sie dennoch nach wie vor im Zentrum der empirischen Sozialforschung und der psychologischen Diagnostik steht, so ist dies weniger ihren besonderen Vorzügen, als vielmehr dem Umstand zu verdanken, daß Weiterentwicklungen (Rasch-Modell, Analyse latenter Klassen) die erkannten Schwächen dieses “klassischen” Ansatzes überwinden sollen, mit einem ganz erheblichen mathematischen – Sozialwissenschaftlern nicht immer leicht zu vermittelnden – Mehraufwand verbunden sind und sich darüber hinaus sowohl von ihren technischen (Rechenaufwand, Computerkapazitäten) als auch von ihren empirischen Anforderungen (große Fallzahlen) her gesehen in vielen Fällen zunächst als ziemlich unpraktikabel erwiesen haben. Ein Programmsystem, das alle hier erwähnten probabilistischen Testmodelle durchzurechnen und entsprechende Kenn- und Prüfwerte sowie einschlägige grafische Diagramme zu liefern vermag, ist das von Davier entwickelte Computerprogramm WINMIRA.
Testauswertung
Bei der Auswertung eines Tests stellt sich die Frage, ob statistische Analysen oder Einzelfalldiagnostiken intendiert sind. Bei statistischen Analysen werden die Testdaten zunächst computerlesbar gemacht und dann mit der einschlägigen Statistiksoftware analysiert. In der Einzelfalldiagnostik bedient man sich zur Gewinnung des – bzw. bei heterogenen (= mehrdimensionalen) Tests der – Testrohwerte(s) vielfach geeigneter Hilfsmittel wie Auswertungsstreifen oder Transparentfolien, die man an bzw. auf die Testbögen legt, so daß die zugehörigen Item-Meßwerte unmittelbar abgelesen werden können. Sind dann die Testrohwerte durch Aufsummierung der entsprechenden Item-Meßwerte ermittelt, müssen diese in der Regel noch transformiert werden, bevor sie inhaltlich interpretiert werden können.
Bei diesen Transformationen (z.B. “Z-”, “T-” oder “Prozentrang-Transformation”) werden die Testrohwerte unter Bezug auf sog. Eichstichproben (= möglichst repräsentative Bevölkerungsstichproben) in Testendwerte, kurz Testwerte genannt, umgerechnet. Diese Eichstichproben unterteilen sich in allgemeine und spezielle; bei letzteren sind getrennt nach bestimmten, inhaltlich für relevant erachteten Subgruppen (z.B. “Frauen – Männer” oder “Neurotiker – Nichtneurotiker”), mehrere verschiedene Eichungen vorgenommen worden (Stichprobe). Diese Testwerte zeichnen sich häufig dadurch aus, daß sie als Abweichungen von einem bestimmten Mittelwert (etwa 100 oder 50) gefaßt sind. Je deutlicher der Testwert einer Person von einem solchen Mittelwert abweicht, um so diagnostisch aufschlußreicher ist dies. So ist etwa die mittlere Intelligenz mit 100 definiert; weist eine Testperson dann beispielsweise einen IQ von 180 auf, so ist dies schon sehr bemerkenswert, da in der zugrundeliegenden Eichstichprobe nur ein sehr geringer Prozentsatz der Bevölkerung über einen so hohen IQ verfügt (Intelligenz). Anstelle der Abweichung kann auch der Grad der Übereinstimmung eines Testwertes mit dem Testmittelwert einer speziellen Eichstichprobe diagnostisch sehr aufschlußreich sein; etwa, wenn eine Testperson einen Testwert aufweist, der dem Testmittelwert von Neurotikern sehr nahe kommt. Um allzu vorschnellen Beurteilungen etwas begegnen zu können, wird zuweilen auch noch der Standardmeßfehler für eine getestete Person bestimmt. Dieser gestattet Aussagen darüber, in welchen Grenzen der “wahre Testwert” einer Person mit welcher Irrtumswahrscheinlichkeit liegt (Vertrauensintervall).
Testverwendung
Wenn man einmal von rein innerwissenschaftlichen Zielsetzungen (z.B. Testkonstruktion, -überprüfung, -modifikation, Heranziehung als abhängige, unabhängige oder klassifizierende Variable in der quantitativen empirischen Sozialforschung usw.) absieht, zeichnet sich bei der Einzelfalldiagnostik ein Verwendungskontinuum ab, wobei der eine Pol die reine Klientenberatung ohne selektive Konsequenzen und der andere Pol die reine soziale Selektion ohne jede Klientenberatung darstellt. Wie ein Arzt, so muß auch ein Psychologe, Pädagoge oder etwa auch ein Berufsberater zunächst einmal über Fähigkeiten, Motivationen, Probleme, seelische Grundstimmungen und Rahmenbedingungen seines Klienten möglichst umfassend informiert sein, bevor er praktisch tätig werden kann. Als ein erster Einstieg für eine nachfolgende eingehende therapeutische Beratung können geeignete psychologische Tests daher zweifellos sehr gute Dienste leisten: Man gibt sich in diesem Falle zwar mit den reinen Testresultaten keineswegs zufrieden, betrachtet sie aber – häufig im Verbund mit anderen psychologischen Untersuchungsmethoden – gewissermaßen als ein, einen ersten groben Gesprächsleitfaden generierendes, exploratives Hilfsinstrument, das wichtige Anhaltspunkte für nachfolgende ausführlichere Einzel- oder Gruppengespräche liefern kann. Demgegenüber ist der Verwendung psychologischer Tests zum alleinigen Zweck der sozialen Selektion – etwa als Eingangsvoraussetzung für “höhere” Bildungseinrichtungen oder Berufslaufbahnen (Berufseignungsdiagnostik) – nur mit großen Vorbehalten und äußerster Vorsicht zu begegnen; dies gilt vorallem für sog. Charaktertests. Drei Gründe lassen sich für diese kritische Beurteilung ins Feld führen:
1) Sind die testtheoretischen Gütemaße bei psychologischen Leistungstests zumeist noch einigermaßen zufriedenstellend, so fallen sie bei den Charaktertests – zumindest bei individualdiagnostischen Fragestellungen – im allgemeinen so unzureichend aus, daß es sich schon von daher verbietet, derart weitreichende Entscheidungen wesentlich von ihnen abhängig zu machen.
2) Die praktische (soziale) Handlungsrelevanz psychologischer Testresultate muß vielfach als sehr gering veranschlagt werden; dies gilt sowohl für Leistungs- (Intelligenz-) als auch für “Charaktertests”. So dürften sich in “gehobenen gesellschaftlichen Positionen” tätige Personen kaum durch eine – im Sinne einschlägiger Tests – überdurchschnittliche Intelligenz oder unterdurchschnittliche “psychische Labilität” auszeichnen. Die “Charaktertests” sind zudem noch extrem anfällig für Phänomene, die unter dem Etikett "sozial erwünschtes Testverhalten” firmieren; d.h. man stellt sich in diesen Tests – zumal in für sehr wichtig erachteten Prüfungssituationen – nicht so dar, wie man glaubt zu sein, sondern so, wie man meint, sich darstellen zu müssen, um vermuteten Erwartungen möglichst gerecht zu werden. Mit der sog. “Alltagsbefindlichkeit” und dem daraus resultierenden Handeln hat dies aber dann zumeist nur noch sehr wenig zu tun. Dieses Testartefakt findet bei Leistungstests sein immer häufiger zu beobachtendes Pendant darin, daß man sich auf diese Tests gründlich vorbereitet, d.h. z.B. die richtigen Testantworten vorher auswendig lernt. Was ein Test dann erfaßt, ist nicht viel mehr als die kurzfristig erworbene und bald wieder vergessene Fähigkeit, gute Testresultate zu erzielen. Auch das Assessment Center, eine häufig verwendete Methode zur Auswahl von “Führungspersönlichkeiten”, das neben psychologischen Tests auch noch andere “realitätsnähere” Verfahren der empirischen Sozialforschung (z.B. Gruppendiskussion) einsetzt, um dadurch die Schwächen der Testpsychologie kompensieren zu können, dient bestenfalls der “Herrschaftssicherung” in Organisationen, löst aber nicht die prinzipiellen sozialen Selektionsprobleme der Testpsychologie.
3) Die große Mehrzahl psychologischer Tests ist einem statischen Persönlichkeitsmodell verpflichtet, bei dem der Umstand, daß Menschen nicht immer gleich bleiben, sondern in ihren diversen Leistungsvermögen und seelischen Konstitutionen wie auch in ihrem Alltagshandeln in einem sehr starken Maße von kurz-, mittel- und langfristig wirksamen sozialen Einflüssen bestimmt werden, ziemlich vernachlässigt wird. Im Gegenteil: Nicht selten werden von außen (z.B. durch die soziale Herkunft) induzierte psychisch-seelische Zustände den Probanden durch die Testpsychologie quasi zurückgespiegelt und gerade dadurch noch einmal künstlich festgeschrieben. Das hat dann zur Folge, daß die – im Sinne dessen, was diese Tests zu erfassen beanspruchen – momentan ohnehin schon “gut Dastehenden” darin “wissenschaftlich” noch einmal bestärkt werden, während umgekehrt die momentan in diesem Sinne Benachteiligten “wissenschaftlich” auch noch davon überzeugt werden, daß es wohl “in ihrem eigenen Interesse” besser für sie ist, sich in untergeordnete Positionen zu fügen.
Vor diesem Hintergrund ist die Heranziehung psychologischer Tests als Schlüssel für den Zugang zu begehrten sozialen Positionen ziemlich fragwürdig (Ethik in Organisationen). War es früher die “göttliche Vorsehung”, so soll in unserem “aufgeklärten” wissenschaftsgläubigen Zeitalter nun offenbar das überdurchschnittliche Abschneiden bei “wissenschaftlich fundierten” psychologischen Tests die Inhaber privilegierter sozialer Stellungen nach außen legitimieren. Bei genauerer Betrachtung gibt aber die aus den genannten Gründen zumeist nicht sonderlich hohe selektive Effizienz von psychologischen Tests eben genau dies in aller Regel nicht her. Damit kann zwar die häufig aufgeworfene Frage, wie denn eine effizientere soziale Selektion ansonsten besser und gerechter zu bewerkstelligen sei, auch nicht beantwortet werden (vielleicht benötigt man durch den Abbau ungerechtfertigter Gratifikationen diese Selektionsstrategien ja auch viel weniger, als man gemeinhin glaubt). Es kann jedoch auch nicht die Aufgabe der Testpsychologie sein, sich hier sozusagen als (schein-)wissenschaftlich begründete Ersatzideologie zur Rechtfertigung unmäßig belohnter und infolgedessen überbegehrter sozialer Positionen mißbrauchen zu lassen.
Literatur
Brickenkamp, R. (1997). Handbuch psychologischer und pädagogischer Tests (2. Aufl.). Göttingen: Hogrefe.
Guthke, J. et al (Hrsg.). (1991). Psychodiagnostik, Band 1 und Band 2. Berlin: Deutscher Verlag der Wissenschaften.
Lienert, G.A. & Raatz, U. (1994). Testaufbau und Testanalyse (5. Auf.). Weinheim: Beltz.
Michell, J. (1990). An Introduction to the logic of psychological measurement. Hillsdale.
Rost, R. (1996). Testtheorie und Testkonstruktion. Bern: Huber.
Steyer, R. & Eid, M. (1993). Messen und Testen. Berlin: Springer.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.