Aktuelles Stichwort: Imputation: Der Umgang mit fehlenden Werten
Jeder zweite Deutsche will weniger arbeiten. Jeder zehnte hat hohe Schulden. Jeder vierte Studierende leidet unter Stress. Hinter solchen Schlagzeilen stecken stets Umfragen, und die Zahlen beruhen auf Antworten der Befragten – sollte man meinen. Ganz so einfach ist es allerdings nicht. Dahinter steckt auch jede Menge Statistik, und sie beruft sich zwar auf echte Zahlen, aber auch auf die Gesetze der Wahrscheinlichkeit.
Denn dank dieser Gesetze ist es nicht nötig und nicht einmal sinnvoll, sämtliche Millionen Menschen zu befragen, über die man etwas herausfinden möchte. Ohnehin wäre das viel zu zeitaufwändig und zu teuer. Deshalb ziehen Forscher meist per Zufallsauswahl eine Stichprobe und prüfen dann, unter anderem anhand von Merkmalen wie Alter und Geschlecht, wie gut die Befragten beispielsweise die Gesamtheit aller Studierenden repräsentieren.
Im Idealfall hat die komplette Stichprobe sämtliche Fragen beantwortet. Der Regelfall sieht natürlich anders aus. Manche Zielpersonen sind nicht erreichbar, wollen nicht teilnehmen oder auf bestimmte Fragen nicht antworten. Es fehlen deshalb einzelne Werte oder ganze Datenreihen. Denkbar wäre nun, nur mit den vorliegenden Daten zu arbeiten. Das kann aber zu verzerrten Ergebnissen führen, dem gefürchteten Nonresponse Bias. Haben zum Beispiel besonders viele Personen mit einer bestimmten politischen Meinung die Teilnahme an einer Wahlumfrage verweigert, würde ihre Meinung in den Wahlprognosen nicht genug berücksichtigt. Umfrageinstitute versuchen solche Verzerrungen auszugleichen. Dazu bedarf es einer statistischen Nachbearbeitung, die unter Umständen komplizierter und aufwändiger sein kann als die eigentliche Auswertung selbst.
Forschende haben es vor allem mit zwei Arten von Nichtantworten zu tun. Die erste ist die Unit Nonresponse, die »Nichtantwort« einer Untersuchungseinheit: Es fehlen alle Antworten einer Person oder sämtliche Beobachtungen oder Messungen an einer Beobachtungseinheit, etwa einer Schulklasse oder einer Krankenstation. Die Forscher prüfen dann, ob die Nonresponder, die Nichtantwortenden, vermehrt aus einer bestimmten Teilstichprobe stammen. Haben beispielsweise nur halb so viele Personen einer Altersgruppe teilgenommen wie vorgesehen, werden die vorliegenden Antworten aus dieser Altersgruppe doppelt berücksichtigt.
Es gibt verschiedene Arten von Gewichtung; unter anderem kann das Studiendesign eine Gewichtung von Beginn an einplanen. Bei der Gewichtung helfen relevante Merkmale wie Alter und Geschlecht, die etwas über die Nichtantwortenden verraten. Aus den Kombinationen dieser Hilfsvariablen werden Klassen (auch: Zellen) gebildet, die alle Personen mit derselben Merkmalskombination umfassen, zum Beispiel Erstwählerinnen oder ältere Lehramtsstudenten.
»Problematisch sind solche Komplettausfälle dann, wenn sich die Teilnehmenden systematisch von den Verweigerern und Nichterreichbaren unterscheiden«, erläutern Uwe Engel und Björn Schmidt vom Methodenzentrum der Universität Bremen im »Handbuch Methoden der empirischen Sozialforschung«. Auch die Statistikerin Sharon Lohr von der University of Arizona schreibt in einem Standardwerk zur Stichprobentheorie: »Gewichtungen verbessern die Schätzwerte, aber nur selten eliminieren sie den gesamten Nonresponse Bias.«
Wer füllt die Lücken?
Die zweite Art von Nichtantworten heißt in der Fachsprache Item Nonresponse. Eine Person hat in diesem Fall nur zu einzelnen oder mehreren Punkten (»items«) keine Angaben gemacht. Typisch ist das bei der Frage nach dem Einkommen, denn darauf antworten viele Menschen nicht gerne. Man kann die Person daraufhin ganz aus der Auswertung ausschließen. Das hat aber zwei Nachteile: Ihre übrigen Daten sind damit verloren, und der Ausschluss kann die Ergebnisse verzerren. Die Person nur dann auszuschließen, wenn es bei der Auswertung um das fehlende Merkmal geht, zieht ein anderes Problem nach sich: Man würde das mittlere Einkommen nur für einen Teil der Stichprobe berechnen. Im Extremfall stammen die Durchschnittswerte einer Studie dann von unterschiedlichen Personengruppen.
Deswegen haben Forscher nach Mitteln und Wegen gesucht, die Lücken in ihren Datensätzen zu schließen. Der Begriff Imputation fasst diese Verfahren zusammen. Sie verfolgen alle dasselbe Ziel: fehlende Werte durch plausible Werte zu ersetzen. Sie unterscheiden sich aber darin, auf welchem Weg sie diese Werte gewinnen und wie sie dabei verfügbare Hilfsvariablen nutzen. Eine besonders einfache Methode ist das Bilden von Mittelwerten, zum Beispiel das durchschnittliche Einkommen von Personen, die in einkommensrelevanten Merkmalen wie Beruf und Alter dem Nichtantwortenden ähneln. Gebräuchlicher sind jedoch andere Verfahren, darunter die Regression, die mittels einer Gleichung aus den relevanten Merkmalen einen plausiblen Wert berechnet, sowie die Hot-Deck-Imputation.
Die Bezeichnung »hot deck« stammt aus einer Zeit, in der die Computer noch mit Lochkarten arbeiteten und sich die Karten beim Auslesen erwärmten. Gab es eine Lücke im gespeicherten Datensatz, so wurde einfach eine andere Antwort der letzten, noch warmen Lochkarte verwendet. Auf benachbarten Speicherplätzen befanden sich in der Regel die Daten von Menschen, die den Wohnort und somit zumindest ein Merkmal teilten.
Die moderne Hot-Deck-Imputation geht differenzierter vor. Der Datensatz wird zunächst anhand von mehreren Merkmalen, die mit den fehlenden Werten zusammenhängen, in Imputationsklassen oder Zellen aufgeteilt. Diese bilden den Spenderpool, aus dem per Zufall ein Datenspender ausgewählt wird und den Ersatzwert liefert. Das U.S. Bureau of the Census nutzt Hot-Deck-Imputation beispielsweise für fehlende Angaben zum Einkommen und zieht dazu Hilfsvariablen wie Alter, Geschlecht, Beruf und Bildungsniveau heran. Anhand dieser Merkmale bildet das Bureau für seine Bevölkerungsstatistiken sogar mehrere tausende Imputationsklassen. Eine andere Hot-Deck-Methode sucht für jeden Empfänger den nächsten Nachbarn, also einen maximal ähnlichen Datenspender.
»In der Praxis ist Hot-Deck-Imputation populär«, berichten die Statistiker Rebecca Andridge und Roderick Little in einem viel zitierten Review. Auch in der Epidemiologie und Medizin werde das Verfahren angewendet. Doch andere Imputationsverfahren seien dort verbreiteter. Als State of the Art gelten multiple Imputationen. Dabei werden mehrere plausible Werte und somit auch verschiedene Datensätze für die weiteren Analysen erzeugt. Die Unsicherheit, die mit einer Imputation grundsätzlich einhergeht, lässt sich auf diese Weise besser abbilden. Ähnliche Vorzüge haben auch andere moderne Verfahren, so genannte parametrische Modelle. Mit ihnen können, ebenfalls ausgehend von vorliegenden Merkmalen, Wahrscheinlichkeitsverteilungen und deren Kennwerte (Parameter) berechnet werden.
Gewichtung oder Imputation?
Die meisten Fachleute stimmen überein: Imputation kommt vor allem bei Item Nonresponse zum Einsatz, das heißt, wenn nur punktuell Werte fehlen, nicht aber ganze Datenreihen. Handelt es sich um Unit Nonresponse, also vollständig fehlende Untersuchungseinheiten, verwendet man meist Gewichtungsverfahren. Ob diese sich dafür grundsätzlich besser eignen als Imputation, ist jedoch nicht unumstritten.
Bei der Auswahl eines geeigneten Verfahrens kommt es unter anderem darauf an, wie das Studiendesign aussieht und wie die Lücken zu Stande gekommen sind. Eine der häufigsten Voraussetzungen lautet, dass die Ausfälle nicht systematisch mit den untersuchten Antworten zusammenhängen sollten. Geht es beispielsweise um das durchschnittliche Einkommen einer Berufsgruppe, und viele Bestverdiener nehmen nicht teil oder wollen ihr Gehalt nicht angeben, so handelt es sich um systematische Ausfälle. Gehen einige Antworten bei einer Onlineumfrage aus technischen Gründen verloren, hängen die Lücken wahrscheinlich nicht mit relevanten Merkmalen zusammen. Im Sinn des Untersuchungsziels fehlen diese Antworten zufällig.
»Imputierte Werte sind keine echten Daten«Sharon Lohr, Professorin für Statistik an der University of Arizona
Weil man sich dieser Voraussetzungen oft nicht sicher sein kann, führen Forschende so genannte Sensitivitätsanalysen durch. Damit überprüfen sie, ob ihre Ergebnisse »robust« sind, das heißt unter verschiedenen Voraussetzungen ungefähr dasselbe herauskommt. Durchschnittswerte und Effektgrößen sollten auch dann nicht gravierend abweichen, wenn sich die Stichprobengröße und damit die Streuung verändert, die sich auf viele statistische Tests auswirkt. Fließen Ersatzwerte an Stelle echter Daten in die Analyse ein, wird die wahre Streuung in der Regel unterschätzt. Sensitivitätsanalysen zeigen, wie sich das auf die Ergebnisse auswirkt.
Der Umgang mit fehlenden Werten muss deshalb sorgfältig dokumentiert werden, fordert die Statistikerin Lohr. Welche Daten sind echt und welche imputiert, welche Verfahren kamen zum Einsatz? Es müsse erkennbar bleiben, wie die Ergebnisse zu Stande kommen, wo die Zahlen herkommen: »Imputierte Werte sind keine echten Daten.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.