Forschungsmethoden: Wann ist eine Umfrage »repräsentativ«?
»Mehrheit der Deutschen will TV-Boykott von Fußball-WM in Katar.« »Zeitumstellung: So denkt Deutschland.« Und jüngst auch noch das: »Jeder dritte junge Mann befürwortet Gewalt gegen Frauen.« All diese Schlagzeilen fußen auf Befragungen, die von Medien oder Umfrageinstituten als »repräsentativ« beworben wurden.
Die Umfrage zu den gewaltaffinen Männern geriet dafür in die Kritik. Viele Medien schrieben, es sei nicht ganz zulässig, von den männlichen Befragten dieser Studie auf alle Männer in Deutschland zu schließen. Für zahlreiche andere Umfragen gilt das ebenso. Das Problem liegt darin, dass man nicht weiß, ob die Stichprobe die Grundgesamtheit der Männer tatsächlich hinreichend repräsentiert. Aber wann ist das der Fall? Wann ist eine Umfrage repräsentativ?
Eine gängige Definition lautet: wenn davon auszugehen ist, dass die Stichprobe die Grundgesamtheit in den für die Fragestellung relevanten Merkmalen widerspiegelt.
Doch fragt man Ulrich Kohler, Professor für Methoden der empirischen Sozialforschung an der Universität Potsdam, dann klingt die Antwort anders. »Das Wort ›repräsentativ‹ ist kein Konzept, das in der Umfrageforschung vorkommt. Es gibt keine Definition. Ich selbst verwende das Wort deswegen auch gar nicht.«
Repräsentativ bedeutet: Unverzerrt
Laien verstünden unter einer repräsentativen Umfrage wohl am ehesten das, was Forschende als »unverzerrt« beschreiben, erklärt Kohler. Unverzerrtheit bedeutet: Würde man eine Umfrage häufig wiederholen, bekäme man zwar viele verschiedene Werte, aber ihr Durchschnitt entspräche dem Wert, der herauskäme, wenn man die gesamte Stichprobe befragen würde, für die die Aussage gelten soll. Sind diese beiden Werte gleich, kann man von einer unverzerrten Stichprobe sprechen. »Verzerrungen« sind systematische Fehler, die dazu führen, dass die beobachteten Ergebnisse nicht dem wahren Wert entsprechen. Fehlerursachen sind unter anderem ungeeignete Stichproben, Fragemethoden oder Formulierungen, fehlende oder falsche Antworten. Das versuchen Forschende wie Umfrageinstitute zu vermeiden.
Nun gibt es unterschiedliche Methoden, mit denen man Umfragen durchführen kann. Manche gewährleisten Unverzerrtheit, andere nicht – wie die bei der Studie zur Gewaltakzeptanz bei jungen Männern. Denn die wichtigste Voraussetzung wäre, dass es sich bei den Befragten um zufällig ausgewählte Personen handelt – eine Zufallsstichprobe. Jede Person aus der Grundgesamtheit muss die gleiche Chance haben, an der Umfrage teilzunehmen. Will man eine Aussage über junge Männer von 18 bis 35 Jahren in Deutschland treffen, besteht diese Grundgesamtheit aus allen in Deutschland lebenden Männern im Alter von 18 bis 35 Jahren.
Das Problem der »Online-Access-Panels«
Das war bei der Umfrage allerdings nicht der Fall. Denn die Probanden der Studie registrierten sich freiwillig zur Teilnahme an Umfragen. Das ist bei vielen großen Online-Marktforschern so üblich: YouGov, Civey und diversen anderen. Per Registrierung gelangen Umfragewillige in eine Datenbank der Marktforscher, aus der sie schließlich für Umfragen rekrutiert werden – »Online-Access-Panel« heißt das. Für die Teilnahme erhalten sie eine finanzielle Entschädigung.
»Bei dieser Art der Umfrage, wo sich die Leute selbst in den Pool der Befragten hineinselektieren, ist Unverzerrtheit nicht möglich«, sagt Ulrich Kohler. Die Marktforscher argumentierten dann stets, dass die Stichprobe gewichtet würde und somit Unterschiede rechnerisch ausgeglichen würden – etwa, wenn in der Umfrage Alter, Geschlecht oder sonstige Variablen nicht der Grundgesamtheit entsprächen.
»Freiwillige sind anders als Nichtfreiwillige«Ulrich Kohler, Universität Potsdam
Die Gewichtung kann man jedoch nur für jene Variablen durchführen, die bekannt sind und deren Verteilung man kennt. Wie würde man etwa den Einfluss der Selbstselektion auf das Antwortverhalten der Teilnehmenden berechnen? Um es mit Kohlers Worten zu sagen: »Am Ende sind es halt Freiwillige. Und Freiwillige sind anders als Nichtfreiwillige.«
Darüber hinaus handelt es sich bei schnellen Umfragen zu aktuellen Themen in der Regel um reine Online-Erhebungen. Zwar sind laut ARD/ZDF-Onlinestudie mittlerweile mehr als 96 Prozent der Menschen ab 14 Jahre online. Dazu wurden 70 Prozent der Teilnehmer am Telefon und 30 Prozent online befragt. Aber bei den 3,6 Prozent Offlinern – immerhin noch knapp 2,5 Millionen Menschen – handelt es sich keinesfalls um eine Zufallsstichprobe: Sie sind überwiegend weiblich und über 70 Jahre alt.
Weitere Fallstricke: Für die Teilnahme an Umfragen wird oft über Werbebanner im Internet und auf Partner-Websites geworben. Manche Menschen nutzen allerdings Werbeblocker, sie sehen die Werbung gar nicht. Und wenn Surfende antworten können, ohne sich zu registrieren, können sie auch mehrmals antworten. Es gibt viele solcher Details, die beeinflussen, welche Antworten in die Umfrage einfließen. Reine Online-Umfragen – unabhängig von ihrer besseren oder schlechteren Methodik – eignen sich daher kaum für Aussagen, die für die gesamte Bevölkerung gelten sollen.
Doch wie geht es besser? Kann das, was gemeinhin als repräsentativ verstanden wird, überhaupt durch Umfragen zu Tage gefördert werden?
Hier kann Matthias Sand weiterhelfen, der bei GESIS, dem Leibniz-Institut für Sozialwissenschaften, zum Design und zur Gewichtung von Umfragen forscht und berät. Auch er sagt: »Das wichtigste Kriterium dafür, dass eine Umfrage repräsentativ ist: dass jede Person aus der Grundgesamtheit, über die ich einen Schluss ziehen möchte, die Möglichkeit haben muss, von mir für die Teilnahme ausgewählt zu werden.« Im Internet fehlten die Offliner, am Telefon die ohne Telefon, werktags in der Fußgängerzone die arbeitende Bevölkerung. »Nur mit diesem Kriterium fallen schon viele, sehr viele Umfragen raus. Da hilft auch nachträgliches Gewichten nicht.« Ein weiteres Beispiel liefere die National Health Interview Survey aus den USA.
Die Umfrage gibt es seit den 1950er Jahren; früher wurde sie am Telefon durchgeführt, per Festnetz. In den frühen 2000er Jahren fiel den Forschenden auf, dass die Jugendlichen immer weniger Alkohol und Drogen konsumierten. Zunächst führte das zu Freude, doch dann zu der Erkenntnis, dass die Ergebnisse schlicht dadurch verzerrt waren, dass Mobiltelefone in Mode gekommen waren. Und jene Jugendlichen, die häufiger Alkohol und Drogen zu sich nahmen, waren schlechter über einen Festnetzanschluss zu erreichen.
Der Goldstandard unter den Stichproben
Und nun? Wie sieht für Matthias Sand eine richtig ordentlich aufgesetzte Umfrage aus, mit der auch ein Rückschluss auf die Bevölkerung gelingen kann?
»Für alle möglichen Umfragemethoden, sei es online, per Papier-Fragebogen oder bei einem Besuch eines Interviewers, ist der Goldstandard für die Rekrutierung die Einwohnermeldeamtsstichprobe«, sagt Sand. »Das ist in Deutschland etwas komplizierter als in anderen Ländern, weil wir kein zentrales Einwohnermelderegister haben. Jede Gemeinde hat ihr eigenes Register.« In einem ersten Schritt würden einige Gemeinden zufällig ausgewählt, im zweiten Schritt Personen innerhalb dieser Gemeinden ausgelost. »Das Vorgehen ist recht simpel, aber in der Praxis ist es sehr, sehr aufwändig«, sagt Sand. »Bei einer deutschlandweiten Erhebung dauert es mindestens mal drei Monate, bis man alle Adressen zusammenhat. Erst dann startet die eigentliche Umfrage. Insgesamt dauert so eine Umfrage sicher ein halbes oder dreiviertel Jahr.«
»Die Aussage, dass eine Umfrage repräsentativ ist, kann gar nicht falsch sein, weil Repräsentativität nicht definiert ist«Matthias Sand, GESIS
Für bereits aufgesetzte Umfragen, die beständig wiederholt werden – etwa die Daten des Politbarometers oder der Sonntagsfrage –, kann es durchaus schneller gehen. Niemals aber so schnell wie in den beschriebenen Online-Access-Panels. Das erklärt letztlich auch, warum die Online-Umfragen so gefragt sind: Binnen Tagen oder gar Stunden hat man ein paar Aussagen zu aktuellen Themen gesammelt. Nur würde vermutlich niemand, der sich mit der Methodik auseinandersetzt, behaupten, dass solche Umfragen repräsentativ sind – zumindest nicht in dem Sinn, wie das Wort gemeinhin verwendet wird. Dennoch wird das oft behauptet. Andererseits, gibt Sand zu bedenken: »Die Aussage, dass eine Umfrage repräsentativ ist, kann gar nicht falsch sein, weil Repräsentativität nicht definiert ist.«
Zum einen hat das Wort also gar keine konkrete Bedeutung. Zum anderen gilt es – zumindest in der Bevölkerung, in den Medien – als Qualitätskriterium. Matthias Sand sagt: »Ich glaube, das Wort ›Repräsentativität‹ wird man nicht mehr wegbekommen. Dazu ist es viel zu verbreitet und etabliert.« Für die Berichterstattung entstehe daraus die Verpflichtung, »mit einer gewissen Expertise auf Umfragen zu schauen und die Methodik einzuschätzen«. Deshalb müssten die Umfrageinstitute über die Methoden informieren.
Ulrich Kohler empfiehlt, das Wort gar nicht erst zu benutzen. »Viel wichtiger ist, ob die Stichprobe in einer Umfrage zufällig zu Stande kam. Über alles andere würde ich gar nicht berichten.« Das heiße aber auch, dass von den heute in den Medien veröffentlichten Umfrageergebnissen ungefähr 80 Prozent wegfielen. »Wir brauchen weniger, aber dafür gut gemachte Umfragen.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.