Direkt zum Inhalt

Statistik: Wie die Guinness-Brauerei eine wichtige statistische Methode erfand

Der t-Test gibt an, ob eine Stichprobe ein signifikantes Ergebnis liefert. Die irische Brauerei entwickelte die heute verbreitete Technik, um ein schmackhaftes Bier zu garantieren.
Zwei Personen stoßen im Freien bei gutem Wetter mit einem Guinness-Bier an, im Hintergrund sind Geschäfte und Passanten in Unschärfe zu sehen.
Viele schätzen Guinness wegen des Biers. Doch wir verdanken der Brauerei auch eine wichtige statistische Methode.

»Ein Guinness, bitte!« Und schon hält ein Barkeeper das charakteristische Pint-Glas unter den Zapfhahn. So beginnt der mehrstufige Einschenkvorgang, der exakt 119,5 Sekunden dauern soll. Sei es Marketing-Gag oder ausgeklügelte Technik – es ist zu einem beliebten Ritual in irischen Pubs auf der ganzen Welt geworden. Das Ergebnis: ein gehaltvolles Stout mit einer samtigen Schaumkrone.

Die Guinness-Brauerei ist für innovative Maßnahmen bekannt, seit ihr Gründer, Arthur Guinness, in Dublin einen 9000 Jahre währenden Pachtvertrag für bloß 45 Pfund jährlich unterzeichnete. Dort erfand der Mathematiker Michael Edward Ash nach vierjähriger Tüftelei ein chemisches Verfahren, das dem berühmten Dunkelbier seinen unverwechselbaren Schaum verleiht. Die Methode, bei der Stickstoffgas in Fässer (und bei Bierdosen in kleine Plastikkugeln) gefüllt wird, führte zu den heute so beliebten Nitro-Stouts sowie zu hippen Nitro-Kaffeebrühsorten.

Doch die wichtigste Innovation der Brauerei hat gar nichts mit Bier zu tun. Guinness ist die Geburtsstätte des »t-Tests«, der eine der wichtigsten statistischen Methoden in der gesamten Wissenschaft ist. Wenn Fachleute ihre Ergebnisse für »statistisch signifikant« erklären, treffen sie diese Aussage oft auf Basis eines t-Tests.

Zu Beginn des 20. Jahrhunderts war Guinness seit fast 150 Jahren in Betrieb und überragte seine Konkurrenten als größte Brauerei der Welt. Bis dahin bestand die Qualitätskontrolle der Produkte aus grobem Beäugen und Geruchstests. Die Anforderungen der globalen Expansion veranlassten die Verantwortlichen, diese ungenauen Ansätze zu überarbeiten. Das Unternehmen stellte eine Reihe von Fachleuten ein und gab ihnen die Gelegenheit, unterschiedlichsten Untersuchungen im Dienst des perfekten Bieres nachzugehen. Die Brauerei wurde zu einem Zentrum des Experimentierens, um eine Reihe von Fragen zu beantworten: Wo wachsen die besten Gerstensorten? Was ist der ideale Zuckergehalt im Malzextrakt? Wie stark hat die letzte Werbekampagne den Absatz gesteigert?

Was eine geeignete Hopfenernte ausmacht

Inmitten des wissenschaftlichen Treibens sah sich das Team mit der schwierigen Aufgabe konfrontiert, Daten angesichts einer kleinen Stichprobengröße zu interpretieren. Eine Herausforderung für die Brauer waren Hopfenblüten, die dem Bier einen bitteren Geschmack verleihen und als natürliches Konservierungsmittel wirken. Die Brauer beurteilten die Qualität des Hopfens nach dem Gehalt von weichem Harz in den Pflanzen. Angenommen, acht Prozent ist ein guter (und typischer) Wert. Um herauszufinden, ob sich eine Ernte für das Brauen eignet, konnten sie unmöglich jede einzelne Blüte auf ihren Weichharzgehalt testen. Also taten die Brauer, was jeder gute Wissenschaftler tun würde: Sie nahmen Stichproben.

Um den Prozess nachzuvollziehen, hilft ein fiktives Beispiel: Man misst etwa den Weichharzgehalt in neun Proben und stellt fest, dass die Werte zwischen vier und zehn Prozent betragen und der Durchschnitt bei sechs Prozent liegt – was zu niedrig für ein schmackhaftes Ergebnis ist. Heißt das, man sollte die Ernte wegwerfen?

Es gibt zwei mögliche Erklärungen für die niedrigen Messwerte: Entweder enthält die Ernte wirklich ungewöhnlich wenig Weichharz oder die Probe ist ein statistischer Ausreißer und die Charge an sich ist in Ordnung. Eigentlich sollten zufällige Stichproben repräsentativ für die gesamte Sammlung sein – aber man kann auch einfach Pech mit der Auswahl haben. Damit stellt sich die Frage, ab wann man die niedrigen Messwerte als signifikante Abweichung werten sollte und wann als natürliche Schwankung.

Dieses Dilemma betrifft nicht nur Bierbrauer; es durchdringt alle wissenschaftlichen Untersuchungen. Angenommen, in einer medizinischen Studie genest sowohl die Behandlungs- als auch die Placebogruppe, aber die Behandelten schneiden etwas besser ab. Ist das Grund genug, um das verabreichte Medikament zu empfehlen – selbst wenn es Nebenwirkungen haben könnte? Hierbei handelt es sich ebenfalls um eine Frage der statistischen Signifikanz.

Die Theorie, die solchen Fragen zu Grunde liegt, wurde erstmals in der Guinness-Brauerei entwickelt – genauer gesagt von William Sealy Gosset, dem Leiter der Versuchsbrauerei im frühen 20. Jahrhundert. Das Konzept der statistischen Signifikanz war zwar schon vor Gosset bekannt, aber die Fachleute arbeiteten bis dahin nur mit großen Stichproben. Gosset ermöglichte es, das Konzept auch auf kleine Proben anzuwenden.

Statistische Signifikanz messen

Um zu bestimmen, ob ein Ergebnis statistisch signifikant ist, kann man zum vorigen Beispiel zurückkehren. Die Frage lautet hierbei: Wie wahrscheinlich ist es, einen niedrigen Wert von sechs Prozent Weichharzgehalt in einer Probe zu beobachten, wenn die gesamte Ernte einen Gehalt von acht Prozent hat? Falls diese Wahrscheinlichkeit – der so genannte p-Wert – unter 0,05 liegt, wird die Abweichung als statistisch signifikant angesehen (wobei verschiedene Anwendungsfälle unterschiedliche Schwellenwerte erfordern).

Der p-Wert wird meist von zwei verschiedenen Faktoren beeinflusst: wie weit der Durchschnitt einer Stichprobe vom gesamten Mittelwert abweicht und wie häufig größere Abweichungen generell auftreten. Das lässt sich durch ein Tauziehen zwischen Signal und Rauschen veranschaulichen. Die Differenz zwischen dem beobachteten Mittelwert (sechs Prozent) und dem gewünschten Wert (acht Prozent) liefert das Signal: Je größer der Unterschied, desto wahrscheinlicher hat die Pflanze tatsächlich einen niedrigen Weichharzgehalt. Die Standardabweichung zwischen den einzelnen Blüten liefert das Rauschen. Sie gibt an, wie weit die Daten um den Mittelwert herum streuen. Kleine Werte zeigen an, dass die Daten um diesen nur wenig schwanken; größere Werte stellen eine größere Streuung dar.

Wenn der Weichharzgehalt von Knospe zu Knospe typischerweise stark variiert (also eine hohe Standardabweichung aufweist), dann sollte man die gemessenen sechs Prozent der Stichprobe nicht zu ernst nehmen. Neigen die Blüten jedoch zu konstanter Qualität (einer geringen Standardabweichung), dann können die sechs Prozent tatsächlich auf einen geringen Weichharzgehalt der Ernte hindeuten.

Hopfenblüten und t-Test | Angenommen, der durchschnittliche Weichharzgehalt in neun Proben von Hopfenblüten beträgt sechs Prozent, der angestrebte Anteil entspreche aber acht Prozent. Der t-Test ermöglicht es, herauszufinden, ob die sechsprozentige Stichprobe ein statistischer Ausreißer ist oder ob die Hopfenblüten generell einen zu niedrigen Weichharzgehalt aufweisen.

Um in einer idealen Welt den p-Wert zu bestimmen, müsste man das Signal-Rausch-Verhältnis berechnen. Je höher das Ergebnis, desto signifikanter ist die Messung; denn ein hohes Verhältnis deutet auf eine tatsächliche Abweichung in den gesamten Daten hin. Dafür muss man aber festlegen, was als hohes Signal-Rausch-Verhältnis gilt. Auf das Beispiel angewendet müsste der Wert so gewählt sein, dass es nur eine fünfprozentige Chance gibt, den sechsprozentigen Weichharzgehalt in einer Stichprobe vorzufinden, wenn die gesamte Ernte einen Gehalt von acht Prozent hat.

Statistiker zu Gossets Zeiten wussten, dass das Signal-Rausch-Verhältnis in Experimenten einer Standardnormalverteilung folgt – die charakteristische Glockenkurve. Man kann in einer Tabelle nachschlagen, wie groß das Verhältnis sein muss, um den Schwellenwert von fünf Prozent (oder einen anderen Schwellenwert) zu erreichen.

Was tun bei kleinen Stichproben?

Gosset erkannte, dass dieser Ansatz nur bei großen Stichproben funktioniert. Hat man nur eine kleine Menge an Hopfenproben, folgt das Signal-Rausch-Verhältnis nicht zwangsläufig einer Normalverteilung. Deshalb stellte Gosset neue Verteilungen für kleinere Stichprobengrößen auf. Diese als t-Verteilungen bezeichneten Diagramme ähneln in ihrer Glockenform der Normalverteilung, aber die Kurven fallen weniger steil ab. Daher ist in diesen Fällen ein größeres Signal-Rausch-Verhältnis nötig, um auf Signifikanz schließen zu können. Mit dem t-Test lassen sich auch Schlussfolgerungen in Situationen ziehen, in denen die klassischen Methoden versagen.

Stichprobengröße | Kleine Stichprobengrößen brauchen ein größeres Signal-Rausch-Verhältnis, um signifikante Ergebnisse zu erzielen.

Der mathematische Berater John D. Cook merkte 2008 in einem Blogbeitrag an, es sollte nicht überraschen, dass der t-Test in einer Brauerei – und nicht etwa in einem Weinkeller – entwickelt wurde. Denn Bierbrauer verlangen bei ihrem Produkt Konsistenz, während Winzer die Vielfalt lieben. Weine haben »gute Jahre«, bei denen jede Flasche eine Geschichte erzählt. Bei Bier ist das anders, man möchte schließlich, dass jeder Schluck Guinness vertraut schmeckt. In diesem Fall führte die angestrebte Gleichförmigkeit zu Innovation.

Gosset löste mit seiner Methode viele Probleme in der Brauerei. Der autodidaktische Statistiker veröffentlichte den t-Test unter dem Pseudonym »Student«, weil Guinness die Konkurrenz nicht auf seine Forschung aufmerksam machen wollte. Obwohl Gosset Pionierarbeit in der industriellen Qualitätskontrolle leistete und viele andere Ideen zur quantitativen Forschung beitrug, nennen die meisten Lehrbücher seine große Leistung immer noch »studentscher t-Test«.

Die Geschichte mag seinen Namen übergangen haben, aber Gosset hätte heute Anlass zu Stolz, dass der t-Test inzwischen eine der am häufigsten verwendeten statistischen Methoden in der Wissenschaft ist. Vielleicht sollte seine Leistung in einer anderen nachhaltigen Innovation vermerkt werden, die ebenfalls auf die Brauerei zurückgeht: dem Guinness-Buch der Rekorde.

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.