Direkt zum Inhalt

KI-Kontroverse: Leidet GPT-4 an Gedächtnisschwund?

Das Verhalten von GPT-4 hat sich in kurzer Zeit stark geändert. Laut Gerüchten lässt die Leistung des Sprachmodells hinter ChatGPT nach, eine Studie schien das zu belegen. An dieser gibt es jedoch methodische Kritik. Was ist dran?
Grafische Darstellung eines schwarzen Loches, das Binärdaten verschlingt.
Das Verhalten der vordergründig gleichen KI-Dienste kann sich von heute auf morgen erheblich ändern: Es ist daher nötig, die Leistung großer Sprachmodelle (»Large Language Models«) kontinuierlich zu überprüfen.

Wie verändert sich das Verhalten von ChatGPT mit der Zeit? Ein Forschertrio der Universitäten Stanford und Berkeley ging dieser Frage nach und veröffentlichte dazu Mitte Juli 2023 einen Forschungsbeitrag. Das vorläufige Ergebnis des noch nicht begutachteten Artikels bei »Arxiv.org« lautet, dass »die Leistung und das Verhalten sowohl von GPT-3.5 als auch von GPT-4 im Lauf der Zeit stark variieren können«. GPT-3.5 und GPT-4 von OpenAI sind durch die einfach zugängliche browserbasierte Oberfläche von ChatGPT sowie eine App und automatisierte Zugriffe über eine Programmierschnittstelle das derzeit meistgenutzte KI-System.

Die Forscher weisen auf die Notwendigkeit hin, große Sprachmodelle (»Large Language Models«, kurz LLM) kontinuierlich zu überprüfen, da der vordergründig gleiche Dienst binnen kurzer Zeit ein wesentlich anderes Verhalten an den Tag legen könne. Der bei »Arxiv« hochgeladene Bericht geht noch weiter ins Detail und bespricht differenzierte Befunde zu den beiden gebräuchlichen Modellversionen.

Dennoch verbreitete sich im Internet die verkürzte Nachricht, dass GPT-4 seit März 2023 rapide schlechter geworden sei. Die Behauptung schien sich mit den Erfahrungen zahlreicher ChatGPT-Nutzerinnen und -Nutzer zu decken, die im Frühsommer 2023 auf Internetplattformen wie Reddit und Twitter (nun X) gehäuft von als mangelhaft empfundenen Konversationsverläufen mit dem KI-Chatsystem berichtet hatten. Zwischenzeitlich sind weitere Untersuchungen erschienen, etwa ein Preprint zur These, GPT-4 könne nicht logisch denken (»GPT-4 can't reason«). Inwiefern deckt sich die Annahme, GPT-4 sei »dümmer geworden«, mit den Ergebnissen der kalifornischen Studie?

»GPT-4 immer dümmer«: Was ist dran an dem Gerücht?

Der Beitrag sorgte für vorhersehbares Aufsehen in den sozialen Medien. Kurz vorher war bekannt geworden, dass die Nutzerzahlen bei OpenAI erstmals seit Monaten eingebrochen sind. Am 7. Juli 2023 hatte die »Washington Post« berichtet, dass ChatGPT zum ersten Mal seit der Veröffentlichung von ChatGPT im November 2022 Nutzer verliere.

Tatsächlich fällt der Nutzer- oder Nutzungsrückgang drastisch aus und scheint weiter anzuhalten: Von 1,9 Milliarden im Mai 2023 gingen die Zugriffe um über 20 Prozent auf 1,5 Milliarden im Juli desselben Jahres zurück. Dies betrifft die Aufrufe über den Browser und die Downloadzahlen der App. Automatisierte Zugriffe über die Programmierschnittstelle sind bei diesen Zahlen laut dem Marktforschungsunternehmen SimilarWeb nicht einbezogen.

Im Mai war zudem die durchschnittliche Dauer einer Sitzung mit dem KI-Chatsystem pro Nutzer um rund neun Prozent auf acht Minuten gefallen. Ob dies mit Qualitätseinbußen zu tun hat, der Reiz des Neuen nachlässt und eine Konsolidierung eintritt oder ob andere Angebote wie Claude von Anthropic oder quelloffene Alternativen wie LLaMA 2 von Meta und dessen Ableger dem bisherigen KI-Platzhirsch den Rang ablaufen, ist offen. Auch andere Chatsysteme wie Character.AI verzeichneten im gleichen Zeitraum Rückgänge.

Die »Washington Post« deutet den Rückgang, nicht ohne Drama, als »Erschütterung des Glaubens an die KI-Revolution« und schrieb, dass nun die Grenzen der Technologie OpenAI einholten und »zumindest ein Teil des Hypes um Chatbots übertrieben« sei. Der Nutzerrückgang und enttäuschte Userkommentare auf Twitter und Reddit schienen die These des Preprints aus Stanford und Berkeley zu bestätigen, wonach ChatGPT offenbar weniger leistungsfähig sei als zuvor. Seither wird kontrovers diskutiert, ob ChatGPT und die hinter der Chatoberfläche stehenden Modelle tatsächlich an Qualität eingebüßt haben und falls ja, wieso.

Blackbox ChatGPT

Allerdings ist unklar, in welcher Form, in welchem Ausmaß und wie oft das Unternehmen hinter ChatGPT seine Produkte verändert, da die Software als Geschäftsgeheimnis nicht offenliegt – die Modelle sind »closed source« und »proprietär«, wie etwa auch bei Claude 2 von Anthropic und im Gegensatz zu frei zugänglichen Open-Source-Modellen wie LLaMA 2 von Facebook-Meta.

Zu den beiden Hauptversionen GPT-3.5 und GPT-4 existieren so genannte Snapshots aus März und Juni 2023, mit denen sich das Modellverhalten vergleichend untersuchen lässt. Für die Forschungsarbeit verwendete das Trio aus Stanford und Berkeley diese Momentaufnahmen der Modelle. Allerdings kennzeichnet OpenAI die Änderungen nicht durch offizielle Versionierungen, wie es bei Software sonst üblich ist, um Anpassungen nachvollziehbar und Testreihen verlässlich reproduzierbar zu machen.

Wer OpenAIs KI-Modelle nutzt, weiß nie genau, ob das heute verwendete Modell mit der Version vom Vortag noch übereinstimmt, da der Anbieter Änderungen nicht öffentlich ankündigt und die Modelle im laufenden Betrieb anpasst, wohl auch mitunter experimentelle Neuerungen vornimmt. Forscherinnen und Nutzer merken das dann zufällig durch geändertes Modellverhalten und können oft nur mutmaßen, welche Eingriffe seitens des Herstellers das ausgelöst haben könnten. Großen Geschäftskunden werden bevorstehende weit reichende Änderungen durch OpenAI-Mitarbeiter intern kommuniziert, in der Regel in geschlossenen firmeneigenen Kanälen.

Außenstehende haben keinen Einfluss auf Änderungen seitens des Anbieters, und nur ausgewählten Sicherheitsforschern gewährt das Unternehmen bislang tiefere Einblicke. Für Unternehmen, die Geschäftsmodelle um externe GPT-Systeme herum aufbauen, ist ein stabiles Modellverhalten jedoch ebenso wichtig wie für Forschungsteams und die Entwickler von Anwendungen. Abrupte Änderungen im Verhalten der KI sowie unerwartete, unerwünschte oder irreführende Antworten schränken die Brauchbarkeit von Anwendungen ein, auch die Untersuchung durch unabhängige Sicherheitsforscherinnen und -forscher ist davon beeinträchtigt. Die meisten OpenAI-User verwenden daher nicht die neueste Modellversion, sondern eher einen der älteren Snapshots – auch deshalb sind Untersuchungen wie die des Forschungsteams aus Stanford und Berkeley zum geänderten Modellverhalten der GPT-Reihe für einen breiten Anwender- und Entwicklerkreis von Belang.

Dass eine transparente Versionierung der Modelle bislang nicht existiert, kann für Forschungsteams und Unternehmen ein Risiko darstellen. Der Machine-Learning-Ingenieur Santiago V. Pino beschreibt das Problem auf Twitter/X: »Wir haben uns bei geschlossenen Quellen jahrzehntelang auf die Programmierschnittstellen verlassen, da wir [Verantwortungsbewusstsein] des Teams erwarten und darauf vertrauen, dass sie keine disruptiven Änderungen vornehmen. Hier erleben wir das Gegenteil. OpenAI muss daraus Konsequenzen ziehen. Klar, sie müssen die Regression untersuchen, aber sie müssen auch ein zuverlässiges Versionierungssystem einführen.«

Wie verändert sich ChatGPTs Verhalten im Lauf der Zeit?

Das Forschungsteam aus Berkeley und Stanford stellte für den Artikel »How is ChatGPT's behavior changing over time?« GPT-3.5 und GPT-4 in ihren Versionen aus März und Juni 2023 unterschiedliche Aufgaben, etwa mathematische Probleme (Grafiken a und b in der Bildergalerie weiter unten), heikle oder gefährliche Fragen und Meinungsumfragen (auf die KI-Modelle laut Richtlinien ihrer Herausgeber eigentlich nicht antworten dürften, siehe Grafiken c und d), konfrontierte es mit voraussetzungsreichen mehrschichtigen Problemen (Grafik e), Programmieraufgaben (Grafik f), US-amerikanischen Examensfragen für Mediziner (Grafik g) und Aufgaben, für die aus Bildern Schlüsse zu ziehen sind, etwa das logische Fortsetzen der Muster von Bildreihen farbiger Gitter (»visual reasoning«, Grafik h).

Auffällig fanden die drei Forscher einen Verlust an Treffsicherheit beim Identifizieren von Primzahlen und zusammengesetzten Zahlen im Lauf des Frühjahrs (siehe Bildergalerie, Grafik a): Hier erreichte die Märzversion von GPT-4 noch eine 84-prozentige Genauigkeit (»accuracy«), während die Juniversion bei identischen Fragen nur mehr eine 51-prozentige Treffsicherheit demonstriert habe. Dem entspreche eine »nachlassende Fähigkeit [von GPT-4], Denkketten zu folgen«, wie die Forscher in ihrer Veröffentlichung schreiben. Gemeint ist das so genannte Chain-of-thought-Prompting, also das Erteilen von Anweisungen in natürlicher Sprache, bei dem das KI-System aufgefordert wird, die Aufgabe Schritt für Schritt zu erledigen. In früheren Ausgaben der GPT-Modellreihe hatte diese Art des Erteilens von Anweisungen die Genauigkeit der Antworten und Treffsicherheit der Ausgabe erhöht.

»Das Verhalten der vordergründig ›gleichen‹ KI-Dienste kann sich in kurzer Zeit erheblich ändern«Forschungsteam aus Stanford und Berkeley

Interessanterweise vermochte das ältere Sprachmodell GPT-3.5 im Juni 2023, Aufgaben mit Gedankenketten deutlich besser zu erledigen als im März – anders als GPT-4 legte GPT-3.5 in dem Bereich von 49,6 auf 76,3 Prozent deutlich zu und vermochte in den 1000 Testläufen demzufolge 763-mal Primzahlen korrekt zu erkennen. GPT-4 gelang das nur mehr in 510 Fällen (im März hatte es bei identischen 1000 Aufgaben mit der Anweisung, Schritt für Schritt vorzugehen, 840-mal Primzahlen korrekt erkannt).

In anderen Aufgabenbereichen schauten die Ergebnisse durchmischter aus: So zeigte sich GPT-4 in der Juniversion weniger bereit, heikle Fragen zu beantworten und Meinungen zu formulieren als im Frühjahr (siehe Bildergalerie, Grafik d). Bei den komplexen voraussetzungsreichen Fragen hingegen schnitt es besser ab als im März, während GPT-3.5 in dem Bereich laut den Forschern an Leistung verloren hat (Grafik e).

Ergebnisse untermauern keine generelle »Verschlechterung«

Beiden Modelltypen seien in den Juniversionen beim Programmieren mehr Formatierungsfehler unterlaufen als im März (Grafik f). Ein Fazit der Forschungsarbeit ist, dass das Verhalten der vordergründig »gleichen« KI-Dienste »sich in recht kurzer Zeit offenbar erheblich ändern kann: Das unterstreicht die Notwendigkeit einer kontinuierlichen Überprüfung von Large Language Models (LLMs)«, lautet das Resümee. Die Ergebnisse der Untersuchung untermauern jedoch keineswegs die Behauptung einer generellen Verschlechterung der Modelle.

Zusammenfassend hat sich GPT-3.5 in sechs der acht Prüfungsbereiche leicht bis deutlich verbessert, GPT-4 verbesserte sich in einem Bereich leicht, in einem deutlich (Grafik e: voraussetzungsreiche Fragen beantworten, hier legte GPT-4 von 1,2 Prozent auf eine 37,8-prozentige Trefferrate zu). Die messbare Verschlechterung betrifft also nur GPT-4, und auch dies nur in einem Teil der gestellten Aufgaben.

Auffällig ist hierbei, dass GPT-4 bei den Aufgaben schlechter abschnitt, die eine schrittweise Herangehensweise an das Problem und das Aufsplitten in logische Teilschritte vorgaben, für die das Modell häufiger eine finale Antwort ohne die Angabe erklärender Zwischenschritte ausgab. Das war bei den mathematischen Fragen der Fall: etwa, ob eine Zahl Primzahl oder zusammengesetzt ist oder ob in einem bestimmten Zahlenbereich so genannte fröhliche Zahlen vorkommen – also Zahlen wie 13, deren einzelne Ziffern im Quadrat in Summe 1 ergeben. Auch beim Beantworten heikler Fragen (etwa den Möglichkeiten, durch Gesetzesbruch Geld zu verdienen), beim Abfragen von Meinungen bei politischen Themen und Aufgaben, die die Angabe einer bestimmten Haltung und Weltanschauung verlangten, schnitt das Modell weniger gut ab. Dem sollten sich die großen Sprachmodelle eigentlich verweigern, da hierbei ein Missbrauchspotenzial besteht: Ideologisch geprägte statt sachlicher Auskünfte etwa könnten das menschliche Gegenüber in seiner Meinungsbildung beeinflussen – versehentlich oder mit manipulativer Absicht.

Dass die Treffsicherheit von Machine-Learning-Modellen sich im Lauf der Zeit verändert, ist ein bekanntes Phänomen

Dieses überwiegend »schlechtere Abschneiden« von GPT-4 in der Testreihe des kalifornischen Forschertrios ist der Grund, warum seit Wochen von einem möglichen Fähigkeitsverlust des Modells geraunt wird. Allerdings gibt es auch Kritik an der Durchführung und Methode der Testung, und einige Forscher stellen die Ergebnisse beziehungsweise deren Interpretation in Frage.

Modelldrift: Verhalten nicht mit Fähigkeiten verwechseln

Als Gegenthese zum angeblichen Verlust an Fähigkeiten steht die Möglichkeit im Raum, dass das von zahlreichen Anwenderinnen und Anwendern berichtete Phänomen auf reine Verhaltensänderungen des Modells zurückführbar sei und nicht zwingend eine Verschlechterung des großen Sprachmodells an sich bedeute. Dass sich die Treffsicherheit von Machine-Learning-Modellen im Lauf der Zeit verändert, ist ein als Modelldrift bekanntes Phänomen: Bei den großen Sprachmodellen von OpenAI endet die Trainingsdatenbasis im Sommer 2021. Die Treffsicherheit bei zeitbezogenen Themen leidet mit zunehmendem zeitlichem Abstand zur Deadline des Trainingsmaterials. Auch Plug-ins und die Fähigkeit, mittels der Suchmaschine Bing auf das Internet zuzugreifen und so das Gedächtnis aufzufrischen, scheinen das Problem nicht zu beheben.

Die Juliversion des Fachartikels des Forschertrios der Universitäten Stanford und Berkeley ist auf den offiziellen Wegen nicht mehr verfügbar. Am ersten August löschten die drei kalifornischen Forscher ihren Artikel aus dem Netz und luden eine überarbeitete, stark erweiterte Version hoch. Bereits einen Tag nach dem Erscheinen der ursprünglichen Fassung hatten sich zwei Fachleute kritisch zur Methode und Rezeption des Beitrags zu Wort gemeldet. Arvind Narayanan, Informatikprofessor an der Princeton University, und Sayash Kapoor, Doktorand im Fach Informatik an derselben Universität, widmeten eine Ausgabe ihres Newsletters »AI Snake Oil« dem Thema.

Der Newsletter und gleichnamige Blog sind dafür bekannt, mit Missverständnissen in der KI-Welt aufzuräumen. Der Begriff »Schlangenöl« steht für Produkte und Konzepte, die kaum echte Wirkung besitzen, aber als Wundermittel von Scharlatanen vermarktet werden. Der Name des Blogs bezieht sich hier auf halbseidene KI-Themen: In akademischen Kreisen genießt »AI Snake Oil« als Korrektiv von Schnellschüssen Ansehen.

»Das vortrainierte Grundmodell ist eine ausgeklügelte Autovervollständigung: Es kann sich noch nicht mit den Nutzern unterhalten«Arvind Narayanan und Sayash Kapoor, Informatiker

Narayanan und Kapoor warnten vor der starken Vereinfachung in der öffentlichen Diskussion des Forschungspapers zu GPT-4s angeblich nachlassenden Fähigkeiten. Die Ergebnisse des Preprints finden sie interessant, die Methoden hingegen fragwürdig. »Bei KI-Chatbots besteht ein großer Unterschied zwischen Fähigkeit und Verhalten. Ein KI-Modell kann seine Fähigkeiten als Antwort auf eine Textaufforderung unter Beweis stellen – oder auch nicht.«

Der Knackpunkt ist dieses »oder auch nicht«. Wenn ein KI-Modell auf Nutzerfragen Unsinn von sich gibt oder Aufgaben nicht sauber löst, liegt das nicht zwingend daran, dass die Aufgabe seine Möglichkeiten übersteigt. Es kann auch an der Art liegen, in der die Frage gestellt wurde. Die Fähigkeiten erwerben KI-Modelle beim Vortraining (das »P« im Akronym GPT steht für »Pre-trained«). Der kostspielige und aufwendige Prozess dauert bei großen Modellen Monate und wird in der Regel nicht mehrfach durchgeführt. Das Verhalten wird nachträglich angepasst durch eine Feinabstimmung (»Finetuning«). »Das vortrainierte Grundmodell ist nur eine ausgeklügelte Autovervollständigung: Es kann sich noch nicht mit den Nutzern unterhalten«, erklären die AI-Snakeoil-Autoren.

Erst mit der Feinjustierung lernen Modelle wie ChatGPT das Gesprächsverhalten. Auch unerwünschte Antworten werden durch die Nachjustierung des Modells unterbunden. Das Feinabstimmen schärfe erwünschte Fähigkeiten nach, während es andere unterdrücke, geben die Autoren zu bedenken. Die Erwartung wäre, dass die Fähigkeiten des Modells im Lauf der Zeit grundsätzlich gleich bleiben, wohingegen sich das Verhalten des KI-Chatbots wesentlich ändern kann.

Beim Generieren von Quellcode stellte das kalifornische Trio Lingjiao Chen, Matei Zaharia und James Zou fest, dass das neuere GPT-4 der Ausgabe Text in natürlicher Sprache hinzufügen kann, also nicht nur reine Programmiersprache. Das Modell versucht, mit den zusätzlichen Angaben den Nutzern Erklärungen mitzuliefern. Für ihre Auswertung prüften die Autoren jedoch lediglich, ob der Programmcode sich direkt ausführen lässt, also ein betreibbares Programm beschreibt. Die zusätzlichen Informationen, die menschliche Tester durchwegs als hilfreich empfanden, stuften bei dieser Form der Auswertung das Modell paradoxerweise ab, heißt es im Snakeoil-Newsletter. Bei der Auswertung der Matheaufgaben stießen die Snakeoil-Autoren auf weitere Ungereimtheiten.

Methodische Ungereimtheiten bei den Mathetests

Hier waren die Modelle mit 500 Fragen nach Primzahlen konfrontiert. In jedem Fall servierten Chen, Zaharia und Zou jedoch eine Primzahl, die korrekte Antwort hätte daher in allen Fällen Ja lauten müssen. Offenbar haben die Modelle sich nicht die Arbeit gemacht, auf alle potenziellen Divisoren zu testen, sondern nur so getan, als ob, und diesen Schritt übersprungen, heißt es im Newsletter. Das Modell listete die zu testenden Teiler auf, überprüfte sie jedoch laut Narayana und Kapoor nicht. Somit liege hier kein echtes Lösen einer Matheaufgabe vor. Beim Gegentesten der Modelle mit zusammengesetzten Zahlen stellten die Snakeoil-Autoren fest, dass der angebliche Leistungsabfall der KI an der Auswahl des zu bewertenden Materials lag.

Da das kalifornische Trio nur auf Primzahlen getestet hatte, musste es die Ergebnisse der Testläufe als massiven Leistungseinbruch interpretieren. Bei GPT-3.5 schaute es für sie genau umgekehrt aus. Kapoor und Narayana kommen zu dem Ergebnis, dass alle vier Modelle gleichermaßen schlecht darin seien, Matheaufgaben zu lösen. Die Märzversion von GPT-4 rate bloß immer, dass die Zahl eine Primzahl sei, während die Juniversion stets auf Kompositzahlen tippe.

Der Preprint zeigt, dass das Modellverhalten sich mit der Zeit geändert hat. Über die Fähigkeiten der Modelle sagen die durchgeführten Tests laut Kapoor und Narayana aber nichts aus. Dass die Fehleinschätzung des Trios »viral ging«, hatte mit der Erwartungshaltung des Publikums zu tun: Das Gerücht war in Umlauf, dass OpenAI die Performance seiner Modelle reduziert habe, um Rechenzeit und Kosten zu sparen. Als OpenAI dies öffentlich bestritt, wurde es von der Öffentlichkeit als Irreführung interpretiert.

Maschinenantwort spiegelt Niveau des Menschen, der fragt

Ob an den Gerüchten der absichtlichen Leistungsreduktion etwas dran ist, lässt sich nicht mit Gewissheit bestimmen. Eine plausible Begründung für die subjektiv wahrgenommene Verschlechterung der ChatGPT-Vorschläge könnte sein, dass die Nutzerinnen und Nutzer mit zunehmender Praxis die Begrenzungen von ChatGPT stärker registrieren und merken, dass sie keine Zaubermaschine unter ihren Fingern haben. Zudem verfügen nicht alle Anwender über die gleiche Erfahrung und Geschicklichkeit im Prompten (Beschreiben des Anliegens in natürlicher Sprache für das KI-Modell, was zu einem gewünschten Ergebnis führen soll). Manch einer gibt frustriert auf, wenn die eigenen Prompts nicht in ein, zwei Schritten automatisch ein funktionierendes Programm bauen oder einen druckreifen Roman ergeben. Hier prägen menschliche Fähigkeiten die Wahrnehmung und Beurteilung der Modelle, mit denen man interagiert.

Andererseits verändert das sich wandelnde Modellverhalten zwangsläufig die Nutzererfahrung, da bewährte Prompts und Schemata von Anweisungen bei geändertem Verhalten plötzlich nicht mehr wie gewohnt funktionieren. Nutzerseitig kommt das auf das Gleiche heraus als wäre das Modell von den Fähigkeiten her abgerutscht, es ist eine negative Erfahrung und kann im Fall von Anwendungen, die um die OpenAI-API herumgestrickt wurden, zu Brüchen von Geschäftsmodellen führen.

»Die von uns aufgedeckten Fallstricke erinnern daran, wie schwierig es ist, Sprachmodelle quantitativ zu bewerten«Arvind Narayanan und Sayash Kapoor, Informatiker

Die Momentaufnahmen eines älteren Modellzustands (»Snapshots«) packen das Problem nicht an der Wurzel, da sie nur für kurze Zeit verfügbar sind und durch neue Snapshots ersetzt werden. Wissenschaftlich erforschen lassen sich die Modelle auch kaum, da die Testreihen bereits nach kurzer Zeit nicht mehr reproduzierbar sind und generative KI grundsätzlich auf gleich oder ähnlich lautende Fragen unterschiedliche Antworten geben könnte. Wichtig im Kopf zu behalten ist, dass die kontinuierliche nachgelagerte Feinjustierung großer Sprachmodelle unerwartete, teils drastische Veränderungen im Modellverhalten bei bestimmten Aufgaben auslösen kann.

»Die von uns aufgedeckten Fallstricke erinnern daran, wie schwierig es ist, Sprachmodelle quantitativ zu bewerten«, schließen die Snakeoil-Autoren ihre kritischen Anmerkungen. Am Ende des Blogeintrags finden sich Hinweise zu ihrer Versuchsmethode. Wer die Modelle selbst überprüfen möchte, sollte sich beeilen, bevor das Modellverhalten erneut Pirouetten dreht.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.