Direkt zum Inhalt

Freistetters Formelwelt: Mit Mathematik Plagiaten auf der Spur

Um herauszufinden, ob zwei Texte gleich sind, liest man sie durch und merkt dann schon, ob sie einander ähneln oder nicht. Aber wenn man es mit vielen und langen Texten zu tun hat, kommt man nicht ohne Mathematik aus.
Über vielen aufgeschlagenen Büchern eingeschlafen, trotz Kaffee
Um möglichst effektiv nach Plagiaten zu suchen, kann man automatisierte Programme verwenden. Diese nutzen oft eine mathematische Funktion namens Kosinus-Ähnlichkeit.
Die legendärsten mathematischen Kniffe, die übelsten Stolpersteine der Physikgeschichte und allerhand Formeln, denen kaum einer ansieht, welche Bedeutung in ihnen schlummert: Das sind die Bewohner von Freistetters Formelwelt.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.

Es ist erstaunlich, wie oft in unserer modernen Gesellschaft Texte miteinander verglichen werden müssen. Jedes Mal, wenn wir eine Suchmaschine benutzen, wird ein Text (unsere Anfrage) mit anderen Texten (all dem, was im Internet steht) verglichen. Noch wichtiger ist ein Textvergleich, wenn es um die Frage geht, ob in einer wissenschaftlichen Arbeit plagiiert wurde oder nicht. Oder wenn man ähnliche Dokumente zu Gruppen zusammenfassen will. Es gibt etliche solcher Beispiele. Wir produzieren mittlerweile so viele Daten, dass man ohne Automatisierung nicht mehr auskommt. Im Zentrum solcher Text- und Datenanalysen steht diese Formel:

\[ \cos \theta = \frac{\vec{a} \cdot \vec{b}}{\lVert \vec{a}\rVert \Vert \vec{b}\rVert } \]

\(\vec{a}\) und \(\vec{b}\) sind zwei Vektoren und θ ist der Winkel, der von ihnen eingeschlossen wird. Über dem Bruchstrich steht das Skalarprodukt der beiden Vektoren, darunter das Produkt der euklidischen Normen der Vektoren. Ohne auf weitere Details einzugehen, lässt sich leicht nachvollziehen, dass der Kosinus des Winkels 1 beträgt, wenn beide Vektoren in dieselbe Richtung zeigen. Ist der Kosinus gleich 0, dann sind die Vektoren orthogonal zueinander, und bei einem Wert von –1 zeigen sie in entgegengesetzte Richtungen. Mit der Formel kann man also herausfinden, wie ähnlich sich zwei Vektoren sind; deshalb wird sie als Kosinus-Ähnlichkeit bezeichnet.

Die Verbindung zur Textanalyse ist nicht sofort ersichtlich. Vektoren sind allerdings ein sehr mächtiges mathematisches Werkzeug und finden auch in diesem Fall eine Anwendung. Nehmen wir zum Beispiel den Satz »Ein Vektor ist super und Mathematik ist super« und den zweiten Satz »Mathematik ist toll und mit einem Vektor kann man super Sachen machen«. Im nächsten Schritt betrachten wir die einzelnen Wörter und ignorieren dabei häufige Begriffe wie »ist«, »und« oder »ein«. Es bleiben die Wörter »Vektor«, »Mathematik« und »super« aus dem ersten Satz und vom zweiten Satz kommen noch »toll«, »kann«, »Sachen« und »machen« dazu. Das zu betrachtende Vokabular besteht demnach aus »Vektor«, »Mathematik«, »super«, »toll«, »kann«, »Sachen« und »machen«.

Ähnlich, aber nicht gleich

Mit diesen sieben Wörtern können wir für jeden Satz einen siebendimensionalen Vektor konstruieren, bei dem jedes Wort eine Dimension darstellt. Für den ersten Satz sieht der Vektor so aus: (1,1,2,0,0,0,0). Satz 2 erhält den Vektor (1,1,1,1,1,1,1). Das Skalarprodukt der beiden Vektoren berechnet sich zu 4, die Berechnung des Produkts der Normen zur Wurzel aus 42 und die Kosinus-Ähnlichkeit beträgt zirka 0,62. Was bestätigt, dass die beiden Sätze einander zwar ähnlich – beide handeln davon, dass Mathematik und Vektoren super sind –, aber nicht identisch sind. Würde man beide dagegen mit dem Satz »Ein Goldfisch hat kein Fahrrad« vergleichen, wäre die Kosinus-Ähnlichkeit gleich 0.

In Wahrheit laufen Textvergleiche natürlich deutlich komplizierter ab als in diesem simplen Beispiel. Die Kosinus-Ähnlichkeit kann jedoch gut damit umgehen, dass viele der für lange Texte verwendeten Vektoren an sehr vielen Stellen eine »0« stehen haben; die Formel erlaubt es, sich auf die Stellen zu fokussieren, die ungleich 0 sind. Es spielt auch keine Rolle, wenn die Texte unterschiedlich lang sind, und die Formel funktioniert für beliebig hochdimensionale Vektoren. Dafür berücksichtigt sie die Reihenfolge der Wörter nicht, das heißt, sie kann nicht als alleiniges Kriterium für Textähnlichkeit verwendet werden.

Es ist immer wieder faszinierend, in welchen unerwarteten Zusammenhängen manche mathematischen Formeln auftauchen. Und würde man den vorherigen Satz per Textanalyse mit meinen bisherigen Kolumnen abgleichen, würde man vermutlich schnell fündig. Denn in dieser Hinsicht ist die Mathematik jedes Mal für eine Überraschung gut.

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.