Freistetters Formelwelt: Mit Mathematik Plagiaten auf der Spur
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.
Es ist erstaunlich, wie oft in unserer modernen Gesellschaft Texte miteinander verglichen werden müssen. Jedes Mal, wenn wir eine Suchmaschine benutzen, wird ein Text (unsere Anfrage) mit anderen Texten (all dem, was im Internet steht) verglichen. Noch wichtiger ist ein Textvergleich, wenn es um die Frage geht, ob in einer wissenschaftlichen Arbeit plagiiert wurde oder nicht. Oder wenn man ähnliche Dokumente zu Gruppen zusammenfassen will. Es gibt etliche solcher Beispiele. Wir produzieren mittlerweile so viele Daten, dass man ohne Automatisierung nicht mehr auskommt. Im Zentrum solcher Text- und Datenanalysen steht diese Formel:
\[ \cos \theta = \frac{\vec{a} \cdot \vec{b}}{\lVert \vec{a}\rVert \Vert \vec{b}\rVert } \]\(\vec{a}\) und \(\vec{b}\) sind zwei Vektoren und θ ist der Winkel, der von ihnen eingeschlossen wird. Über dem Bruchstrich steht das Skalarprodukt der beiden Vektoren, darunter das Produkt der euklidischen Normen der Vektoren. Ohne auf weitere Details einzugehen, lässt sich leicht nachvollziehen, dass der Kosinus des Winkels 1 beträgt, wenn beide Vektoren in dieselbe Richtung zeigen. Ist der Kosinus gleich 0, dann sind die Vektoren orthogonal zueinander, und bei einem Wert von –1 zeigen sie in entgegengesetzte Richtungen. Mit der Formel kann man also herausfinden, wie ähnlich sich zwei Vektoren sind; deshalb wird sie als Kosinus-Ähnlichkeit bezeichnet.
Die Verbindung zur Textanalyse ist nicht sofort ersichtlich. Vektoren sind allerdings ein sehr mächtiges mathematisches Werkzeug und finden auch in diesem Fall eine Anwendung. Nehmen wir zum Beispiel den Satz »Ein Vektor ist super und Mathematik ist super« und den zweiten Satz »Mathematik ist toll und mit einem Vektor kann man super Sachen machen«. Im nächsten Schritt betrachten wir die einzelnen Wörter und ignorieren dabei häufige Begriffe wie »ist«, »und« oder »ein«. Es bleiben die Wörter »Vektor«, »Mathematik« und »super« aus dem ersten Satz und vom zweiten Satz kommen noch »toll«, »kann«, »Sachen« und »machen« dazu. Das zu betrachtende Vokabular besteht demnach aus »Vektor«, »Mathematik«, »super«, »toll«, »kann«, »Sachen« und »machen«.
Ähnlich, aber nicht gleich
Mit diesen sieben Wörtern können wir für jeden Satz einen siebendimensionalen Vektor konstruieren, bei dem jedes Wort eine Dimension darstellt. Für den ersten Satz sieht der Vektor so aus: (1,1,2,0,0,0,0). Satz 2 erhält den Vektor (1,1,1,1,1,1,1). Das Skalarprodukt der beiden Vektoren berechnet sich zu 4, die Berechnung des Produkts der Normen zur Wurzel aus 42 und die Kosinus-Ähnlichkeit beträgt zirka 0,62. Was bestätigt, dass die beiden Sätze einander zwar ähnlich – beide handeln davon, dass Mathematik und Vektoren super sind –, aber nicht identisch sind. Würde man beide dagegen mit dem Satz »Ein Goldfisch hat kein Fahrrad« vergleichen, wäre die Kosinus-Ähnlichkeit gleich 0.
In Wahrheit laufen Textvergleiche natürlich deutlich komplizierter ab als in diesem simplen Beispiel. Die Kosinus-Ähnlichkeit kann jedoch gut damit umgehen, dass viele der für lange Texte verwendeten Vektoren an sehr vielen Stellen eine »0« stehen haben; die Formel erlaubt es, sich auf die Stellen zu fokussieren, die ungleich 0 sind. Es spielt auch keine Rolle, wenn die Texte unterschiedlich lang sind, und die Formel funktioniert für beliebig hochdimensionale Vektoren. Dafür berücksichtigt sie die Reihenfolge der Wörter nicht, das heißt, sie kann nicht als alleiniges Kriterium für Textähnlichkeit verwendet werden.
Es ist immer wieder faszinierend, in welchen unerwarteten Zusammenhängen manche mathematischen Formeln auftauchen. Und würde man den vorherigen Satz per Textanalyse mit meinen bisherigen Kolumnen abgleichen, würde man vermutlich schnell fündig. Denn in dieser Hinsicht ist die Mathematik jedes Mal für eine Überraschung gut.
Schreiben Sie uns!
Beitrag schreiben