Clusteranalyse

Lexikon der Neurowissenschaft: Clusteranalyse

Clusteranalyse [von E cluster = Haufen, Klumpen],Ecluster analysis, Sammelbezeichnung für eine große Anzahl verschiedener Techniken der Explorativen Datenanalyse (EDA). Eine generelle Fragestellung in fast allen Bereichen der Datenanalyse besteht dabei in dem Finden und Einteilen der beobachteten Daten in bedeutungsvolle Strukturen. Z.B. müssen Tierarten erst in verschiedene Untergruppen eingeteilt werden, bevor eine sinnvolle Beschreibung der Unterschiede zwischen den Arten möglich ist. Allen Clusteranalysemethoden gemein ist die Zielsetzung, ähnliche Objekte zusammen zu gruppieren, wobei die Objekte innerhalb einer Klasse möglichst homogen und die Klassen untereinander möglichst heterogen sind. Alle Clusteranalysestudien lassen sich in fünf Schritte einteilen: 1) Auswahl der zu clusternden Daten, 2) Bestimmung der Merkmale mit denen die einzelnen Entitäten beschrieben werden, 3) Berechnung der Ähnlichkeiten zwischen den einzelnen Entitäten, 4) Verwendung einer Clusteranalysemethode zur Generierung von Gruppen mit ähnlichen Entitäten, 5) Validierung der gefundenen Clusterung. – Die Verfahren der Clusteranalyse unterscheiden sich hinsichtlich ihrer a-priori gemachten Annahmen über Ähnlichkeit und Disjunktivität der Klassen sowie deren Anzahl. Bei allen Clusterverfahren ist jedoch zu beachten, daß sie selten eine ausgeprägte statistische Basis besitzen. Die Verfahren sind meist heuristischer Natur und beeinflußt von der jeweiligen Forschungsrichtung, in der sie sich entwickelt haben. Ebenso gilt, daß verschiedene Clustermethoden verschiedene Lösungen aus den gleichen Datensätzen generieren können; obwohl Clusteranalysemethoden nach Struktur in Daten suchen, wird auch gleichzeitig Struktur aufgeprägt, und zwar über die Art und Weise, wie gesucht wird. Somit wird zwar jede Clustermethodik die Entitäten in Gruppen einteilen, diese können jedoch drastisch verschieden sein. Die Schwierigkeit besteht nun darin, zu wissen, wann die gefundene Gruppeneinteilung wirklich ist und wann sie nur durch die Methode aufgeprägt wird. – Es können drei Verfahrensfamilien unterschieden werden: Hierarchische Clusterung, k-means Clusterung und graphentheoretische Clusterverfahren. Graphentheoretische Verfahren eignen sich für Distanzdaten, deren Cluster schlecht durch Mittelpunkte charakterisiert werden können. Die hierarchische Clusterung und die k-means Clusterung werden nun eingehender betrachtet. Die hierarchischen Verfahren gehen im allgemeinen von Ähnlichkeits- oder Distanzdaten aus. Dabei existieren eine Fülle von Distanz- oder Ähnlichkeitsmaßen, z.B. die euklidische Distanz der Merkmalspunkte im n-dimensionalen Raum oder die Hamming-Distanz für binäre Muster. Ausgehend von solchen Maßen wird ein Inhomogenitätsmaß für die Cluster definiert, z.B. die maximale Distanz von Entitäten in einer Gruppe oder die Größe der Varianz innerhalb eines Clusters. Bei den hierarchischen Verfahren werden dann sukzessive Objektklassen zusammengefaßt oder partitioniert ( siehe Abb. 1 ), so daß das jeweilige Inhomogenitätsmaß von allen Klassen nicht überschritten wird (schwarze Linie in der Abbildung). Bei der k-means Clusteranalyse wird mit einer zufälligen Initialisierung von k Clustern begonnen. Die jeweiligen Cluster werden über die nächste Nachbarschaft der Objekte zu k Zentren (Prototypen) bestimmt ( siehe Abb. 2 ). Die Zentren oder die Zugehörigkeit eines Objekts zu einem Cluster werden nun mit dem Ziel geändert, daß die Variabilität innerhalb der Clusters minimal ist und der Unterschied zwischen den Clustern maximal wird. Das Ändern der Zentren wird in Abb. 2 dargestellt. Durch das Bewegen der Zentren ändern sich die Zugehörigkeiten der Datenpunkte zu den Clustern (weiß, grau und schwarz markiert). – Die Clusteranalyse ist im Ergebnis ein datenreduzierendes Verfahren; am deutlichsten wird dies bei der k-means Clusteranalyse, in dem statt eines n-dimensionalen Datenvektors ein Skalar, die Angabe des Clusters, zu dem das betreffende Muster gehört, verwendet wird. Die Clusteranalyse wird in der Mustererkennung häufig zur Musterraumdiskretisierung verwendet, man spricht dabei auch von Vektorquantisierung. Ebenso können die von einer k-means Clusteranalyse gefundenen Zentren zur Initialisierung von Radial-Basis-Funktions-Netzen verwendet werden. Für die Clusteranalyse existieren auch Ansätze aus dem Bereich "neurocomputing", wie z.B. die self-organizing feature map von Kohonen.

Lit.:Aldenderfer, M.S., Blashfield, R.K.: Cluster Analysis, Sage Publications, 1984. Backer, E: Computer-Assisted Reasoning in Cluster Analysis, Prentice Hall, 1995. Bacher, J: Clusteranalyse, Oldenbourg, 1996.

Clusteranalyse

Abb. 1: Hierarchische Clusteranalyse. Sukzessives Partitionieren (bzw. Zusammenfassen) von Objektklassen.

Clusteranalyse

Abb. 2: k-means Clusterung. Die Repräsentanten (Zentren, Prototypen) bewegen sich in die Datenwolken und ändern die Klassenzugehörigkeit der Datenpunkte (a-c).

Die Autoren

Redaktion

Dr. Hartwig Hanser, Waldkirch (Projektleitung)
Christine Scholtyssek (Assistenz)

Fachberater

Prof. Albert Ludolph, Ulm
Prof. Lothar Pickenhain, Leipzig
Prof. Heinrich Reichert, Basel
Prof. Manfred Spitzer, Ulm

Autoren

Aertsen, Prof., Ad, Freiburg
Aguzzi, Prof., Adriano, Zürich
Baier, Dr., Harmut, Ulm
Bartels, Prof., Mathias, Tübingen
Becker, Dr., Andreas, Marburg
Born, Prof., Jan, Lübeck
Brecht, Dr., Stephan, Kiel
Breer, Prof., Heinz, Stuttgart
Carenini, Dr., Stefano, Würzburg
Cruse, Prof., Holk, Bielefeld
Culmsee, Dr., Carsten, Marburg
Denzer, Dr., Alain, Waldenburg
Egert, Dr., Ulrich, Freiburg
Ehrenstein, Dr., Walter, Dortmund
Eurich, Dr., Christian , Bremen
Eysel, Prof., Ulf, Bochum
Fischbach, Prof., Karl-Friedrich, Freiburg
Frey, Dunja, Basel
Fuhr, Dr., Peter, Basel
Greenlee, Prof., Marc, Oldenburg
Hartmann, Beate, Basel
Heck, Dr., Detlef, Freiburg
Heller, Prof., Kurt, München
Henkel , Dr., Rolf , Bremen
Herdegen, Prof., Thomas, Kiel
Herrmann, Dr., Gudrun, Bern
Hilbig, Dr., Heidegard, Leipzig
Hirth, Dr., Frank, Basel
Huber, Dr., Gerhard, Zürich
Hund, Martin, Basel
Illing, Dr., Robert Benjamin, Freiburg
Käch, Dr., Stefanie, Basel
Kästler, Dr., Hans, Ulm
Kaiser, Dr., Reinhard, Freiburg
Kaluza, Jan, Stuttgart
Kapfhammer, Dr., Josef P., Freiburg
Kestler, Dr., Hans, Ulm
Kittmann, Dr., Rolf, Freiburg
Klix, Prof., Friedhart , Berlin
Klonk, Dr., Sabine, Stuttgart
Klumpp, Prof., Susanne, Marburg
Kössl, Dr., Manfred, München
Köster, Dr., Bernd, Freiburg
Kraetschmar, Dr., Gerhard, Ulm
Krieglstein, Prof., Josef, Marburg
Krieglstein, Prof., Kerstin, Homburg
Kuschinsky, Prof., Wolfgang, Heidelberg
Lahrtz, Stephanie, Hamburg
Landgraf, Dr., Uta, Stegen
Laux, Thorsten, Basel
Lindemann, Prof., Bernd, Homburg
Löffler, Dr., Sabine, Leipzig
Ludolph, Prof., Albert, Ulm
Malessa, Dr., Rolf, Weimar
Marksitzer, Dr., Rene, Luzern
Martin, Dr., Peter, Kehl-Kork
Martini, Prof., Rudolf, Würzburg
Medicus, Dr., Gerhard, Thaur
Mehraein, Dr., Susan, Freiburg
Meier, Dr., Kirstin, Freiburg
Mendelowitsch, Dr., Aminadav, Basel
Mergner, Prof., Thomas, Freiburg
Metzinger, Dr., Thomas, Frankfurt am Main
Mielke, Dr., Kirsten, Kiel
Misgeld, Prof., Ulrich, Heidelberg
Moll, Joachim, Basel
Münte, Prof., Thomas, Magdeburg
Neumann, Dr., Harald, Planegg-Martinsried
Nitsch, Prof., Cordula, Basel
Oehler, Prof., Jochen, Dresden
Otten, Prof., Uwe, Basel
Palm, Prof., Günther, Ulm
Pawelzik, Prof., Klaus, Bremen
Pickenhain, Prof., Lothar, Leipzig
Ravati, Alexander, Marburg
Reichel, Dr., Dirk, Lübeck
Reichert, Prof., Heinrich, Basel
Reinhard, Dr., Eva, Bern
Rieckmann, Dr., Peter, Würzburg
Riemann, Prof., Dieter, Freiburg
Ritter, Prof., Helge, Bielefeld
Roth, Prof., Gerhard , Bremen
Roth, Lukas W.A., Bern
Rotter, Dr., Stefan, Freiburg
Rubin, Dr., Beatrix, Basel
Ruth, Dr., Peter, Giessen
Schaller, Dr., Bernhard, Basel
Schedlowski, Prof., Manfred, Essen
Schneider, Dr., Werner X., München
Scholtyssek, Christine, Umkirch
Schwegler, Prof., Helmut , Bremen
Schwenker, Dr., Friedhelm, Ulm
Singer, Prof., Wolf, Frankfurt am Main
Spiegel, Dr., Roland, Zürich
Spitzer, Prof., Manfred, Ulm
Steck, Prof., Andreas, Basel
Steinlechner, Prof., Stephan, Hannover
Stephan, Dr., Achim, Rüsselsheim
Stoeckli, Dr., Esther, Basel
Stürzel, Frank, Freiburg
Swandulla, Prof., Dieter, Erlangen
Tolnay, Dr., Markus, Basel
Unsicker, Prof., Klaus, Heidelberg
Vaas, Rüdiger, Bietigheim-Bissingen
van Velthoven-Wurster, Dr., Vera, Freiburg
Walter, Dr., Henrik, Ulm
Wicht, Dr., Helmut, Frankfurt
Wolf, Prof., Gerald, Magdeburg
Wullimann, Prof., Mario, Bremen
Zeilhofer, Dr., Hans-Ulrich, Erlangen
Zimmermann, Prof., Manfred, Heidelberg

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Artikel zum Thema

Eine aufrecht stehende, leere Eierschale mit abgebrochener Spitze auf einem rosa Hintergrund. Daneben liegt das abgebrochene kleine Stück der Schale.

Lexikon der Neurowissenschaft: Clusteranalyse

Schreiben Sie uns!

Artikel zum Thema

Ostern: Wissen rund ums Ei

Heuschnupfen: Dünger verstärkt Gräserallergie

Infektionskrankheiten: Wie groß ist die Tuberkulose-Gefahr in Deutschland?

Vogelgrippe: Erster Todesfall nach Vogelgrippe-Infektion in Mexiko

Themenkanäle

Plastik

Bakterien

Antibiotikaresistenzen

SponsoredPartnerinhalte