Startseite
>
5. Data-Mining
>
5.4 Problemtypen des Data-Mining
|
Zurück
Vor
|
|
|
|
Einen pragmatischen, in der einschlägigen Literatur einheitlich anerkannten Ordnungsrahmenzur
Systematisierung der verschiedenen Problemtypen liefern FAYYAD, PIATETSKY-
SHAPIRO und SMYTH. Dabei werden diese denOberklassenBeschreibungsprobleme und
Prognoseprobleme zugeordnet:
Im Folgenden werden die verschiedenen Problemtypen im Rahmen des situativen Kontextes
vorgestellt.
|
|
Unter Beschreibungsproblemen wird die Gruppe von Problemtypen zusammengefasst, deren
Ziel in der Beschreibung der kausalen Zusammenhänge des Datengenerierungsprozesses liegt.
Die Qualität eines entdeckten Musters kann anhand von methodenspezifischen
Qualitätskriterienbestimmt werden, die die deskriptive Akkuratheitdes Musters bewerten.
|
|
„Die Zielsetzung der Datenbeschreibung ist die Zusammenfassung der wesentlichen
Charakteristika der Daten in möglichst kompakter Form.“ HIPPNER und WILDE zählen die
Deskription nicht zum Kern des Data Mining. BERRY und LINOFF führen jedoch an, dass
leicht verständliche Beschreibungen oftmals auch Erklärungen suggerieren, die dann unser
Verständnis für den Datenentstehungsprozess verbessern. Zwar lassen sich deskriptive
Verfahren nicht der explorativen Datenanalysezuordnen, jedoch erfüllen verschiedene
deskriptive Methoden ebenfalls die Ziele des Data Mining. Sie helfen, Fragestellungen zu
präzisieren, wenn diese nicht genau definiert sind, und unterstützen den Anwender bei der
Suche nach Strukturen und Besonderheiten. Deskriptive Verfahren sind aufgrund der genannten
Eigenschaften dem Data-Mining zuzuordnen. Als modernes, deskriptives Verfahren istOLAPzu
nennen, das durch verschiedene Navigationstechniken die gerichtete wie die ungerichtete Suche
in den Daten erleichtert.
|
|
Im Rahmen der Abweichungsanalyse werden solche Informationsobjekte ermittelt und
analysiert, die für bestimmte Merkmalswerte von einer Norm oder einem erwarteten Wert
abweichen. Das Ziel besteht darin, diese Abweichungen zu analysieren und zu interpretieren.
Diese können auf die Verschiebung alter oder die Entwicklung neuer Muster im zugrunde
liegenden Datengenerierungsprozess hindeuten und dadurch Anlass geben, existierende
Erklärungsmodelle bezüglich ihrer Gültigkeit zu hinterfragen.
|
|
Das Ziel von Abhängigkeitsanalysen ist die Entdeckung von signifikanten Dependenzen
zwischen den Attributen eines Informationsobjektes. Dabei unterscheidet man bei der
Abhängigkeitsanalyse, ob die Zieldaten und die Richtung der Kausalitätsbeziehung zwischen
den Attributen bekannt sind oder nicht. Sind sie bekannt, können Regressionsverfahren,
Bayes’sche Netze oder Entscheidungsbäume eingesetzt werden, um sie zu konkretisieren.
Klassische Verfahren, die derartiges Wissen nicht voraussetzen, sind die Assoziationsanalyse
oder die Korrelationsanalyse. Sequenzanalysen wiederum ermitteln Abhängigkeiten aus der
zeitlichen Entwicklung von Informationsobjekten.
Der wohl klassischste Vertreter dieser Problemgruppe ist die sogenannte Warenkorbanalyse,
bei der Informationen über das gleichzeitige Interesse der Akteure für mehrere Leistungen oder
Leistungsgruppen analysiert und in wirtschaftliches Verhalten umgesetzt werden. Dabei wird bei
der klassischen Assoziationsanalyse, ausgehend von nachgefragten Leistungsbündeln, auf die
Komplementarität dieser Leistungen geschlossen.
|
|
Die Gruppenbildung „zielt auf die Aufspaltung der Daten in interessante und sinnvolle
Teilmengen oder Klassen.“ Dabei ist die Zielvorstellung, dass Objekte innerhalb einer Klasse
möglichst homogen, Objekte aus unterschiedlichen Klassen möglichst heterogen zueinander
sind. Die Quantifizierung des Homogenitätsgrades geschieht über ein Proximitätsmaß, das
hinsichtlich des Skalenniveaus und der Variablenstruktur ausgewählt werden muss. Die
statistischen Segmentierungsverfahren lassen sich in vier Gruppen unterteilen: Während
deterministische Verfahren (Nearest-Neigbourhood-Verfahren, k-means- Verfahren) die
eindeutige Zuordnung von Informationsobjekten zu Clustern verlangen, arbeiten probabilistische
Verfahren mit Zugehörigkeitsgraden, deren Summe sich für jedes Element auf eins summiert.
Possibilistische Verfahren (Fuzzy-Cluster-Verfahren) heben diese Restriktion auf, so dass
Elemente auch mehreren Klassen zugeordnet oder auch gar keiner Klasse zugeordnet werden
können. Unvollständige Segmentierungsverfahren (Multidimensionale Skalierung) erzeugen eine
räumliche Darstellung der Objekte, ohne eine Gruppeneinteilung vorzunehmen. Neben den
statistischen Verfahren können zur Gruppenbildung auch Verfahren des maschinellen
Lernenseingesetzt werden, beispielsweise Künstliche Neuronale Netze.
Die Gruppenbildung wird im Allgemeinen aus zwei Gründen durchgeführt: Bezogen auf die
(potenziellen) Nachfrager versucht insbesondere die Clusteranalyse, die typischen
Charakteristika von Gruppen zu identifizieren, um daraus gruppenspezifische Leistungen (von
individuellen Kommunikationswegen über individuelle Kommunikationsinhalte bis hin zu
individuellen Leistungsversprechen) zu entwickeln. Bezogen auf die Menge der im relevanten
Markt angebotenen Leistungsversprechen versuchen insbesondere die Ansätze der
multidimensionalen Skalierung, Nischen zu entdecken, um diese durch neuartige Angebote zu
bedienen.
|
|
Das Ziel von Prognoseproblemen ist die Entwicklung von mathematischen Modellen, mit deren
Hilfe aus einem gegebenen Input der zu erwartende Output bestimmt werden kann. Die
Qualität eines solchen Modells kann über seine Prognosefähigkeit, also über seine prädiktive
Akkuratheit, bestimmt werden.
|
|
Klassifikationsverfahren konstruieren Modelle, mittels deren Informationsobjekte anhand von
objekt- und umweltspezifischen Eigenschaften vordefinierten Klassen zugeteilt werden können.
Durch diese Zuordnung kann das Objekt mit den klassenspezifischen Eigenschaften in
Verbindung gebracht werden, um so das erwartete Verhalten eines Informationsobjektes
abzuleiten. Zum Aufstellen eines mathematischen Modells werden dazu eine feste Anzahl an
Klassen sowie Beispiele von Klasseninstanzen und deren Attributwerte benötigt.
Mathematische Methoden, die für das Aufstellen von Klassifikationsmodellen hilfreich sind,
entstammen sowohl der klassischen Statistik (Diskriminanzanalyse, K-Nächste-Nachbarn-
Methode) als auch dem maschinellen Lernen. Symbolische Lernverfahren, beispielsweise
Entscheidungsbaumverfahren oder Regelinduktion, stellen Verfahren dar, welche für den
Anwender verständliche Klassenbeschreibungen generieren. Subsymbolische Verfahren wie
Künstliche Neuronale Netze arbeiten hingegen nach dem Black-Box- Prinzip,
Klassenbeschreibungen sind nicht aus dem konstruierten Modell heraus ableitbar.
|
|
Das Ziel der Wirkungsprognose ist es, ähnlich wie bei der Klassifikation, Zielwerte zu
bestimmen. Anders als bei der Klassifikation sind diese Zielwerte jedoch quantitativer Natur.
Die Regressionsanalyse ist die typische Vertreterin der klassischen statistischen Verfahren zur
Formalisierung von Wirkungszusammenhängen. Diese Methode ist beschränkt auf lineare
Zusammenhänge, so dass für unbekannte Zusammenhänge oftmals Künstliche Neuronale
Netze, Box- Jenkins-Verfahren oder regelbasierte Verfahren eingesetzt werden. Mittels
Klassifikationsverfahren und Wirkungsprognosen können Systeme konstruiert werden, die für
die flexiblen Gestaltungsparameter als Input den erwarteten Output einer Zielgröße bestimmen.
Durch den Einsatz von Entscheidungsbäumen oder künstlichen neuronalen Netzen können diese
Gestaltungsparameter unter gegebenen Umweltbedingungen optimiert werden.
|
|
|
|