Startseite
>
5. Data-Mining
>
5.3 Definition
|
Zurück
Vor
|
|
|
|
Bensberg versteht Data-Mining als integrierten Prozess, „der durch Anwendung von Methoden
auf einen Datenbestand Muster entdeckt“. Der Begriff Data-Mining wird hier aus
prozessorientierter Sicht definiert; Ziel ist die Erkennung von Mustern. Bewusst wird in dieser
Definition auf den Begriff der Informationverzichtet, da Data-Mining der sigmatischenEbene
der Semiotikzugeordnet wird. Die im Rahmen der explorativen Datenanalysestattfindende
Auseinandersetzung mit Informationenim Sinne eines subjektiven Wissenszuwachses, die auf
derpragmatischenEbene abläuft, wird der Wissensentdeckung in Datenbankenzugeordnet.
Bensberg verzichtet auf die vielfach in der Literatur zu findende Beschränkung auf große
Datenmengen: Auch kleinere Datenmengen können bedeutungsvolle Muster enthalten, die sich
durch Data-Mining entdecken und aufzeigen lassen. Eine Abgrenzung von Data-Mining
zurstatistischen Datenanalysesowie eine Beschränkung der dem Data-Mining zuordenbaren
Methoden findet jedoch nicht statt (Lit.: Bensberg, S. 64).
Im Folgenden wird Data-Mining in Anlehnung an Bensberg als integrierter Prozess verstanden,
der durch Anwendung von Data-Mining-Techniken auf einen Datenbestand Muster entdeckt
und kommuniziert. Data-Mining-Techniken sind Techniken, die der explorativen
Datenanalysezugeordnet werden können. Ziel der explorativen Datenanalyse – und damit
konstruierendes Merkmal für die Definition von Data-Mining- Techniken – ist über die
Darstellung der Daten hinaus die „Suche nach Strukturen und Besonderheiten [...]. Sie wird
daher typischerweise eingesetzt, wenn die Fragestellung nicht genau definiert ist oder auch die
Wahl eines geeigneten statistischen Modells unklar ist.“ Die Interpretation der entdeckten
Muster obliegt dabei dem jeweiligen Empfänger, ist folglich nicht dem Data-Mining-Prozess
zuzuordnen und stellt konzeptionell die Abgrenzung zum Konzept der Wissensentdeckung in
Datenbankendar. Der Data-Mining-Prozess umfasst somit, ausgehend von der Datenselektion,
alle Aktivitäten, die zur Kommunikation von in Datenbeständen entdeckten Mustern notwendig
sind. HUKEMANN unterteilt diesen Prozess in Anlehnung an FAYYAD, PIATETSKY-
SHAPIRO und SMYTH in die Phasen: Aufgabendefinition, Selektion und Extraktion,
Vorbereitung und Transformation, Mustererkennung, Evaluation und Präsentation.
Da der Data-Mining-Prozess auf dersigmatischenEbene
stattfindet, stellt sich die Frage,
inwieweit die Evaluation der Ergebnisse als Bestandteil des Data-Mining-Prozesses gelten
kann. Während in der Phase der Mustererkennung dieprädiktiveund deskriptiveGenauigkeit
geprüft wird, werden entdeckte Muster im Rahmen der Evaluation auf ihre Relevanz, ihre
Verständlichkeit, ihre Nützlichkeit und Verwertbarkeit sowie auf ihre Neuheit geprüft. Die
hierbei zugrunde liegenden Gütefunktionensind stark abhängig von subjektiven Einflussfaktoren
und damit der pragmatischenEbene zuzugliedern. Somit muss die Evaluation der Ergebnisse der
Wissensentdeckung in Datenbankenzugeordnet werden. Die Annahme, dass für eine beliebige
Fragestellung und die daraus abgeleiteten Aufgabendefinition der Data- Mining-Prozess
erfolgreich terminiert, darf als nicht haltbar angesehen werden. In der Praxis scheitert dieser
Prozessregelmäßig sowohl an fehlenden wie auch an fehlerhaften Datenquellen. So verweisen
HIPPNER und WILDE darauf, dass die einzelnen Phasen in „intensiver Interaktion mit dem
Anwender und mit zahlreichen Rückkopplungen ablaufen“. BERRY und LINOFF verzichten
vollständig auf die Einbettung der Aufgabendefinition in den Data-Mining-Prozess. So bleibt
gewährleistet, dass auch die ungerichtete Suche nach Mustern, der keine zentrale Fragestellung
vorangeht, durch den Data-Mining- Prozess abgebildet werden kann. Zur Gewährleistung von
Effektivitätund Effizienzmuss jedoch umfassendes Wissen über Aufgabenstellung und
Domänenbezug beim Anwender vorhanden sein. Nur so ist sichergestellt, dass alle
Möglichkeiten und Chancen, welche die domänenspezifische Fragestellung bietet, genutzt
werden und etwaige Probleme im Hinblick auf das Gesamtziel betriebswirtschaftlich sinnvoll
gelöst werden. Im Folgenden wird der Data-Mining-Prozess in vier Phasen unterteilt:
Datenselektion, Datenvorbereitung, Mustererkennung und Kommunikation.
|
|
|
|