Search:
Lehrstuhl  |  Institut  |  Fakultät  |  LMU
print

Knowledge Discovery in Databases I im SS 2014

Aktuelles


Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.


Organisation

  • Umfang: 3+2 Semesterwochenstunden
  • Vorlesung: PD Dr. Arthur Zimek
  • Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
  • Anmeldung: über UniWorX bis 01. Juni 2014
  • Übungsleitung: Dr. Erich Schubert
  • Tutor: Sebastian Hollizeck

Zeit und Ort

Veranstaltung Zeit Ort Beginn
Vorlesung Di, 9.30 - 12.00 Uhr Raum B 001 (Oettingenstr. 67) 08.04.2014
Übung
Fr, 12.00 - 14.00 Uhr Raum U 151 (Oettingenstr. 67)
11.04.2014
Übung
Fr, 14.00 - 16.00 Uhr Raum U 151 (Oettingenstr. 67)
11.04.2014

Vorlesungsplan

Datum Vorlesung Datum Übung
08.04.2014 Kapitel 1: Einleitung PDF 11.04.2014 Blatt 01
15.04.2014 Kapitel 2: Featureräume PDF 18.04.2014 entfällt (Karfreitag)
22.04.2014 entfällt (Osterdienstag) 25.04.2014 Blatt 02
Übungen entfallen!!!
29.04.2014 Kapitel 3: Clusteranalyse Teil 1 PDF 02.05.2014 Blatt 03
06.05.2014 Kapitel 3: Clusteranalyse Teil 2 PDF 09.05.2014 Blatt 04
13.05.2014 Kapitel 3: Clusteranalyse Teil 3 PDF 16.05.2014 Blatt 05
20.05.2014 Kapitel 4: Outlier Detection PDF 23.05.2014 Blatt 06
27.05.2014 Kapitel 5: Klassifikation Teil 1-3 PDF 30.05.2014 Blatt 07
03.06.2014 Kapitel 5: Klassifikation Teil 4-5 PDF 06.06.2014 Blatt 08
10.06.2014 entfällt (Pfingstdienstag) 13.06.2014 Blatt 09
17.06.2014 Kapitel 5: Klassifikation Teil 6-7 PDF,
Kapitel 6: Regression PDF
20.06.2014 Blatt 10
24.06.2014 Kapitel 7: Evaluation von unsupervised Verfahren PDF 27.07.2014 Blatt 11
01.07.2014 Kapitel 8: Assoziationsregeln PDF 04.07.2014 Blatt 12
08.07.2014 Projektvorträge und Fragestunde 11.07.2014 keine Übungen

Bonusprojekte

Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)

Bereits vergebene Themen:

  • Multidimensional Dynamic Time Warping (Rainer Diesch)
  • FINDIT (Markus Rohm)
  • Self-Organizing-Maps für kategorielle Daten (Yinchong Yang)
  • Distance Correlation (Marie Kiermeier)
  • Fuzzy-C-Means und Fuzzy Rand Index (Christof Schramm)
  • COF (Tatiana Sizova)
  • x-Means (Tibor Goldschwendt)
  • FOSC (Evgeniy Faerman)

Vortrag:

Stellen Sie Ihre Erkenntnisse in einem kurzen Vortrag (max. 10 Minuten) im Rahmen der Vorlesung am 08.07.2014 vor. Eventuell ergeben sich hierbei noch Fragen, die Sie für den Abschluss Ihres Projektes beachten können.

Abgabe:

Die endgültige Abgabe ihres fertigen Projektes erbitten wir per E-Mail bis spätestens 15.07.2014. Diese Abgabe soll beinhalten:

  • eigene Beschreibung des Algorithmus'
  • eigene (!) Implementierung (in ELKI, sofern nicht anders vereinbart)
  • eigene Experimente und Unit Tests

Die Experimente sollen an sinnvoll gewählten Beispieldatensätzen zeigen

  • dass der Algorithmus (und die Implementierung) "funktioniert", d.h. dass er macht, was er machen soll (laut Quelle) und
  • wie er sich von relevanten konkurrierenden Algorithmen unterscheidet.

Die Beschreibung des Algorithmus' und des Ansatzes sowie die experimentelle Auswertung fassen Sie bitte in einem (kurzen!) Bericht zusammen (Abgabe als pdf).

Außerdem möchten wir Ihre Erfahrungen und Ergebnisse mit Ihnen besprechen, bitte vereinbaren Sie dazu einen Termin mit uns. Der Termin kann vor oder nach dem Vortrag oder der Abgabe liegen, jedoch bis spätestens 17.07.2014.


Tutorial

Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.

Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (Daumenkino! Das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.

Part Files Blatt
01 Distanzfunktionen 02
02 Clusteranalyse Teil I 03
03 Clusteranalyse Teil II 04
04 Clusteranalyse Teil III 04
05 Outlier Detection 05
06 Klassifikation Teil I 06
07 Klassifikation Teil II 07
08 Klassifikation Teil III 08
09 Kernel, Perceptron, Regression 09
10 Evaluation 10
11 Frequent Itemset Mining mit Apriori 11

Klausur

Klausurtermin: 18.07.2014, 14-16 Uhr, Theresienstraße 39, Hörsäle B 051 und B 052.

Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)


Weiterführende Informationen

KDD zum Ausprobieren

weitere Informationen



Vorhergehende Semester

SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00

blank