Knowledge Discovery in Databases I im SS 2014

Aktuelles

Klausureinsicht: Donnerstag 28.8.2014 10-12 Uhr Raum F109
Merkblatt für die Klausur
Klausur: 18.7.2014 14-16 Uhr, Theresienstraße 39, Hörsäle B 051 und B 052.
(Anmeldung per UniWorX)
Bonusprojekte: bitte anmelden!
Aktueller ELKI-Snapshot für Bonusprojekte, Übersicht Themenvorschläge Bonusprojekte aktualisiert (neu: schnelleres hierarchisches clustering, DBCLASD).
Die Übungen am 25.4.2014 müssen leider kurzfristig entfallen.
Die Anmeldung per UniWorX ist möglich.

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.

Organisation

Umfang: 3+2 Semesterwochenstunden
Vorlesung: PD Dr. Arthur Zimek
Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
Anmeldung: über UniWorX bis 01. Juni 2014
Übungsleitung: Dr. Erich Schubert
Tutor: Sebastian Hollizeck

Zeit und Ort

Veranstaltung	Zeit	Ort	Beginn
Vorlesung	Di, 9.30 - 12.00 Uhr	Raum B 001 (Oettingenstr. 67)	08.04.2014
Übung	Fr, 12.00 - 14.00 Uhr	Raum U 151 (Oettingenstr. 67)	11.04.2014
Übung	Fr, 14.00 - 16.00 Uhr	Raum U 151 (Oettingenstr. 67)	11.04.2014

Vorlesungsplan

Datum	Vorlesung	Datum	Übung
08.04.2014	Kapitel 1: Einleitung PDF	11.04.2014	Blatt 01
15.04.2014	Kapitel 2: Featureräume PDF	18.04.2014	entfällt (Karfreitag)
22.04.2014	entfällt (Osterdienstag)	25.04.2014	Blatt 02 Übungen entfallen!!!
29.04.2014	Kapitel 3: Clusteranalyse Teil 1 PDF	02.05.2014	Blatt 03
06.05.2014	Kapitel 3: Clusteranalyse Teil 2 PDF	09.05.2014	Blatt 04
13.05.2014	Kapitel 3: Clusteranalyse Teil 3 PDF	16.05.2014	Blatt 05
20.05.2014	Kapitel 4: Outlier Detection PDF	23.05.2014	Blatt 06
27.05.2014	Kapitel 5: Klassifikation Teil 1-3 PDF	30.05.2014	Blatt 07
03.06.2014	Kapitel 5: Klassifikation Teil 4-5 PDF	06.06.2014	Blatt 08
10.06.2014	entfällt (Pfingstdienstag)	13.06.2014	Blatt 09
17.06.2014	Kapitel 5: Klassifikation Teil 6-7 PDF, Kapitel 6: Regression PDF	20.06.2014	Blatt 10
24.06.2014	Kapitel 7: Evaluation von unsupervised Verfahren PDF	27.07.2014	Blatt 11
01.07.2014	Kapitel 8: Assoziationsregeln PDF	04.07.2014	Blatt 12
08.07.2014	Projektvorträge und Fragestunde	11.07.2014	keine Übungen

Bonusprojekte

Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)

Bereits vergebene Themen:

Multidimensional Dynamic Time Warping (Rainer Diesch)
FINDIT (Markus Rohm)
Self-Organizing-Maps für kategorielle Daten (Yinchong Yang)
Distance Correlation (Marie Kiermeier)
Fuzzy-C-Means und Fuzzy Rand Index (Christof Schramm)
COF (Tatiana Sizova)
x-Means (Tibor Goldschwendt)
FOSC (Evgeniy Faerman)

Vortrag:

Stellen Sie Ihre Erkenntnisse in einem kurzen Vortrag (max. 10 Minuten) im Rahmen der Vorlesung am 08.07.2014 vor. Eventuell ergeben sich hierbei noch Fragen, die Sie für den Abschluss Ihres Projektes beachten können.

Abgabe:

Die endgültige Abgabe ihres fertigen Projektes erbitten wir per E-Mail bis spätestens 15.07.2014. Diese Abgabe soll beinhalten:

eigene Beschreibung des Algorithmus'
eigene (!) Implementierung (in ELKI, sofern nicht anders vereinbart)
eigene Experimente und Unit Tests

Die Experimente sollen an sinnvoll gewählten Beispieldatensätzen zeigen

dass der Algorithmus (und die Implementierung) "funktioniert", d.h. dass er macht, was er machen soll (laut Quelle) und
wie er sich von relevanten konkurrierenden Algorithmen unterscheidet.

Die Beschreibung des Algorithmus' und des Ansatzes sowie die experimentelle Auswertung fassen Sie bitte in einem (kurzen!) Bericht zusammen (Abgabe als pdf).

Außerdem möchten wir Ihre Erfahrungen und Ergebnisse mit Ihnen besprechen, bitte vereinbaren Sie dazu einen Termin mit uns. Der Termin kann vor oder nach dem Vortrag oder der Abgabe liegen, jedoch bis spätestens 17.07.2014.

Tutorial

Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.

Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (Daumenkino! Das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.

Part	Files	Blatt
01	Distanzfunktionen	02
02	Clusteranalyse Teil I	03
03	Clusteranalyse Teil II	04
04	Clusteranalyse Teil III	04
05	Outlier Detection	05
06	Klassifikation Teil I	06
07	Klassifikation Teil II	07
08	Klassifikation Teil III	08
09	Kernel, Perceptron, Regression	09
10	Evaluation	10
11	Frequent Itemset Mining mit Apriori	11

Klausur

Klausurtermin: 18.07.2014, 14-16 Uhr, Theresienstraße 39, Hörsäle B 051 und B 052.

Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)

Weiterführende Informationen

KDD zum Ausprobieren

ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures (LMU München)
SciKit-Learn (SciPy Erweiterung)
Weka: Waikato Environment for Knowledge Analysis
GNU R
Rapidminer Community Edition

weitere Informationen

Vorhergehende Semester

SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00

Von „http://fogo.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I)_14“