Data Quality Profiling in Informationssystemen

Im heutigen Informationszeitalter sind Daten allgegenwärtig. Egal ob am Barcode-Scanner an der Supermarktkasse, beim Besuch von Facebook oder im heimischen Karnevalsverein, überall werden fleißig Daten gesammelt. Diese Sammelleidenschaft hat zur Folge, dass mittlerweile weltweit schätzungsweise 8 Zettabyte an Daten existieren und diese Zahl sich in schätzungsweise 2 Jahren verdoppelt haben wird. Dieses unvorstellbare Wachstum macht den Unternehmen, welche die Daten verwalten zu schaffen. Ein großes Problem ist dabei mangelnde Datenqualität, die aus veralteten, falschen und unvollständigen Daten im Bestand resultiert. Die Pflege der Datenbanken verschlingt Unmengen an Geld, Zeit und Ressourcen, da die Fehler von unterschiedlichsten Quellen stammen können und meist nur im Kontext mit weiteren Daten als Fehler erkennbar sind. Oftmals ist es so, dass die Daten selbst eine gute Aussagekraft haben, die jedoch erst durch Analyse der Millionen von Datensätzen und die mittels Statistischer Methoden und der Aufarbeitung der Daten mittels Grafiken ausgewertet werden kann. Dadurch lassen sich atypische Muster erkennen aus denen wiederum Probleme in der Qualität der Daten ermittelt werden können.

Ein Projekt unter der Leitung von Prof. Dr. Rolf Krieger befasst sich daher mit dem Thema, wie man Anomalien in Daten aus Informationssystemen erkennen und visualisieren kann. Hierzu werden unter anderem Testdaten eines Europäischen Einzelhändlers verwendet, die mittels verschiedener Verfahren aus den Bereichen Statistik, künstliche Intelligenz und Data-Mining analysiert werden. Die Ergebnisse der Analysen werden von der entwickelten Testplattform für den Benutzer verständlich aufbereitet und meist in Form von Grafiken und Ergebnislisten präsentiert.

So können einfache Häufigkeitsberechnungen, Zeitreihen und komplexe Data-Mining Methoden wie Assoziations- und Sequenzanalyse oder Regelinduktionen verwendet werden, um den Datenbestand zu evaluieren und den Benutzer aus verschiedenen Visualisierungstechniken die Verständlichsten auswählen zu lassen. Aus der Testplattform soll in Zukunft ein Server-basiertes Tool zu entwickelt werden, mit dem die Analyse- und Visualisierungstechniken sowie die Benutzerschnittstelle noch weiter ausgebaut werden können.

Kontakt

Adresse
Institut für Softwaresysteme in Wirtschaft, Umwelt und Verwaltung
Campusallee, Gebäude 9925
55768 Hoppstädten-Weiersbach

Prof. Dr. Rolf Krieger
Prof. Dr. Rolf Krieger
Professor FB Umweltplanung/-technik - FR Informatik

Kontakt

+49 6782 17-1302

Standort

Birkenfeld | Gebäude 9925 | Raum 137

Sprechzeiten

Mittwochs, 13:00 - 13:45 Uhr