Datenindizierung, Datensuche und Datenintegration

Zielsetzungen des Projekts DS4DM

Veröffentlicht von Anna Lisa Gentile (Universität Mannheim) am 23.12.2015

Eines der Ziele des Projektes DS4DM ist es einen automatischen Prozess zur Datenintegration zu designen, der in der Lage ist mit der unüberschaubaren Vielzahl von Datenquellen aus den letzten Jahren, sowohl aus dem Web als auch aus dem Intranet eines Unternehmens, umzugehen. Viele Daten stehen bereits in tabellarischer Form zur Verfügung, aber die schiere Anzahl der Datenquellen macht es zunehmend unmöglich, dem Benutzer einen umfassenden Überblick über die verfügbaren Daten zu vermitteln. Worum geht es in der Tabelle? Welche Attribute gibt es? Stehen ähnliche Tabellen zur Verfügung? Kann ich meine Tabelle um zusätzliche Attribute erweitern?

Wir zielen darauf ab, den Anwender in dem Suchprozess nach geeigneten Datensätzen zu unterstützen. Das Projekt wird den Stand der Technik durch die Entwicklung einer Datensuchmethode verbessern, die nicht erfordert, dass die gesuchten Attribute bekannt sind, aber die es ermöglicht, die Attribute basierend auf deren Korrelation mit bestehenden lokalen Attributen zu suchen. Ein solches Verfahren wird in RapidMiner integriert werden, um eine iterative Erweiterung von Datentabellen zu ermöglichen.

Die wichtigsten Schritte, um dieses Ziel zu erreichen, ist die Konzeption und Umsetzung von Verfahren zur

  • Datenindizierung
  • Datensuche und
  • die Backend-Services für die Datenintegration.

Unsere Arbeit bezüglich Datenindizierung und Datensuche wird auf dem Prototyp der Universität Mannheim [Lehmberg 2014] aufbauen und wir untersuchen wie Korrespondenzen auf Schema und Instanz-Ebene genutzt werden können, um die Auswahl der möglichen Bedeutungen der Anfrage korrekt zu identifizieren und große Mengen relevanter integrierbar Tabellen bereitzustellen.

Der erste wichtige Schritt ist die Datenindizierung. Für die korrekte Indizierung von Datensätzen ist es wichtig verlässliche Pseudo-Key-Attribute zu identifizieren (Subject Attributes) und komplexe Tabellenstrukturen zu erkennen. Darüber hinaus ist es wichtig, die Datenpunkte (z.B. Maßeinheiten und Zeitstempel) zu normalisieren, um später die Konfliktlösung in der Phase der Datenfusion zu vereinfachen.

Der Datensuchprozess wird Folgendes unterstützen:

  • Stichwortsuche
  • Attributsuche (mit einer Liste von Attributen plus gewünschter Attribute, um sie zu beschreiben)
  • Komplette Tabelle plus gewünschter Attribute für die Erweiterung dieser Tabelle
  • Komplette Tabelle plus Spezifikation der gewünschten Attribute: neue Attribute werden aufgrund von Korrelationen vorgeschlagen.

Im Dezember haben wir die Arbeit am Entwurf der allgemeinen Architektur und der anfänglichen Implementierung eines Backend-Service begonnen, für die Untersuchung eines Use Case. Der erste einfache Use Case besteht aus einer kleinen Tabelle, deren Attributtypen bekannt sind, deren 'Subject Attribute' bekannt ist und deren Attribut bekannt ist, um das die Tabelle erweitert werden soll. Relevante Tabellen werden zur Verfügung gestellt, indem nach Tabellen gesucht wird, die das zu erweiternde Attribut beinhalten (dessen Name exakt der Definition des Benutzers entspricht). In zukünftigen Iterationen werden wir alle Einschränkungen aufheben und wir werden prüfen, wie der Benutzer nicht nur nach bekannten Attributen suchen kann, sondern relevante Attribute basierend auf Korrelationen vorgeschlagen bekommt.

[Lehmberg 2014] Oliver Lehmberg, Dominique Ritze, Petar Ristoski, Kai Eckert, Heiko Paulheim and Christian Bizer: Extending Tables with Data from over a Million Websites. Semantic Web Challenge 2014, Winner of the Big Data Track, October 2014.