Veröffentlichung der Data Search for Data Mining Erweiterung

Zu vielen Datenanalyse Prozessen gehört es verschiedenste Datensätze und dabei oft auch verschiedene Datenformate zusammenzuführen. Aktuell gibt es einen großen Bedarf an der kontextbasierten Anreicherung von heterogenen Datensätzen mit Daten aus weiteren Quellen. RapidMiner hat in Zusammenarbeit mit der Universität Mannheim die Data Search for Data Mining Erweiterung entwickelt, um dieses Problem zu lösen. Die Erweiterung kommuniziert mit einem Backend, um innerhalb einer Analyse Daten mit kontextuell ähnlichen Daten aus verschiedenen Quellen anzureichern. Dazu verwaltet das Backend heruntergeladene tabellarische Daten, die aufbereitet und indexiert in einem Lucene Search Enginge über einen Webservice bereit gestellt werden. Dieser Webservice bietet verschiedene Auswahlmöglichkeiten zum Finden neuer Daten. Dazu werden komplexe Algorithmen zur Schema- und Instanzübereinstimmung angewandt. Über die RapidMiner Erweiterung können Analysten den Services einfach nutzen und mit Hilfe verschiedener visueller Unterstützungen, sowie geeigneter Kennzahlen eine (semi-)automatische Integration und Fusion der neuen Daten mit bereits vorhandenen Daten durchführen. Folgender Blog Post über die Data Search for Data Mining Erweiterung bietet weitere Informationen und ein Anwendungsbeispiel.