RapidMiner nahm am zweitem Big Data All Hands Meeting (BDAHM) teil, welches zusammen mit der zweiten Smart Data Innovation Konferenz (SDIC) am Karlsruher KIT vom 11. bis 12. Oktober stattfand. In ihrem gemeinsamen Vortrag Realizing Smart Data by automating Tabular Search, Integration and Extraction methods [1] zeigten Dr. Edwin Yaqub und Philipp Schlunder verschiedene Aspekte des DS4DM Projektes. Ihr Schwerpunkt lag auf der Herausforderung der immer größer werdenden und vielgestaltigen Datenmengen, welche zum Teil isoliert in geschlossenen Firmenetzen oder in großer Menge frei im Internet verfügbar sind.
Dr. Edwin Yaqub (Data Scientist, RapidMiner) bei der 2. BDAHM und SDIC Konferenz (BDAHM/SDIC 2017) in Karlsruhe, Deutschland
Philipp Schlunder (Data Scientist, RapidMiner) bei der 2. BDAHM und SDIC Konferenz (BDAHM/SDIC 2017) in Karlsruhe, Deutschland
Der Vortrag zeigte, wie das DS4DM Projekt Methoden entwickelt welche automatisch relevante Informationen aus großen Mengen von Tabellen extrahieren können. Zusätzlich wurde die DS4DM Erweiterung für die Extraktion von Tabellen aus komplexen Dokumentformaten, wie PDF- und HTML-Dokumenten, online Tabellenkalkulationen wie Microsoft Excel Online und Google Spreadsheets, sowie der automatische Zugriff auf Microsoft Sharepoint als weitere Datenquelle. Die Vortragenden zeigten den Mangel an nützlichen Werkzeugen auf, welche in der Lage sind Daten aus solch unterschiedlichen Quellen zusammenzuführen. Die Schlußfolgerung war, dass die DS4DM Erweiterungen für RapidMiner helfen können, diesen Lücke zu füllen und Smart Data Plattformen und Domänen unabhängig realisieren zu können.
Referenz
[1] Realizing Smart Data by automating Tabular Search, Integration and Extraction methods, Dr. Edwin Yaqub, Philipp Schlunder, David Arnu und Ralf Klinkenberg