Das Web als neue Datenquelle für RapidMiner

Tabellen suchen und abfragen mit Google

Veröffentlicht von Edwin Yaqub (RapidMiner) am 3.11.2017

Neue Versionen der Data Search for Data Mining und Web Tables Extraction Erweiterung sind auf dem RapidMiner Marktplatz verfügbar. Die Data Search Erweiterung umfasst einen neuen Operator "Google Table Search" der eine Schlagwortsuche auf dem "Web Table" Index von Google durchführt. Dieser Index umfasst mehrere Millionen von öffentlichen HTML Datentabellen. Zusätzlich ist der Zugriff auf die "Fusion Tables" von Google möglich, die weitere Millionen von HTML Datentabellen indizieren, welche über den gleichnamigen Service von Google veröffentlicht wurden.

Der Operator erzeugt eine Liste mit URLs, welche die HTML Tabellen enthalten. Diese Liste kann mit Hilfe des "Read HTML Tables" Operator weiter verarbeitet werden. Dieser wandelt die Tabellen in das normale Datenformat von RapidMiner, ein ExampleSet, um. Neben anderen Zwecken können die gefunden Daten dazu genutzt werden um einen neuen Dokumentenkorpus zu erstellen oder um einen bestehenden Korpus zu erweitern. Eine ausführliche Dokumentation findet sich in der Rapidminer Community in diesem Blog Post (Veröffentlicht am 3. November 2017).