Die neue Version der RapidMiner-Erweiterung "Web Table Extraction" (Version 1.0.0) wurde auf dem RapidMiner Marketplace veröffentlicht. Diese Version bietet einen neuen Operator namens "Extract Structured Data", der strukturierte Datenelemente aus HTML-Dokumenten extrahiert. Der Operator ist allgemein anwendbar, da er Datenelemente extrahieren kann, die mit schema.org-Mikrodaten oder einfachen HTML-Elementen definiert wurden. Diese HTML-Elemente können anhand von HTML-Attributen oder CSS-Tags identifiziert werden. Die Dokumentation des Operators enthält mehrere Lernprozesse, die die Extraktion von verschiedenen Webseiten veranschaulichen.
Mit dieser neuen Funktion können Benutzer strukturierte Daten mit wenig Aufwand in Data Mining-Prozesse integrieren. Zum Beispiel, können Benutzer jetzt Produktdaten wie Möbel, elektronische Komponenten, Bücher, Nachrichtenartikel, Blogs usw. aus Webshop-Katalogen oder anderen Websites einfacher extrahieren. Diese Daten können zum Training von Analysemodellen für Produktrankings, Preisvorhersagen oder Sentimentanalyse verwendet werden.