Published: 16. Juli, 2012 CONTENT NUTZUNG: CC BY-NC-SA 3.0

Um die Text Facet Funktion von OpenRefine zu demonstrieren, werde ich für diese Übung einen von meinen manipulierten Datensätzen verwenden. Der Datensatz, der Informationen über die Mitglieder des Bundestages (MdB) enthält, kann für diese und weitere Übungen hier heruntergeladen werden. Nachdem ich die Daten importiert habe, wähle ich das Dropdown Menü der Spalte "Bundesland" aus. Dort wähle ich die Auswahloption Facet und anschließend Text Facet aus.

OpenRefine

Auf der linken Seite öffnet sich nun ein Menü. Mit der Text Facet Funktion hat OpenRefine alle Elemente aus der Spalte "Bundesland" zu homogenen Clustern zusammengeführt. Da diese Funktion case-sensitive ist, fasst sie die Cluster "Bayern" und "BAYERN" nicht direkt zusammen. Diese werde ich nun händisch zusammenführen. Wenn man die Maus über die einzelnen Clusternamen bewegt, erscheint am Rand der die Menüauswahl edit und include. Ich wähle die Option edit aus.

OpenRefine

Ein Popup Fenster mit freier Texteingabe öffnet sich. Ich ersetze nun den Begriff "BAYERN" durch den Ausdruck "Bayern" und klicke anschließend auf Apply.

OpenRefine

OpenRefine führt nun automatisch die zwei gleichnamigen Cluster zusammen. Das Ergebnis der erfolgreichen Fusion lässt sich anhand der Anzahl der finalen Zeilen hinter dem Cluster überprüfen. Gehörten vor der Transformation des Clusters "Bayern" 81 Zeilen zum Cluster, sind es nach der Fusion 90 Datenzeilen, da die Datenzeilen des "BAYERN" Clusters hinzugekommen sind.