Published: 16. Juli, 2012 CONTENT NUTZUNG: CC BY-NC-SA 3.0

Datenbereinigung ohne die Transponier Funktion – ausgeschlossen. Die Vorzüge dieser Funktion will ich an einem Beispiel illustrieren. Hierfür benutze ich einen manipulierten Datensatz mit zwei Spalten. Während die Spalte mit der Bezeichnung “Name” nur ein Element enthält, weist die Spalte mit dem Namen “Sportabzeichen” mindestens zwei Elemente auf.

Zielsetzung: Ich will zunächst die Elemente aus der Spalte “Sportabzeichen” auf mehrere Spalten aufsplitten und anschließend wieder auf die zwei Ausgangsspalten reduzieren. Somit kann ich dann anhand der Spalte “Sportabzeichen” saubere Cluster bilden. Nachdem clustern kann ich beispielsweise nur die Personen betrachten, die das Sportabzeichen Seepferdchen besitzen (Nina, Max, Anna, Elisa, August).

OpenRefine

Und so gehts – ich wähle aus dem Dropdown Menü der Spalte “Sportabzeichen” die Option Edit column und anschließend die Auswahl Split into several columns aus.

OpenRefine

Ein neues Menüfenster öffnet sich. OpenRefine soll jetzt alle Elemente (Sportabzeichen) aus den Zellen der Spalte “Sportabzeichen” auf mehrere Spalten aufteilen. Jedes Sportabzeichen ist durch ein Komma getrennt. Dieses Detail mache ich mir zunutze, indem ich das Komma als Trennungsmerkmal definieren by seperator. Um den Datensatz möglichst übersichtlich und sauber zu halten, setze ich noch zwei Häckchen. Was wird passieren? Mit Guess cell type erkennt OpenRefine, ob der neue Zelleninhalt beispielsweise numerischer Art ist. Remove this column entfernt die Ausgangsspalte. Klick auf OK.

OpenRefine

Und so sieht das Zwischenergebnis der Transformation aus.

OpenRefine

Nachdem die Details aus der Spalte “Sportabzeichen” auf mehrere Spalten aufgeteilt wurden, kommt nun die Transponier Funktion zum Einsatz. Ich wähle aus dem Dropdown Menü der Spalte “Name” die Option Transponse und anschließend die Auswahl Transponse cells across columns into rows aus.

OpenRefine

Eine neue Eingabemaske öffnet sich. Um alle vier Spalten (Sportabzeichen) zusammenzuführen, gehe ich folgt vor: Ich wähle zunächst die Spalte “Sportabzeichen 1” und dann die Spalte “Sportabzeichen 4” aus. Dann markiere ich den Menüpukt One column und definiere den Namen für die neue/alte Spalte “Sportabzeichen“. Zu guter Letzt setzte ich noch zwei Häckchen, um leere Zellen bei der Transformation zu ignorieren Ignore blank cells und die vier Spalten zu einer zusammenzufassen Fill down in other columns. Klick auf OK.

OpenRefine

Und so sieht das Ergebnis aus. Nun kann ich über die Facet Funktion meine Clusterung vornehmen.

OpenRefine