Published: 1. September, 2012 CONTENT NUTZUNG: CC BY-NC-SA 3.0

In Rahmen der Datenrecherche wird man nur selten alle notwendigen Information in einem Datensatz finden. Die Datenlage kann schnell unübersichtlich werden, wenn man die Kontrolle über seine Datensätze verliert. Um das Risiko zu reduzieren, empfiehlt es sich die benötigten Information in einem Datensatz zusammenzuführen.

Das Szenario: Zu Beginn meiner Recherche liegt Datensatz 1 vor. Dieser setzt sich aus vier Spalten ("Vorname", "Name", "Alter", "Geschlecht") zusammen. Ergänzende Information ("Wohnort", "Beruf") finde ich in Datensatz 2. Um bei der Analyse nicht ständig zwischen den zwei Datensätzen springen zu müssen, sollen die Information ("Wohnort", "Beruf") aus dem zweiten Datensatz dem ersten hinzugefügt werden.
OpenRefine Wichtiger Hinweis: Die erfolgreiche Datenfusion ist an eine wichtige Bedingung geknüpft. Beide Datensätze müssen über eine Datenspalte verfügen, die identisch ist. Sie bildet die Orientierungsgrundlage für die korrekte Zuordnung der einzelnen Datenzeilen. Für das gewählte Beispiel wäre das die Spalte "Vorname". Anhand dieser Spalte wird OpenRefine die Datenfusion vornehmen. OpenRefine Die einzelnen Schritte: Ich öffne in OpenRefine den Datensatz 1, der in den folgenden Ausführungen als D1 bezeichnet wird. Dort wähle ich zunächst aus dem Dropdown Menü der Spalte "Vorname" die Option Edit column aus und klicke anschließend auf die Option Add column based on this column. OpenRefine Eine neue Eingabemaske öffnet sich. Aus dem Datensatz 2 aka. D2 soll die Datenspalte "Beruf" nach D1 kopiert werden. Als erstes definiere ich den Spaltnamen "Beruf". Dann nutze ich die GREL Syntax, um den Datenfusionsprozess zu definieren.

GREL syntax: cell.cross("D2","Vorname").cells["Beruf"].value[0]

OpenRefine
In der Voransicht lässt sich das Ergebnis der Datenfusion begutachten. Wenn das Ergebnis korrekt ist, genügt ein abschließender Klick auf OK, um die Transformation abzuschließen. Was genau habe ich mit der GREL Syntax gemacht? Ich öffne zuerst den Datensatz D2. Dann definiere ich die Orientierungsgrundlage für die Datenfusion – die Spalte “Vorname“. Abschließend lege ich die zu kopierende Spalte fest – “Beruf“. OpenRefine In der Gegenüberstellung sieht man das Ergebnis der erfolgreichen Datenfusion. Die noch fehlende Datenspalte “Wohnort” würde man gemäß der Anleitung ergänzen. OpenRefine