VIVO-Handbuch/Daten strukturieren/Open Refine/Bearbeiten der Projekteinstellungen

Aus Handbuch.io


Kontributoren: N.N.
Stand: 27.02.2015


Nach dem Import der Daten werden diese formatiert und dann dargestellt, dies kann etwas dauern je nach Menge der Daten bzw. Größe der Datei (siehe Abbildung 1). Jetzt kann die eigentliche Bearbeitung der Daten beginnen, wobei hier keine abschließende Darstellung erfolgen kann und wird, so dass im Zweifelsfall auf die Dokumentation[1] zugegriffen oder nach einer passenden Fragestellung auf Englisch bei Google[2] gesucht werden muss. Unten links kann ein bläuliches Feld mit der Überschrift Parse data as gesehen werden, in dem ausgewählt wird, welches Format die Ausgangsdatei des Datensatzes hat. Der genutzte Datensatz ist eine Datei mit der Endung CSV[3], so dass hier keinerlei Einstellungen vorgenommen werden müssten. Hinter der Möglichkeit custom können andere genutzte Trennzeichen angegeben werden, wie z.B. ein Semikolon. Auf der rechten Seite sind noch folgende Punkte, die je nach Struktur des Datensatzes von Bedeutung sein können:

  • Ignore First
Anzahl der Zeilen, beginnend bei Zeile 1, die in der Darstellung ignoriert werden sollen und daher gelöscht werden können,
  • Parse next
Anzahl der Zeilen, beginnend bei Zeile 1, die als Spaltenüberschrift genommen werden sollen. Im Beispiel zu sehen als latitude, longitude, kreis_name usw. und
  • Discard Initial
Anzahl der Spalten, beginnend bei Spalte 1, die nicht dargestellt und gelöscht werden sollen.

Auffällig bei diesem Datensatz sind die Schreibweisen in der Spalte gemeindeteil_name, die auf einen Kodierungsfehler[4] hindeuten, der recht häufig vorkommt, wenn Text mit Umlauten bzw. Sonderzeichen genutzt werden. Um dieses zu korrigieren, muss mit dem Mauszeiger in das Feld neben Character encoding geklickt werden, woraufhin ein Auswahlfenster mit den wichtigsten Zeichenkodierungen erscheint (siehe Abbildung 2), von denen UTF-8[5] als erste Wahl ausgewählt werden sollte. Nach der Auswahl sollten die Zeichen der Daten korrekt angezeigt werden (siehe Abbildung 3).

Abschließend kann man den Namen des Projektes oben rechts in einer Eingabemaske noch anpassen (siehe Abbildung 4). Anschließend auf Create Project geklickt und Open Refine führt die Anweisungen aus und öffnet den nächsten Bearbeitungsschritt.





Einzelnachweise

  1. http://openrefine.org/documentation.html
  2. http://www.google.de
  3. Comma-separated values (auch Character-separated values)
  4. https://de.wikipedia.org/wiki/Zeichenkodierung
  5. https://de.wikipedia.org/wiki/Unicode_Transformation_Format