VIVO-Handbuch/Daten strukturieren/Open Refine/Allgemeines

Aus Handbuch.io


Kontributoren: N.N.
Stand: 27.02.2015


Allgemeines

Bei Open Refine handelt es sich um die früher unter dem Namen Google Refine firmierende Open Source Software, die seit dem 02.10.2012 nicht mehr von Google unterstützt wird, und daher umbenannt wurde. Die Weiterentwicklung von Open Refine haben Freiwillige übernommen. Open Refine ist ein Werkzeug zum Bearbeiten von Daten, insbesondere von großen Datenmengen. Mögliche Arbeiten sind das Beseitigen überflüssiger Einträge, Neustrukturierung der Daten, die Anreicherung mit weiteren Informationen oder auch die Verknüpfung mit Datenbanken.[1][2]

Im DERI[3] der NUIG[4] wurde eine Erweiterung für Open Refine programmiert, die es ermöglicht die Datensätze mit dem RDF[5] zu bearbeiten. Bei RDF handelt es ich um den technischen Standard, der vom W3C[6] konzipiert wurde, um es zu ermöglichen, logische Aussagen über Dinge (Ressourcen) zu machen.[7] Die Erweiterung nennt sich GRefine RDF Extension und ist insbesondere dazu gedacht, die Daten mit SPARQL-Endpoints und RDF-Dumps abzugleichen, im Internet nach RDF-Datensätzen zu suchen, die zu dem eigenen passen und bietet eine grafische Benutzeroberfläche, die den Export der Daten erleichtert.[8]

Starten der Anwendung

Abb. 1: Terminalfenster
Nach der Installation von Open Refine genügt der bekannte Doppelklick auf die google-refine.exe zum Starten der Anwendung. Nach der Initialisierung werden zwei Fenster geöffnet:

1. Das Terminalfenster, das Hinweise auf mögliche Fehler geben kann, da hier alle Aktionen im Zusammenhang mit den Java-Bibliotheken der Anwendung dargestellt werden (siehe Abbildung 1), und 2. der Webbrowser in dem auch alle Interaktionen mit Open Refine stattfinden.



Abb. 2: Projekterstellung aus Datei
Der Webbrowser öffnet die IP-Adresse 127.0.0.1[9] im Port 3333[10] und zeigt beim Aufruf immer den Menüpunkt Create Project mit dem Untermenüpunkt This Computer (siehe Abbildung 2).







Abb. 3: Projekterstellung von einer URL mit Beispieladresse
Hier kann, sofern vorhanden, eine auf dem System befindliche Datei in die Anwendung geladen werden. Die unterstützten Datentypen gibt Open Refine an. Eine weitere Möglichkeit Daten in die Anwendung zu laden ist über die Angabe einer Internetadresse (URL). In Abbildung 3 ist dies mit den diesem Dokument zugrunde liegendem Datensatz dargestellt.







Einzelnachweise

  1. vgl. http://openrefine.org/
  2. vgl. http://openrefine.org/2013/10/12/openrefine-history.html
  3. Digital Enterprise Research Institute; https://www.deri.ie/
  4. National University of Ireland, Galway; https://www.nuigalway.ie/
  5. Resource Description Framework; http://www.w3.org/TR/WD-rdf-syntax-971002/
  6. World Wide Web Consortium; http://www.w3.org/
  7. vgl. https://de.wikipedia.org/wiki/Resource_Description_Framework
  8. vgl. http://refine.deri.ie/
  9. Hierbei handelt es sich um den localhost, also das physische Gerät an dem man gerade arbeitet.
  10. Dies ist der Port Network Caller ID.