VIVO-Handbuch/ Druckversion

Aus Handbuch.io

VIVO-Handbuch

Inhaltsverzeichnis


Nutzung

Stand: 28.04.2015

VIVO bietet allerhand Möglichkeiten zur Datenstrukturierung und Veröffentlichung. Für die eigene Implementierung sollte zum einen überlegt werden, was VIVO leisten kann und wofür es sich nicht eignet, zum anderen, welche Anforderungen für die eigene Institution benötigt werden. Im Folgenden werden die Aufgabenbereiche von VIVO kurz zusammengefasst und auf ausführlichere Erläuterungen im Duraspace-Wiki verwiesen, woher die Informationen zu dieser Zusammenfassung stammen.

Um VIVO grundsätzlich kennen zu lernen, gibt es auf Duraspace eine „Short Tour“ über VIVO mit allen grundlegenden Informationen(englisch).

Beispiele von schon implementierten VIVOs sind in der Duraspace „Short Tour“ unter „VIVO in production“ zu finden.

Was ist VIVO?

  • VIVO ist eine Open-Source Software, welche die Möglichkeit zur Vernetzung durch Open Linked Data bietet und laut der BSD-Lizenz verändert werden darf[1]
  • VIVO ist ein Semantic Web Tool[2] für wissenschaftliche Recherche und Vernetzung zwischen Forschern; VIVO arbeitet dabei mit sogenannten Tripeln, welche aus Subjekt – Prädikat – Objekt bestehen
  • VIVO ist ein Forschungsinformationssystem
  • VIVO ist eine Hochschulbibliographie
  • VIVO ist eine Ontologie für Organisationen im wissenschaftlichen Bereich
  • VIVO ist eine Community für Wissenschaftler[3]
  • VIVO bietet öffentliche Information und recherchierbare Daten durch einheitliches RDF-Format[4]

Was ist VIVO nicht?[5]

  • Aufzeichnungssystem
  • Ort um sensible Daten zu speichern: alle Daten sind öffentlich zugänglich
  • Archiv: Fokus liegt auf aktuellen Informationen
  • VIVO sollte mit anderen Informationsdiensten verknüpft werden, um optimal genutzt werden zu können[6]

Was unterscheidet VIVO von anderen Systemen?

  • VIVO verknüpft die enthaltenen Datensätze zu einem Wissensnetz, in dem Personen, Institute und Publikationen UND deren Beziehungen zueinander explizit dargestellt werden, auch graphisch[7]
  • Die Daten sind strukturiert und durch Verlinkungen miteinander verknüpft

Was bietet VIVO?

  • Eine dezentralisierte Infrastruktur mit lokaler Kontrolle über die herausgegebenen Informationen[8]
  • Die Möglichkeit, besser im Web gefunden werden sowie Kooperationspartner, Förderer und andere interessierte Wissenschaftler zu finden
  • Durch VIVO kann innerhalb der Institution leichter der richtige Ansprechpartner gefunden werden (Für Wissenschaftler, Studenten, Bibliothekare etc.)
  • Die wissenschaftliche Arbeit wird sichtbarer, Personen können für sich werben
  • Automatische Ergänzung von Informationen aus vertrauenswürdigen Quellen[9]
  • Einfachere Suche durch kontrolliertes Vokabular[10]
  • Die oben genannten sowie weitere Beispiele von Vorteilen sind unter VIVO Benefits auffindbar

Wie soll VIVO genutzt werden?

VIVO kann also Informationen der Institution sichtbar und zugänglich machen, Verknüpfungen zwischen Forschern, ihren Publikationen und Institutionen herstellen und somit die Kommunikation in einer Fachdisziplin erleichtern beziehungsweise Publikationen zugänglich machen.

Um nun festzulegen, welche Schwerpunkte bei VIVO für die eigene Institution am wichtigsten sind, bieten sich folgende Fragen an:

  • Wer sind die Nutzer des institutionellen VIVOs? Wissenschaftler, Professoren, Studenten, Bibliothekare?
  • Sollen in VIVO auch Publikationen gespeichert und zugänglich gemacht werden?
  • Geht es eher um die Verknüpfung von Informationen innerhalb der eigenen Organisation oder eher um die Beziehung zu anderen Organisationen?
  • Welche Daten sollen eingespielt werden? Nur Personen, einzelne Bereiche der Institution, Veröffentlichungen oder Vorträge?

Anhand dieser Fragen sollte ein Konzept für das geplante VIVO erstellt werden.

Beispiel TIB Hannover

Bei der TIB Hannover, einer Bibliothek, steht einerseits die Zugänglichkeit der Daten zu einzelnen Personen/Ansprechpartnern im Vordergrund, andererseits die Veröffentlichung von internen Publikationen. Durch VIVO sind die in der Organisation vorhanden Informationen zentral gebündelt und durch die Ontologie miteinander verknüpft worden, um die Beziehungen innerhalb der Bibliothek öffentlich sichtbar zu machen.



Installation

Anpassen von VIVO

Autor: Gabriel Birke

Anpassen von VIVO

Dieses Kapitel erläutert, wie Sie das Aussehen und die Sprach-Dateien von VIVO anpassen.

Grundsätzlich nehmen Sie sämtliche Änderungen auf dem Server im Quellcode-Ordner (im folgenden VIVO-Ordner genannt) vor und rufen dann auf der Kommandozeile des Servers das Built-Tool Ant auf. Dieses Tool kopiert dann die Dateien in den richtigen Ordner für den Tomcat-Webserver.

Aussehen verändern

Das Aussehen von VIVO wird über sog. "themes" bestimmt. Ein Theme besteht aus

  • HTML-Templates, die das HTML-Grundgerüst der Seite bilden. Die Templates sind in der Template-Sprache Freemarker gehalten und haben die Endung .ftl Diese Dateien müssen nur geändert werden, wenn andere Inhalte auf den VIVO-Seiten zu sehen sein sollen. Die Templates im Theme-Ordner sind eher allgemein gehaltene Layout-Templates. Um das Aussehen spezifischer Seiten und Funktionen zu bearbeiten, müssen Sie ggf. Templates aus folgenden Ordnern in den neuen Theme-Ordner kopieren: Vitro/webapp/web/templates/freemarker, VIVO/productMods/templates/freemarker.

Beispiel: Die verschiedenen Kästen und Statistiken auf der Startseite sind im Template VIVO/productMods/templates/freemarker/lib/lib-home-page.ftl codiert. Kopieren Sie das Template in den templates-Ordner Ihres Themes, um die Kästen anzupassen und/oder neue hinzuzufügen.

  • Übersetzbare Text-Schnipsel (die Templates selbst enthalten nur die Platzhalter für die Text-Schnipsel). Dateiname: all.properties
  • CSS-Dateien zum Styling des HTML
  • Bilder, z.B. für das Logo im Kopfbereich.

Die Themes liegen in eigenen Ordnern im themes-Ordner. Um ein neues Theme zu erstellen, wechseln Sie in den themes-Ordner, kopieren ein bestehendes Theme in einen neuen Ordner und ändern die relevanten Dateien.

Um das neue Theme zu installieren, setzen Sie im VIVO-Ordner folgenden Befehl ab

   ant deploy -Dskiptests=true

und starten danach den Webserver (Tomcat) neu. Melden Sie sich im VIVO mit Administrator-Rechten an und wählen Sie die Links "Site Admin -> Site information". Auf der nun angezeigten Einstellungsseite können Sie das neue Theme auswählen.

Wenn Sie für ein installiertes Theme nur die CSS- und Bilddateien aktualisieren möchten, reicht es aus, den ant Befehl erneut auszuführen, der Webserver muss nicht neu gestartet werden.

Achtung: Da jedes Theme einzeln übersetzt wird, müssen Sie beim Erstellen von Übersetzungen dafür sorgen, dass die Sprach-Dateien (z.B. de_DE_all.properties) und Bilder (z.B. Flaggen) für jedes Theme im i18n-Ordner vorhanden sind. Wenn Sie in Ihrem Theme die Sprach-Datei nicht verändert haben, können Sie den i18n-Ordner des Ursprungs-Ordners einfach duplizieren.

Institutionelle Personen/Organisationen von Co-Autoren und externen Organisationen trennen

Die Listen im VIVO zeigen standardmäßig alle Individuen (Personen/Organisationen/Publikationen) an. Wenn Sie - beispielsweise für ein institutionelles VIVO - zwischen internen und externen Daten unterscheiden möchten, gehen Sie wie folgt vor:

  1. Legen Sie im Bereich "Site Admin -> Ontology list" mit dem Button "Add new Ontology" eine neue Ontologie an. Dabei ist es, wichtig, dass die URL der Ontologie im selben Namensraum wie die Individuen ist! Beispiel: Die Individuen sind im Namensraum http://vivo.mydomain.edu/individual/, die URL der Ontologie muss analog dazu http://vivo.mydomain.edu/ontology/NameDerOntologie sein. Den genauen Namen können Sie auch erfahren, indem Sie vor dem Anlegen der Ontologie den Bereich "Site Admin -> Institutional internal class" auswählen. Wenn noch keine interne Ontologie angelegt ist, wird dann dort die benötigte URL angezeigt.
  2. Nutzen Sie den Button "Hierarchy of Classes Defined in this Ontology" um die (noch leere) Auflistung der Klassen der Ontologie zu sehen.
  3. Wählen Sie den Button "Add New Class" und legen Sie eine neue Klasse an. Diese Klasse wird später zum Kennzeichnen der internen Daten genutzt. Benennen Sie die Klasse entsprechend, z.B. "Internal".
  4. Gehen Sie in den Bereich "Site Admin -> Institutional internal class". Wählen Sie aus der Auswahlliste die im vorigen Schritt angelegte Klasse aus.
  5. Weisen Sie die neue Klasse allen internen Daten zu: Gehen Sie dazu zum jeweiligen Datensatz, wählen Sie "Edit Individual" und auf der folgenden Seite "Add Type".
  6. Gehen Sie in den Bereich "Site Admin -> Page Management". Wählen Sie das "Bearbeiten"-Icon neben der Klasse aus, bei der Sie nur die institutionellen Daten anzeigen lassen möchten.
  7. Wählen Sie das Plus-Zeichen neben der Überschrift "Browse Class Groups" aus - die Liste der angezeigten Klassen wird angezeigt. Kreuzen Sie das Feld "Only display ... within my institution" an und speichern Sie mit den Button "Save this content".

Sprache anpassen und übersetzen

Dieser Absatz gibt nur eine Kurzanleitung. Eine detailliertere (englische) Dokumentation zu den Lokalisierungs-Features von VIVO finden Sie im Duraspace-Artikel "VIVO support for languages other than English".

Neue Übersetzung hinzufügen

Um eine neue Übersetzung für eine Sprache hinzuzufügen, müssen Sie vor der Erst-Installation folgende Veränderungen vornehmen:

  1. Erstellen Sie einen neuen Ordner in languages. Benennen Sie ihn nach dem gewünschten Locale, z.B. de_DE oder de_AT. Kopieren Sie die übersetzten Dateien hinein (Ordnerstruktur beachten).
  2. Ändern Sie in der Datei build.properties die Einstellung languages.addToBuild und fügen Sie das neue Sprachkürzel hinzu. Achten Sie dabei auf Groß- und Kleinschreibung! Wenn Sie mehr als ein Sprachkürzel haben, trennen Sie die Sprachkürzel mit einem Komma.
  3. Ändern Sie im Daten-Verzeichnis von VIVO die Datei runtime.properties die Einstellung languages.selectableLocales und fügen Sie das neue Sprachkürzel hinzu. Achten Sie dabei auf Groß- und Kleinschreibung! Wenn Sie mehr als ein Sprachkürzel haben, trennen Sie die Sprachkürzel mit einem Komma.

Aufbau von Übersetzungen

Eine Übersetzung besteht aus verschiedenen Dateien, die in drei Ordnern abgelegt sind:

  • rdf enthält einzelne RDF-Dateien mit Labels für verschiedene in VIVO verwendete RDF-Klassen und -Properties. Die Übersetzungen sind RDF-Zeichenketten mit einem Sprach-Attribut, das der Locale entspricht. Achten Sie darauf, dass Sprache und Region - anders als beim Ordner-Namen - mit Bindestrich und nicht mit Unterstrich getrennt sind.
  • templates enthält Freemarker-Templates mit längeren Texten, die verschiedene Funktionen von VIVO erklären.
  • themes enthält für jedes Theme einen Ordner mit den Grafiken für die Landes-Flaggen der Locale und einer Datei im Java-Properties-Format, die Übersetzungen für Beschriftungen in der Benutzeroberfläche enthält.

Übersetzungen aktualisieren

Wenn Sie aktiv an einer Übersetzung arbeiten, brauchen Sie die VIVO-Installation nicht jedes Mal neu installieren. Sie können auch die vorhandenen Dateien aktualisieren mit dem Befehl

   ant all -Dskiptests=true

Danach müssen Sie den Anwendungsserver (in den meisten Fällen Apache Tomcat) neu starten und 3-6 Minuten warten bis die Anwendung sich neu initialisiert hat.

Dieser Befehl setzt die Änderungen an der properties-Datei sofort um. Um die Änderungen an Übersetzungen, die im RDF vorgenommen wurden, sichtbar zu machen, müssen Sie vor dem Ausführen des ant Befehls noch folgende Schritte als Administrator in der VIVO-Oberfläche vornehmen:

  1. Gehen Sie zu "Site Administration -> Ingest Tools -> Mana Jena Models".
  2. Wählen Sie bei Bedarf im Kopf der Seite "Main Store Models" (ist standardmäßig ausgewählt).
  3. Suchen Sie das Modell "http://vitro.mannlib.cornell.edu/default/vitro-kb-applicationMetadata" und wählen Sie "clear statements".
  4. Wählen Sie im Kopf der Seite "Configuration Models" (ist standardmäßig ausgewählt).
  5. Suchen Sie das Modell "http://vitro.mannlib.cornell.edu/default/vitro-kb-displayMetadata" und wählen Sie "clear statements".
  6. Starten Sie den Webserver (Tomcat) neu. Der Neustart dauert ca. 10 Minuten.

Anpassungen separat vom VIVO-Quellcode halten

Die oben beschriebenen Änderungen können Sie direkt in den Ordnern themes und languages von VIVO vornehmen. Um Ihre Änderungen klarer vom Original-Quellcode zu trennen, können Sie eine "Drei Schichten Installation" vornehmen, bei der VIVO und Vitro (die Grund-Anwendung, auf der VIVO aufbaut), in Unterordnern unterhalb Ihrer eigenen Ordner-Struktur liegen. Eine genaue (englische) Anleitung dazu finden Sie im Duraspace-Artikel "Building VIVO in 3 tiers".

Übersetzung von VIVO


Stand: 05.05.2015

VIVO-Übersetzung

Um VIVO in der eigenen Landessprache benutzen zu können, muss das zugehörige Vokabular übersetzt und in die Software eingepflegt werden.

  1. Zunächst wird das zu VIVO zugehörige Vokabular in einem Dokument tabellarisch aufgelistet. In der ersten Spalte steht der englische Originalbegriff, in der zweiten Spalte wird die Übersetzung eingetragen. Als Programm bietet sich Google Docs an, da dort die Möglichkeit besteht, mit mehreren Personen an einem Dokument zu arbeiten sowie die vorgeschlagenen Übersetzungen zu kommentieren und zu diskutieren, bis sich auf einen Begriff geeinigt wird. Dieses Wort wird am besten in einer eigenen Farbe markiert, um die festgelegten Begriffe von den noch nicht beschlossenen Übersetzungen zu unterscheiden.
  2. Nun wird das fertige Google-Dokument mit der internen VIVO-Sprachdatei verglichen. Dafür wird die VIVO-Sprachdatei als Kopie in Github gespeichert, um sie dort zu bearbeiten. Der in der VIVO-Sprachdatei vorhandene, englische Begriff wird dann im GoogleDocs-Dokument gesucht. Beim Aufrufen des englischen Begriffes im Google-Dokument kopiert man die zugehörige Übersetzung des Wortes und überträgt sie in die Sprachdatei, sodass der englische Begriff überschrieben wird. Dies wird mit jedem einzelnen Begriff gemacht, bis alle Wörter übersetzt worden sind. Zwischendurch sollte die Datei gespeichert werden.
  3. Das in Github vorhandene Dokument wird zuletzt in VIVO eingespielt, je nach Wunsch als Paralleldatei, sodass auf die eigene oder englische Sprache gewechselt werden kann, oder als Ersatz zur englischen Version.

Weitere Informationen zur Übersetzung gibt es auf Duraspace, wobei dort beispielhaft mit Google Übersetzer übersetzt wird: https://wiki.duraspace.org/display/VIVO/Updating+language+files+for+the+next+release

Es wird dort auch genauer darauf eingegangen, welche Dateien in VIVO bearbeitet werden und wo diese zu finden sind:

https://wiki.duraspace.org/display/VDOC16/VIVO+in+a+language+other+than+English

Aufbereitung der Quellen

Stand: 12.05.2015


  1. Daten definieren (Welche Daten sollen erhoben werden?)
  2. Daten strukturieren
    1. Beispiel: Excel-Tabellen
    2. RDF-Graphen/ERM-Diagramme

Aufbereitung der Quellen/Daten definieren

Stand: 28.04.2015

Daten definieren

Um Forschungsinformationen in VIVO importieren zu können, wird festgelegt, welche Daten überhaupt in VIVO erfasst werden sollen. Dazu werden zuerst die Items/Gruppen festgelegt, in welche die relevanten Informationen sortiert werden, bevor die Gruppen Eigenschaften zugewiesen bekommen, welche auch in VIVO später erfasst werden.

Festlegung der Items

Die grundlegende Überlegung bei Festlegung der Items in VIVO ist, welche Datengruppen in der eigenen Organisation vorhanden sind. Diese werden in einer Liste mit Namen der Gruppe und allen Quellen, wo Informationen zu der Datengruppe gefunden werden können, zusammengefasst. Wichtig dabei ist, dass keine vorhandene Quelle vergessen wird, damit der Datenstamm später, vollständig ist.

Mögliche Items in Organisationen sind  beispielsweise Mitarbeiter, Organisationsbereiche, Standorte, Publikationen, Projekte usw.

Definition der Eigenschaften einzelner Items

Jedes Item hat verschiedene Eigenschaften oder Werte, die zur genaueren Beschreibung benötigt werden. Diese werden ebenfalls in VIVO erfasst. Aufgrund der vorhandenen Daten,  VIVO-Seiten anderer Institutionen und eigener Überlegungen müssen diese Eigenschaften einem Item zugeordnet werden.

So gehören beispielsweise zum Item „Mitarbeiter“ die Attribute Name, Titel, Kontaktdaten usw.

Weiterhin muss die Beschaffenheit der Eigenschaftswerte beachtet werden. Dabei können folgende Fragen helfen:

·        Handelt es sich um Freitext oder Zahlen?

·        Bei Zahlenwerten: Dürfen diese Zahlen nur bestimmte Werte enthalten (zum Beispiel nur positive Zahlen und keine Dezimalzahlen)?

·        In welchem Format wird ein Datum erfasst?

·        Gibt es nichttextuelle Materialien wie Bilder oder Videos und wie sollen diese erfasst werden?

Wurde sich auf alle vorhandenen Items und deren spezifische Eigenschaften geeinigt, bildet es den Standard zur folgenden Aufbereitung der vorhandenen Dateien.

Aufbereitung der Quellen/Daten strukturieren

Stand: 28.04.2015

Daten strukturieren

Damit die Forschungsdaten problemlos in das VIVO-System überführt werden können, müssen die Informationen (die Items und ihre Eigenschaften) so aufbereitet werden, dass jede einzelne Eigenschaft erkennbar ist und jede Ausprägung eines Items (so zum Beispiel ein Mitarbeiter), nur einmal erfasst wird, um Doppelungen und Fehler beim Datenimport  zu vermeiden.

Es gibt verschiedene Möglichkeiten, die Daten für die Weiterverarbeitung in Open Refine und den Import vorzubereiten. Beispielhaft wird die Möglichkeit erläutert, händisch mit Excel die Daten zu bearbeiten.

Aufbereitung der Quellen/Daten strukturieren/Beispiel: Excel-Tabellen

Stand: 28.04.2015

Beispiel: Excel-Dateien

Der Vorteil der Strukturierung mit Excel liegt in der Tabellenform, wodurch sich einzelne Eigenschaften und Ausprägungen der Items genau trennen lassen. Außerdem sind die vorhandenen Informationen meist schon tabellarisch strukturiert.


Abb. 1: Mögliche Ausprägungen bei Mitarbeitern

Zur besseren Übersicht bietet es sich an, die Excel-Dateien oder einzelnen Tabellen nach ihrem zugehörigen Item zu benennen. Die erste Zeile einer Tabelle zählt alle Attribute/Werte auf, welche ein Item haben kann. Jedes Attribut wird dabei einzeln in eine Spalte eingetragen (vgl. Abb.1). Die folgenden Zeilen werden dann mit den vorhandenen Daten gefüllt, entweder über Copy&Paste oder manuelles Eintragen.



Abb. 2: Formatierungsfehler


Beim Kopieren von Daten aus anderen Tabellen kann es passieren, dass Formatierungen mit übernommen werden und somit sich die Dateien verschieben. Es kann helfen, die kopierten Tabellen zunächst in Word zu importieren und dort so zu bearbeiten, dass die Felder sich in der Excel-Datei nicht mehr verschieben. So kann es von Nöten sein, zusätzliche Spalten in Word hinzuzufügen oder Umbrüche aus der Datei zu entfernen. Bei fehlenden Spalten müssten ansonsten alle Einträge nachträglich in Excel verschoben werden (vor allem bei unterschiedlich erfasstem, vorliegendem Datenmaterial aus verschiedenen Quellen). Umbrüche werden gerne als neue Zeile angesehen, wodurch in Excel sich Zeilen miteinander verbinden. Zur besseren Verarbeitung sollte jedoch eine Expression nur in einer Zeile vorhanden sein, somit werden entweder vorher die Umbrüche entfernt oder nachträglich die verbundenen Zeilen getrennt, alle Werte in die oberste der zugehörigen Zeilen übertragen und die folgenden leeren Zeilen gelöscht (vgl. Abb.2).


Wichtig ist, dass die einzelnen Excel-Dateien, welche überschneidende Werte haben, immer mit den gleichen Beschreibungen arbeiten, damit diese später miteinander vernetzt werden können. Dies erfordert eine genaue Absprache und möglicherweise auch die Entwicklung neuer Attributwerte, welche zuvor noch nicht definiert wurden. Meistens tritt dieses Problem bei der Organisationsstruktur auf, sowohl wenn diese noch nicht gut definiert wurde, als auch wenn die Struktur sich in der Zwischenzeit verändert hat und somit alte und neue Werte in den Quellen vorhanden sind. Dann wird es gegebenenfalls nötig, den aktuellsten Stand der Struktur herauszufinden.

Aufbereitung der Quellen/Daten strukturieren/RDF-Graphen

Übersicht Ontologien

Autor: Niklas Bendixen

Kontributor: Katja Schelper

Übertragung in die VIVO-Ontologie

Die zuvor erstellten RDF-Graphen enthalten die selbst gewählte Terminologie der Organisation, während VIVO ein spezifisches Vokabular benutzt, welches in Duraspace einsehbar ist.

Dadurch ist es nötig, die in der eigenen Terminologie dargestellten Verbindungen auf die VIVO-Ontologie zu übertragen, damit später die vorhandenen Daten (mit den Begriffen der Organisation) in OpenRefine zugeordnet werden können.

Dafür wird geschaut, welcher Term aus der VIVO-Ontologie den gleichen Inhalt beschreibt wie ein Begriff aus der eigenen Beschreibung, und der eigene Begriff durch den von VIVO ersetzt. So wird der Begriff„Person“ in VIVO zu „foaf:person“. Gegebenenfalls muss die Struktur der Graphen ebenfalls angepasst werden, damit diese in die VIVO-Ontologie übertragen werden können. Zur Orientierung können die in Duraspace aufgelisteten Ontologien helfen. Eine weitere Möglichkeit, die helfen kann, ist in einem „TestVIVO“ Datensätze probeweise anzulegen und zu erweitern. Bei Aufruf des Bearbeitungsmodus "Edit this individual" werden die Begriffe der VIVO-Ontologie sichtbar und können übernommen werden.

Ausführlicher ist dieser Ablauf in Duraspace in der "VIVO-ISF ontology documentation" beschrieben.

Weiterführende Links

Source ontologies for VIVO (30.08.2015)


Open Refine


Detaillierte Informationen zu Open Refine befinden sich auf den folgenden Seiten:

  1. Allgemeines
  2. Bearbeiten der Projekteinstellungen
  3. Bearbeiten der Datensätze
  4. Nutzung von Ontologien
  5. Exportieren des RDF-Gerüstes
  6. Reconciliation

Daten strukturieren/Open Refine/Allgemeines


Kontributoren: N.N.
Stand: 27.02.2015


Allgemeines

Bei Open Refine handelt es sich um die früher unter dem Namen Google Refine firmierende Open Source Software, die seit dem 02.10.2012 nicht mehr von Google unterstützt wird, und daher umbenannt wurde. Die Weiterentwicklung von Open Refine haben Freiwillige übernommen. Open Refine ist ein Werkzeug zum Bearbeiten von Daten, insbesondere von großen Datenmengen. Mögliche Arbeiten sind das Beseitigen überflüssiger Einträge, Neustrukturierung der Daten, die Anreicherung mit weiteren Informationen oder auch die Verknüpfung mit Datenbanken.[11][12]

Im DERI[13] der NUIG[14] wurde eine Erweiterung für Open Refine programmiert, die es ermöglicht die Datensätze mit dem RDF[15] zu bearbeiten. Bei RDF handelt es ich um den technischen Standard, der vom W3C[16] konzipiert wurde, um es zu ermöglichen, logische Aussagen über Dinge (Ressourcen) zu machen.[17] Die Erweiterung nennt sich GRefine RDF Extension und ist insbesondere dazu gedacht, die Daten mit SPARQL-Endpoints und RDF-Dumps abzugleichen, im Internet nach RDF-Datensätzen zu suchen, die zu dem eigenen passen und bietet eine grafische Benutzeroberfläche, die den Export der Daten erleichtert.[18]

Starten der Anwendung

Abb. 1: Terminalfenster
Nach der Installation von Open Refine genügt der bekannte Doppelklick auf die google-refine.exe zum Starten der Anwendung. Nach der Initialisierung werden zwei Fenster geöffnet:

1. Das Terminalfenster, das Hinweise auf mögliche Fehler geben kann, da hier alle Aktionen im Zusammenhang mit den Java-Bibliotheken der Anwendung dargestellt werden (siehe Abbildung 1), und 2. der Webbrowser in dem auch alle Interaktionen mit Open Refine stattfinden.



Abb. 2: Projekterstellung aus Datei
Der Webbrowser öffnet die IP-Adresse 127.0.0.1[19] im Port 3333[20] und zeigt beim Aufruf immer den Menüpunkt Create Project mit dem Untermenüpunkt This Computer (siehe Abbildung 2).







Abb. 3: Projekterstellung von einer URL mit Beispieladresse
Hier kann, sofern vorhanden, eine auf dem System befindliche Datei in die Anwendung geladen werden. Die unterstützten Datentypen gibt Open Refine an. Eine weitere Möglichkeit Daten in die Anwendung zu laden ist über die Angabe einer Internetadresse (URL). In Abbildung 3 ist dies mit den diesem Dokument zugrunde liegendem Datensatz dargestellt.







Einzelnachweise


Daten strukturieren/Open Refine/Bearbeiten der Projekteinstellungen


Kontributoren: N.N.
Stand: 27.02.2015


Nach dem Import der Daten werden diese formatiert und dann dargestellt, dies kann etwas dauern je nach Menge der Daten bzw. Größe der Datei (siehe Abbildung 1). Jetzt kann die eigentliche Bearbeitung der Daten beginnen, wobei hier keine abschließende Darstellung erfolgen kann und wird, so dass im Zweifelsfall auf die Dokumentation[21] zugegriffen oder nach einer passenden Fragestellung auf Englisch bei Google[22] gesucht werden muss. Unten links kann ein bläuliches Feld mit der Überschrift Parse data as gesehen werden, in dem ausgewählt wird, welches Format die Ausgangsdatei des Datensatzes hat. Der genutzte Datensatz ist eine Datei mit der Endung CSV[23], so dass hier keinerlei Einstellungen vorgenommen werden müssten. Hinter der Möglichkeit custom können andere genutzte Trennzeichen angegeben werden, wie z.B. ein Semikolon. Auf der rechten Seite sind noch folgende Punkte, die je nach Struktur des Datensatzes von Bedeutung sein können:

  • Ignore First
Anzahl der Zeilen, beginnend bei Zeile 1, die in der Darstellung ignoriert werden sollen und daher gelöscht werden können,
  • Parse next
Anzahl der Zeilen, beginnend bei Zeile 1, die als Spaltenüberschrift genommen werden sollen. Im Beispiel zu sehen als latitude, longitude, kreis_name usw. und
  • Discard Initial
Anzahl der Spalten, beginnend bei Spalte 1, die nicht dargestellt und gelöscht werden sollen.

Auffällig bei diesem Datensatz sind die Schreibweisen in der Spalte gemeindeteil_name, die auf einen Kodierungsfehler[24] hindeuten, der recht häufig vorkommt, wenn Text mit Umlauten bzw. Sonderzeichen genutzt werden. Um dieses zu korrigieren, muss mit dem Mauszeiger in das Feld neben Character encoding geklickt werden, woraufhin ein Auswahlfenster mit den wichtigsten Zeichenkodierungen erscheint (siehe Abbildung 2), von denen UTF-8[25] als erste Wahl ausgewählt werden sollte. Nach der Auswahl sollten die Zeichen der Daten korrekt angezeigt werden (siehe Abbildung 3).

Abschließend kann man den Namen des Projektes oben rechts in einer Eingabemaske noch anpassen (siehe Abbildung 4). Anschließend auf Create Project geklickt und Open Refine führt die Anweisungen aus und öffnet den nächsten Bearbeitungsschritt.





Einzelnachweise


Daten strukturieren/Open Refine/Bearbeiten der Datensätze


Kontributoren: N.N.
Stand: 27.02.2015


Entfernen von Spalten

Um eine Spalte zu entfernen, muss mit der linken Maustaste auf den blauen Pfeil neben dem Spaltennamen geklickt werden. Dadurch öffnet sich ein mehrzeiliges Kontextmenü in dem man auf Edit column klickt und anschließend auf Remove this column(siehe Abbildung 1).

Umbenennen von Spalten

Das Vorgehen zum Umbenennen ist ähnlich, nur das hier im letzten Schritt Rename this column ausgewählt wird (siehe Abbildung 2).

Anzeigen von Zeilen mit definiertem Inhalt

Einzelne Zeilen lassen sich auch eingeschränkt auf den Inhalt von Zellen anzeigen, dies ist z.B. dann nützlich, wenn ein Rechtschreibfehler in einer Spalte der Datensammlung über alle Zeilen hinweg korrigiert werden muss. Hierzu wird der Menüpunkt Facetaufgerufen und dann der jeweils passende Untermenüpunkt, im Beispiel Text facet (siehe Abbildung 3). Auf die Spalte Straßennamen angewandt, erscheinen nun alle Werte dieser Spalte unter dem Reiter Facet / Filter auf der linken Seite der Anwendung. Die graue Zahl hinter den Spaltenwerten gibt an, wie oft dieser Wert insgesamt vorkommt (siehe Abbildung 4). Um jetzt nur einen Wert anzeigen zu lassen, muss dieser angeklickt werden und anschließend include (siehe Abbildung 5). Daraufhin wird die Anzeige auf die gewählten Zeilen beschränkt. Mittels Klick auf exclude werden die Zeilen mit diesem Wert aus der Anzeige entfernt (siehe Abbildung 6).

Werte in mehreren Zeilen auf einmal ändern

Um nun alle entsprechenden Werte zu verändern, muss links in dem Reiter Facet / Filter auf edit geklickt werden (siehe Abbildung 7), woraufhin sich ein Fenster öffnet, in dem der neue Wert eingegeben werden kann (siehe Abildungen 8 und 9). Nach dem dies durchgeführt wurde, wird in der Übersicht der neue Wert statt des alten angezeigt (siehe Abbildung 10).

Änderungen rückgängig machen

Änderungen, die nicht zu einem gewünschten Ergebnis der sogar zu falschen Angaben im Datensatz geführt haben, lassen sich einfach rückgängig machen. Neben dem Reiter Facet / Filter gibt es den Reiter Undo / Redo (siehe Abbildung 11), welcher hierfür angeklickt werden muss, woraufhin sich eine Liste mit allen am Datensatz durchgeführten Änderungen öffnet (siehe Abbildung 12).


Daten strukturieren/Open Refine/Nutzung von Ontologien


Kontributoren: N.N.
Stand: 27.02.2015


Verwalten von Ontologien

Um effektiv mit diesem Bereich von Google Refine arbeiten zu können, empfiehlt es sich, den Datensatz genau angesehen zu haben und sich anschließend Gedanken gemacht zu haben, welche Ontologien[26] gebraucht werden. Grundsätzlich verfügbar sind die Ontologien RDFS[27], FOAF[28], XSD[29], OWL[30] und RDF, welche häufig nicht ausreichen, um einen Datensatz angemessen beschreiben zu können. Um weitere Ontologien verfügbar zu machen, gibt es zwei Möglichkeiten. Entweder man klickt in der blauen Zeile mit der Bezeichnung Available Prefixes direkt auf auf das Plus-Zeichen mit add prefix dahinter geschrieben oder auf das Zahnrad mit manage prefixes und anschließend auf Add Prefix. Bei letzterer Möglichkeit öffnet sich eine Übersicht über die verfügbaren Ontologien mit Präfixen und URIs, sowie den Möglichkeiten die Ontologien zu löschen (Delete) oder neu zu laden (Refresh') (siehe Abbildung 1). Nach dem Klick auf add prefix öffnet sich ein neues Fenster mit der Überschrift New Prefix und den entsprechenden Eingabemöglichkeiten (siehe Abbildung 2).

Das Hinzufügen bekannter Ontologien ist sehr einfach, da einfach nur das bekannte Präfix eingetragen werden muss (siehe Abbildung 3) und Open Refine fügt die passende URI[31] automatisch hinzu (siehe Abbildung 4). Bei neuen Ontologien muss die URI selbst eingetragen werden. Abschließend auf OK klicken und Open Refine versucht die Ontologie zu importieren (siehe Abbildung 5). Die hinzugefügten Ontologien werden ebenfalls in der blauen Zeile mit ihren Präfixen angezeigt (siehe Abbildung 6).

Tripel definieren

Zuerst muss ein Wurzelknoten definiert werden, Open Refine gibt immer die erste Spalte, normalerweise die Nummerierung, vor; mittels Add another rood node ließe sich dies jedoch ändern bzw. weitere Wurzelknoten erstellen. Das erste Tripel wird die Typendeklaration des Wurzelknoten, welche vorgenommen werden kann, nachdem man auf add rdf:typ geklickt hat (siehe Abbildung 7).

Nach dem Klick öffnet sich ein Fenster in dem man nach den Klassen suchen kann (siehe Abbildung 8). Da hier nur Klassen aus den Ontologien angezeigt werden, die auch hinzugefügt wurden, empfiehlt es sich, sich vorher Gedanken über die notwendigen Ontologien gemacht zu haben (vgl. Verwalten von Ontologien).

Bei der Suche nach Klassen bieten sich zwei Vorgehensweisen an. Entweder gibt man das Präfix einer Ontologie ein und sucht dann in den Klassen dieser Ontologie nach einer passenden (siehe Abbildung 9) oder man gibt Zeichenkombinationen einer möglichen Klassenbezeichnung ein und schaut ob es diese gibt bzw. ob sie passend wäre (siehe Abbildung 10).

Nach der Auswahl einer Klasse wird diese im RDF-Gerüst angezeigt. Es lassen sich auch mehrere Klassen zuordnen (siehe Abbildung 11).

Klickt man nun auf den Reiter RDF Preview welcher sich rechts des Reiters RDF Skeleton befindet, gelangt man zu einer Vorschauansicht bei der alle bisher definierten Daten in Turtle[32] angezeigt. Die Angaben beginnen immer mit der Auflistung der hinzugefügten Ontologien (siehe Abbildung 12).

Das Vorgehen bei den Propertys ist genauso, nur das hier für das Hinzufügen auf add property geklickt werden muss. Da Open Refine von sich aus eine Spalte für Propertys und die dazugehörigen Objekte anlegt (siehe Abbildung 13), müssen theoretisch nur die passenden Propertys bzw. Klassen definiert werden. Nach dem eine Property definiert wurde, lassen sich weitere nach einem Klick auf add property hinzufügen (siehe Abbildung 11). Nach dem dies für alle Spalten durchgeführt wurde, wird die Vorschau unter RDF Preview entsprechend aktualisiert und könnte dann wie in Abbildung 14 aussehen.

Daten mit Ontologien verknüpfen

Um das RDF-Gerüst anpassen zu können, muss dieses zuerst ausgewählt werden. Hierzu wird oben rechts in der Anwendung auf den grauen Schalter RDF geklickt und in dem sich öffnenden Menü auf Edit RDF Skeleton... (siehe Abbildung 15). Im Anschluss öffnet sich das RDF Schema Alignment Fenster (siehe Abbildung 16).





Einzelnachweise


Daten strukturieren/Open Refine/Exportieren des RDF-Gerüstes


Kontributoren: N.N.
Stand: 27.02.2015


Vor dem Exportieren muss das RDF-Gerüst nach einem Klick auf save geschlossen werden. Anschließend ein Klick auf den grauen Button Export oben rechts in der Anwendung zwischen den Buttons Open... und Help (siehe Abbildung 1). Hierauf öffnet sich ein Kontextmenü, das einem mehrere Möglichkeiten für den Export von Daten des Projekts zur Verfügung stellt. Für den Export des RDF-Gerüstes sind die beiden letzten Möglichkeiten RDF as RDF/XML (siehe Abbildung 2) bzw. RDF as Turtle (siehe Abbildung 3) relevant. Die Dateien werden als *.rdf bzw *.ttl gespeichert und können dann in andere Anwendungen (z.B. das FIS[33] VIVO) eingelesen werden.

Je nach gewähltem Export-Format variieren die Ansichten, wenn man die Dateien öffnet (siehe Abbildungen 4 und 5).





Einzelnachweise


Open Refine/Reconciliation

Import in VIVO


Stand: 28.04.2015

Um Daten in VIVO einzupflegen, gibt es zwei verschiedene Möglichkeiten, den manuellen Datenimport und den automatischen Datenimport.

  1. Manueller Datenimport
  2. Automatischer Datenimport

Import in VIVO/Datenimport

Autoren: Fabian Frank, Cornelius Stöberl

Stand: 28.04.2015

Manueller Datenimport

Auf der VIVO Startseite oben rechts auf Login klicken (Abb. 1).
Anschließend erscheint die Login-Maske, in der die E-Mail Adresse sowie das Passwort eingegeben werden(Abb. 2).
Nach dem Login in das VIVO System erfolgt der manuelle Datenimport über die Site Administration (Reiter rechts oben auf der Startseite Abb. 3).


Hier wählt man aus dem Dropdown-Menü für Data Input eine entsprechende Klasse für den neuen Eintrag aus (Abb. 4 u 5).
Die Auswahl wird mit Klicken auf den “Add individual of this class”-Button bestätigt (Abb. 6).


Im nächsten Schritt wird für den neuen Eintrag ein Name vergeben (Abb. 7).
Durch Anklicken des “Create”-Buttons wird der neue Eintrag angelegt (Abb. 8).
Abb. 9 zeigt die fertig angelegte Profilseite.

Nun können zum angelegten Eintrag zugehörige Attribute manuell hinzugefügt werden. Diese können aus den abgebildeten Reitern ausgewählt werden (Abb. 10).
Durch Anklicken des + Symbols kann ein Attribut hinzugefügt werden (Abb. 11).


Beispielsweise kann man eine Verknüpfung von einem Department zu einer Division über das Attribut Affiliation herstellen. Als Division kann entweder eine bereits im VIVO vorhandener Eintrag dieser Klasse ausgewählt werden oder ein neuer Eintrag dieses Typs erstellt werden (Abb. 12, 13, 15).


Soll ein bereits vorhandender Eintrag mit dem neu erstellten verknüpft werden, so wählt man diesen aus dem Dropdown-Menü aus und bestätigt die Auswahl durch Klicken auf den “Select existing”-Button. Möchte man einen neuen Eintrag anlegen, muss zunächst wieder der Klassentyp ausgewählt werden und anschließend ein Name für den neuen Eintrag vergeben und mit dem “Create”-Button bestätigt werden (Abb. 17, 18, 19).

Die neu angelegte Division erscheint dann unter dem Reiter Affiliation. Das zuvor angelegte Department ist Teil dieser Division (organization within) (Abb. 16).

Editieren in VIVO

Editieren in VIVO/Anlegen neuer Datensätze

Editieren in VIVO/Verknüpfungen zwischen Datensätzen

Editieren in VIVO/Bearbeiten vorhandener Datensätze

Editieren in VIVO/Eigenes Profil editieren

Autor: Marie Reiss

Kontributoren: Katja Schelper, Katja Rüttger

Stand: 12.05.2015

How to: Eigenes Profil in VIVO editieren

Diese Kurzbeschreibung zeigt, wie das eigene Profil in VIVO bearbeitet werden kann, ohne dass andere Profile mit bearbeitet werden.


Abbildung 1


Im ersten Schritt wird oben rechts in der Menüleiste das Wahlfehld "Seitenverwaltung" ausgewählt. Klicken Sie nun unter dem Oberpunkt "Site Configuration" die Option "user Accounts" an. Daraufhin legen Sie einen neuen Account an. Hierzu "Add new User Account anklicken. (Vgl. Abb. 1)










Abbildung 2











Tragen Sie Ihre persönlichen Daten ein und wählen Sie unter dem Oberbegriff "Rolle" das Feld "Self Editor" aus. Somit geben Sie an, dass nur Sie persönlich ihr Profil editieren können. Klicken Sie anschließend auf "Add new account" um den Vorgang abzuschließen. (Vgl. Abb.2)





Abbildung 3
Abbildung 4
















Gehen Sie zurück in die Seitenverwaltung und klicken sie auf "Menue profile editing", dieser Punkt befindet sich in der Rubrik "Site Configuration". Geben Sie Ihren Namen in den Spalten "Select editor" +und "Select profile" und beenden Sie ihre Aktion durch das Klicken auf "save". (Vgl. Abb.3 u. Abb. 4)

Editieren in VIVO als Nutzer

Weiterführende Literatur

Hier werden nach Durchsicht der Daten Links zu den einzelnen Themenbereichen der Zotero-Gruppe eingefügt werden.


Auflistung von Quellen aus dem Internet.

Abkürzungsliste

Autor: Niklas Bendixen
Kontributoren: N.N.
Stand: 12.03.2015


B

BIBO
Bibliographic Ontology

C

C4O
Citation Counting and Context Characterization Ontology
CITO
Citation Typing Ontology

D

DC
Dublin Core
DTD
Dokumenttypdefinition

F

FABIO
FRBR-Aligned Bibliographic Ontology
FOAF
Friend Of A Friend Ontology
FRBR
Functional Requirements for Bibliographic Records

J

JSON
JavaScript Object Notation

L

LOD
Linked Open Data

N

N3
Notation 3

O

OBO
Open Biomedical Ontologies
OCRe
Ontology of Clinical Research
ORG
Core Organization Ontology
OWL
Web Ontology Language

R

RDF
Resource Description Framework
RDFa
RDF in Attributes
RDFS
Resource Description Framework Schema
ReqIF
Requirements Interchange Format
RIF
Requirements Interchange Format

S

SKOS
Simple Knowledge Organisation System Ontology
SKOS-XL
SKOS eXtension for Labels
SPARQL
SPARQL Protocol And RDF Query Language

U

UMLS
Unified Medical Language System Ontology
URI
Uniform Resource Identifier
URL
Uniform Resource Locator

W

W3C
World Wide Web Consortium

X

XML
Extensible Markup Language
XSD
XML Schema Definition


FAQ

Einzelnachweise

  1. What is VIVO? Online Verfügbar unter:https://wiki.duraspace.org/pages/viewpage.action?pageId=34657287. Abgerufen am 28.4.15
  2. VIVO. Online verfügbar unter: https://wiki.duraspace.org/display/VIVO/VIVO. Abgerufen am 28.04.2015
  3. VIVO Overview. Online verfügbar unter: https://wiki.duraspace.org/display/VIVO/Short+Tour%3A+VIVO+Overview. Abgerufen am 28.04.2015
  4. What is VIVO? Online verfügbar unter:https://wiki.duraspace.org/pages/viewpage.action?pageId=34657287. Abgerufen am 28.04.2015
  5. What VIVO is and what it's not. Online verfügbar unter:https://wiki.duraspace.org/display/VIVO/What+VIVO+Is+and+What+It%27s+Not. Abgerufen am 28.04.2015
  6. VIVO in an information ecosystem. Online verfügbar unter: https://wiki.duraspace.org/display/VIVO/Short+Tour%3A+VIVO+in+an+information+ecosystem. Abgerufen am 28.04.2015
  7. What's different about VIVO? Online verfügbar unter: https://wiki.duraspace.org/pages/viewpage.action?pageId=34657303. Abgerufen am 28.04.2015
  8. What's VIVO? Online verfügbar unter:https://wiki.duraspace.org/pages/viewpage.action?pageId=34657287. Abgerufen am 28.04.2015
  9. VIVO FAQs. Online verfügbar unter:https://wiki.duraspace.org/display/VIVO/VIVO+FAQs. Abgerufen am 28.04.2015
  10. VIVO FAQs. Online verfügbar unter:https://wiki.duraspace.org/display/VIVO/VIVO+FAQs. Abgerufen am 28.04.2015
  11. vgl. http://openrefine.org/
  12. vgl. http://openrefine.org/2013/10/12/openrefine-history.html
  13. Digital Enterprise Research Institute; https://www.deri.ie/
  14. National University of Ireland, Galway; https://www.nuigalway.ie/
  15. Resource Description Framework; http://www.w3.org/TR/WD-rdf-syntax-971002/
  16. World Wide Web Consortium; http://www.w3.org/
  17. vgl. https://de.wikipedia.org/wiki/Resource_Description_Framework
  18. vgl. http://refine.deri.ie/
  19. Hierbei handelt es sich um den localhost, also das physische Gerät an dem man gerade arbeitet.
  20. Dies ist der Port Network Caller ID.
  21. http://openrefine.org/documentation.html
  22. http://www.google.de
  23. Comma-separated values (auch Character-separated values)
  24. https://de.wikipedia.org/wiki/Zeichenkodierung
  25. https://de.wikipedia.org/wiki/Unicode_Transformation_Format
  26. https://de.wikipedia.org/wiki/Ontologie_(Informatik)
  27. Resource Description Framework Schema; http://de.wikipedia.org/wiki/RDF-Schema
  28. Friend of a Friend; http://de.wikipedia.org/wiki/FOAF
  29. XML Schema Definition; http://de.wikipedia.org/wiki/XML_Schema
  30. Web Ontology Language; http://de.wikipedia.org/wiki/Web_Ontology_Language
  31. Uniform Resource Identifier; http://de.wikipedia.org/wiki/Uniform_Resource_Identifier
  32. Turtle ist eine Serialisierung von RDF-Graphen, vgl. hierzu https://de.wikipedia.org/wiki/Turtle_(Syntax)
  33. Forschungsinformationssystem; http://de.wikipedia.org/wiki/Forschungsinformationssystem