Was ist Forschungsdatenmanagement

Aus Handbuch.io

Autoren: Kerstin Helbig, Janna Neumann

Definition

Bevor das Thema Forschungsdatenmanagement näher betrachtet werden kann, soll hier zunächst eine Definition des Begriffs gegeben werden. Da das Thema jedoch zum Teil sehr domänenspezifisch/disziplinspezifisch betrachtet werden muss, kann der Begriff grundsätzlich nur relativ allgemein definiert werden. Daher wird hier auf eine übergreifende Definition nach Simukovic, Kindling und Schirmbacher (2013) zurückgegriffen. Darin heißt es, dass Forschungsdatenmanagement "alle Aktivitäten, die mit der Aufbereitung, Speicherung, Archivierung und Veröffentlichung von Forschungsdaten verbunden sind“ beinhaltet (Simukovic, Kindling, Schirmbacher 2013, S. 6 [1]).

Im folgenden werden die verschiedenen Aspekte des Forschungsdatenmanagements in einzelen Unterkapiteln dargestellt. Die Grafik zeigt den allgemeine Zyklus des Forschungsdatenmanagement und die zu betrachtenden Themenfelder.

Abbildung: Forschungsdatenmanagement-Zyklus (Entwurf)

Forschungsdesign

Vor Beginn einer Forschungsarbeit und damit vor der Datenerhebung und/oder -sammlung, sollten Forschende sich Gedanken zu ihrem Forschungsdesign machen. Dazu gehört zum einen die Überlegungen zum Forschungsziel jedoch zum anderen auch die Frage welche Daten im Zuge der wissenschaftlichen Arbeit erhoben und gesammelt werden. Die Motivation für eine Forschungsarbeit bezieht sich grundsätzlich aus dem resultierenden Erkenntnisgewinn der verarbeiteten Daten. Das Forschungsdatenmanagement ist daher nur Mittel zum Zweck, um den Forschungsprozess zu unterstützen. Es bietet sich deshalb an, die Forschungsarbeit so gut wie möglich zu strukturieren und zu dokumentieren. In Form eines Datenmanagementplans (s. a. Kapitel Methoden des Forschungsdatenmanagements) können Fragestellungen und Überlegungen erfasst und in der Regel auch revidiert werden.

Datensammlung und -verarbeitung

In der Datenerhebungs- bzw. Datensammlungsphase spielen vor allem ganz praktische Überlegungen eine Rolle, wie die Datensicherung, Datenstrukturierung und -formatierung (s. a. Abschnitt Sicherung der Daten) aber auch die strikte Dokumentation der Daten. In der Regeln dienen Metadaten zur Dokumentation bzw. Beschreibung der Daten. Wichtig dabei ist, alle Metadaten zu erfassen, die zur (Nach-)Nutzung und Analyse der Daten notwendig sind. Dabei geht es nicht nur darum, Daten für die Nachnutzung durch Dritte aufzubereiten, sondern auch für die eigene Nutzung verfügbar zu halten.

Die Dokumentation von Daten mit Hilfe von Metadaten verschafft sowohl dem Erzeuger als auch dem Nutzer weitere Vorteile. Sobald Daten in einer geeigneten Infrastruktur abgelegt sind, können sie anhand der Metadaten deutlich leichter (wieder-)gefunden werden. Außerdem wird ermöglicht, dass Daten bei Nachnutzung zitierbar sind.

Datenanalyse und Sicherung der Daten

Backup

Bereits während des Arbeitsprozesses sollte ein Backup eingerichtet werden. Die Datenwiederherstellung ist zu Beginn der Forschung sowie in regelmäßigen Abständen zu testen, um einen unerwünschten Datenverlust zu verhindern. Dabei sollten folgende Punkte beachtet werden:

  • Mindestens 3 Kopien einer Datei speichern
  • Auf mindestens 2 unterschiedlichen Speichermedien
  • Wovon mindestens eine Kopie dezentral ist (zum Beispiel auf einem anderen Server)

Sicherung sensibler Daten

Vor allem sensible Forschungsdaten benötigen besonderen Schutz. Mögliche Maßnahmen sind ein separater, abschließbarer Raum, ein abschließbarer Schrank für Datenträger oder Laptop oder ein Diebstahl-Schutz fürs Laptop. Um sensible Forschungsdaten zusätzlich zu schützen, sollten Dateien verschlüsselt werden. Passwörter sind sicher aufzubewahren. Um einen Zugang zu den Daten zu gewährleisten, sollten dennoch mindestens zwei Personen Zugang zu den Forschungsdaten haben.

Dateistrukturierung

Eine klare Struktur der Verzeichnisse und Ordner hilft nicht nur der eigenen besseren Nachvollziehbarkeit nach wenigen Monaten oder Jahren. Vor allem für die Nachnutzung von Forschungsdaten sind sinnvolle Dateinamen und gut organisierte Dateien wichtig. Die Dateiversionen sollten bereits während des Forschungsprozesses kontinuierlich geprüft und verwaltet werden. Vor allem nach der abschließenden Datenanalyse empfiehlt es sich, obsolete Versionen zu separieren. Datums-/Zeitstempel oder eine separate ID (z. B. v1.0.0) für jede Version sind hierfür Beispiele. Spezielle Software kann die Versionsverwaltung unterstützen (bspw. Git u.a.). Für die Benennung von Dateien sollten Konventionen genutzt oder geschaffen werden. Diese Namenskonventionen sowie andere genutzte Abkürzungen sollten dokumentiert werden (s. a. Datenmanagementplan in Kapitel Methoden des Forschungsdatenmanagements).

Beispiele für Namenskonventionen:

[Sediment]_[Probe]_[Instrument]_[YYYYMMDD].dat

[Experiment]_[Reagens]_[Instrument]_[YYYYMMDD].csv

[Experiment]_[Versuchsaufbau]_[Versuchsperson]_[YYYYMMDD].sav

[Beobachtung]_[Ort]_[YYYYMMDD].mp4

Vorschlag zur Versionierung[2]:

1.0.0 Änderung der ersten Stelle, wenn neue Daten hinzukommen (Stichprobe, Welle, Beobachtung)

1.1.0 Änderung der zweiten Stelle, wenn Daten korrigiert werden

1.0.1 Änderung der dritten Stelle, wenn die Datendokumentation verändert oder erweitert wird

Dateiformate

Nach Abschluss der Forschungstätigkeit sollten Dateiformate auf ihre Langlebigkeit überprüft werden. Für eine langfristige Nachnutzbarkeit von Forschungsdaten sollten die Dateien unverschlüsselt, nicht komprimiert, nicht firmeneigen oder patentiert sein und einen offenen, dokumentierten Standard nutzen. Eine Übersicht über Dateiformate und deren Archivierbarkeit bietet die Library of Congress (2015[3]).

Folgende Dateiformate sind empfehlenswert:

  • Tabellendaten: CSV, TSV, SPSS portable
  • Text: TXT, HTML, RTF, PDF/A (nur, wenn Layout von Bedeutung ist)
  • Multimedia: Container: MP4, Ogg; Codec: Theora, Dirac, FLAC
  • Bild: TIFF, JPEG2000, PNG
  • Datenaustausch: XML, RDF, JSON

Zu vermeiden sind die Dateiformate:

  • Tabellendaten: Excel
  • Text: Word, PowerPoint
  • Multimedia: Windows Media Video, QuickTime, H264
  • Bild: GIF, JPG
  • Datenaustausch: SDXF

Teilen der Daten

Es gibt unterschiedliche Möglichkeiten über die genutzten Forschungsdaten zu informieren. Wenn Daten nachgenutzt wurden, sollten diese zitiert werden. Des Weiteren ist es bei einigen Verlagen bereits möglich, die Forschungsdaten gemeinsam mit dem Text einzureichen und verfügbar zu machen. Ein Beispiel hierfür ist die Kooperationen zwischen dem Verlag Elsevier und dem Datenrepositorium Pangaea. Eine eigenständige Einreicherung der Forschungsdaten bei einem Datenarchiv oder Repositorium ist ebenfalls möglich. Vor allem bei sensiblen Daten ist die Nutzung eines Data Journals empfehlenswert, um über die Daten zu informieren. In einem Data Journal werden die Forschungsdaten über einen Text beschrieben sowie mögliche Anwendungsszenarien und Charakteristika skizziert. Einen tieferen Einblick in unterschiedliche Infrastrukturen zum Teilen von Forschungsdaten gibt das Kapitel Methoden des Forschungsdatenmanagements.

Möglichkeiten über genutzte Forschungsdaten zu informieren:

  • Datenzitation
  • Bereitstellung der Daten im Rahmen einer Textpublikation
  • Eigenständige Ablage in einem Datenarchiv oder Repositorium
  • Data Journal

Bei der Verfügbarmachung von Forschungsdaten gibt es verschiedene Abstufungen der Veröffentlichung. Offene Forschungsdaten sind für jeden zugänglich sowie rechtlich, finanziell und technisch uneingeschränkt nutzbar (Open Knowledge Foundation 2016 [4]). Dies ermöglicht unter anderem die Beteiligung von Bürgerinnen und Bürgern in Citizen Science Projekten. Vor allem in wirtschaftsnahen Forschungsdisziplinen ist die Nutzung von Embargos für Forschungsergebnisse üblich. Datenarchive und Repositorien sowie auch Journal Policies haben sich darauf eingestellt und berücksichtigen Embargoperioden von ein bis drei Jahren. Darüber hinaus sind sensible Daten bestimmter Disziplinen auf Zugriffsbeschränkungen angewiesen, um dem Datenschutz gerecht zu werden.

Auch die rechtlichen Aspekte sind bei der Veröffentlichung von Forschungsdaten nicht zu vernachlässigen. Im deutschen Rechtsraum sind daher vor allem folgende Gesetze zu beachten:

  • Gesetz über Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz; UrhG[5])
  • Bundesdatenschutzgesetz (BDSG[6])
  • Richtlinie 96/9/EG des Europäischen Parlaments und des Rates vom 11. März 1996 über den rechtlichen Schutz von Datenbanken[7]

Unterstützung bieten Datenschutzbeauftragte oder Rechtsabteilungen sowie spezialisierte Medienjuristen und -juristinnen. Archiv- und Repositorienbetreiber können ebenfalls in begrenztem Umfang Hinweise geben.

Datenübernahme

Wie funktioniert Ingest? Repository oder Datenarchiv

Ingest

Datenanreicherung und -bereitstellung

Metadaten

Um die Nachnutzung zu erleichtern, sollten Forschungsdaten gut beschrieben und dokumentiert werden. Hierzu sollten wenn möglich standardisierte Metadatenstandards genutzt werden. Darüber hinaus kann eine weitere Dokumentation mittels separater Datei sinnvoll sein. Metadaten sind eine spezifische Untermenge der Dokumentationsangaben und dienen in erster Linie der Findbarkeit der Daten (z. B. Primärforscher, Zeitraum, Ort). Eine Dokumentation hingegen geht über die Beschreibung durch Metadaten hinaus und ist wesentlich ausführlicher (bspw. Beschreibung des Projekts, der Variablen, des Messinstruments). Ebenso sollten Normdaten und kontrollierte Vokabulare zur Beschreibung der Daten genutzt werden.

Beispiele für disziplinspezifische Metadatenstandards:

  • Geisteswissenschaften: Text Encoding Intitiative (TEI)
  • Geowissenschaften: ISO 19115, Darwin Core
  • Naturwissenschaften: ICAT Schema, Cristallographic Information Framework
  • Sozial- und Wirtschaftswissenschaften: Digital Documentation Initiative (DDI)

Wichtige Angaben zur Datenbeschreibung:

  • Titel: Name des Datensatzes oder Forschungsprojekts, worin die Daten produziert wurden
  • Autor/Primärforscher: Namen und Adressen der Organisation und/oder Personen, die die Daten erstellt haben (siehe auch Normdaten)
  • Mitwirkende: Personen, die nicht primär an der Datenerstellung beteiligt waren (bspw. Datenkuratoren, Forschungsförderer; siehe auch Normdaten)
  • Identifier: Die Identifikationsnummer, welche zur Identifizierung der Daten herangezogen werden kann, auch wenn es nur eine interne Projektreferenznummer ist
  • Daten: Tage oder Zeiträume, die mit den Daten in Verbindung stehen (z. B. Projektstart, -ende, Beobachtungszeitraum, Veröffentlichungsdatum)
  • Thema: Schlagwörter oder Phrasen, die das Thema oder den Inhalt der Daten beschreiben (siehe auch Kontrollierte Vokabulare)
  • Ort: Bezug zu einem physischen Ort oder einer räumlichen Abdeckung (z. B. Koordinaten)
  • Rechte: rechtliche Ansprüche an den Daten (siehe auch Lizenz)
  • Dateinamen: Liste aller digitalen Dateien (mit Name und File-Erweiterung; siehe auch Dateistrukturierung)
  • Formate: Format der Dateien, z. B. CSV, HTML, JPEG (siehe auch Dateiformat wählen)
  • Methodik: Beschreibung der Methode zur Datenerhebung und -verarbeitung (Methodik, Versuchsprotokoll, Geräte, Software, Laborbuch)
  • Sprache: Sprache(n) des Inhalts der Forschungsdaten
  • Quellen: Referenzen zu Quellenmaterial, falls Daten aus anderen Quellen übernommen wurden
  • Relationen: Referenzen zu anderen Ressourcen (Daten, Literatur), die mit den Daten in Verbindung stehen

Normdaten

Für Personen, Institutionen, Forschungsförderer und vieles mehr werden Normdaten zur eindeutigen Identifikation vergeben. Dies erleichtert beispielsweise die Suche nach Personen bei Namensgleichheit und ermöglicht die eindeutige Zuordung für Suchmaschinen. Normdaten können beispielsweise bei der Forschungsdatenpublikation, bei der Publikation von Literatur oder im Rahmen eines Datenmanagementplans mit angegeben werden um eine eindeutige Identifikation von Autoren und Mitwirkenden (bspw. Projektleiter) zu erreichen.

Beispiele für Normdaten:

Open Researcher and Contributor ID (ORCID, http://orcid.org): Die ORCID ist ein (alpha-)numerischer 16-stelliger Code und dient der eindeutigen Identifikation von Personen (Autoren oder Mitwirkenden) vergleichbar einer DOI bei Forschungsdaten.

Gemeinsame Normdatei (GND, http://www.dnb.de/gnd): Die GND dient vor allem der Katalogisierung von Literatur in Bibliotheken, wird jedoch auch zunehmend für andere Zwecke genutzt. Die Deutsche Nationalbibliothek und weitere Institutionen führen die GND kooperativ. Eine Mitarbeit erfolgt entweder über die deutschsprachigen Bibliotheksverbünde oder nach direkter Absprache mit der Deutschen Nationalbibliothek.

International Standard Name Identifier (ISNI, ISO 27729, http://www.isni.org): Ein 16-stelliger Code zur Identifikation von Personen, die an einer Publikation beteiligt sind. Die ISNI ist ein Standard der Internationalen Organisation für Normung (ISO) und vergleichbar mit der ORCID.

Virtual International Authority File (VIAF, http://www.viaf.org): VIAF ist eine internationale Normdatei für Personendaten und wird vom Online Computer Library Center (OCLC) in Dublin, Ohio (USA) gehostet und betrieben. Normdatensätze der GND und ISNI sind Bestandteil von VIAF und werden dort mit den Daten anderer nationaler Normdateien zusammengefügt.

FundRef (http://www.crossref.org/fundref/): Ein Identifikationsdienst für Forschungsförderer. Mit der FundRef ID können beispielsweise Publikationen, aber auch Forschungsdaten einem bestimmten Förderprojekt und den jeweiligen beteiligten Forschungsförderern zugeordnet werden.

Lizenzen

Zur Nachnutzung von Forschungsdaten ist die Vergabe von Nutzungsrechten von essentieller Bedeutung. Die Wahl einer Lizenz ist von unterschiedlichen Faktoren abhängig. Einen Einfluss können beispielsweise Policies der Forschungsförderer oder Institutionen haben. Vertragliche Regelungen mit Verlagen oder Unternehmen führen ebenfalls zu einer möglichen Einschränkung der Lizenzen.

Creative Commons Lizenzen (2016[8])

Abbildung: Creative Commons Zero (Gemeinfreiheit/Public Domain)
CC0 (Gemeinfreiheit/Public Domain)

CC BY (Namensnennung)

CC BY-ND (Namensnennung - Keine Bearbeitung)

CC BY-NC (Namensnennung - Nicht kommerziell)

CC BY-SA (Namensnennung - Weitergabe unter gleichen Bedingungen)

CC BY-NC-SA (Namensnennung - Nicht-kommerziell - Weitergabe unter gleichen Bedingungen)

CC BY-NC-ND (Namensnennung - Nicht-kommerziell - Keine Bearbeitung)

GNU

General Public License

Datennachnutzung

Datennachnutzung

Persistente Identifikatoren

Ein persistenter Identifikator (Englisch "persistent identifier", PID) ist eine eindeutige und dauerhafte Benennung einer digitalen Ressource (z. B. Forschungsdaten) durch Vergabe eines Codes (Helmholtz-Zentrum Potsdam Deutsches GeoForschungsZentrum GFZ 2015[9]). Vergleichbar einer ISBN (Internationale Standardbuchnummer) für Bücher ist der persistente Identifikator ein eineindeutiger Bezeichner, kann aber zugleich für eine dauerhafte Verlinkung herangezogen werden um ein Linksterben (404 Fehler) zu verhindern.

Beispiele für persistente Identifikatoren:

Datenzitation

Die Zitation von Forschungsdaten kann von Verlag zu Verlag unterschiedlich sein. Auch disziplinspezifische Unterschiede sind - vergleichbar einer Buchpublikation - möglich.

FORCE11 Empfehlung zur Datenzitation (2014[10]):

Autor(en) (Publikationsjahr): Titel der Forschungsdaten. Datenrepositorium oder Archiv.
Version. Weltweit persistenter Identifikator (vorzugsweise als Link) 

Sind die Lizenzen so, dass ich das machen kann, was ich möchte?

  • Fazit/Herausforderungen/Disziplinspezifika (Verweis auf Kapitel Methoden "Datenmanagementpläne")

Zusammenfassung

Fragen zum Verständnis

Welche Aspekte umfasst das Forschungsdatenmanagement?

Was sollte bei sensiblen Daten beachten werden?

Was sind persistente Identifikatoren und welchen Zweck erfüllen sie?

Weiterführende Literatur

Referenzen

  1. Simukovic, Elena, Kindling, Maxi, Schirmbacher, Peter (2013). Umfrage zum Umgang mit digitalen Forschungsdaten an der Humboldt-Universität zu Berlin. URN: http://nbn-resolving.de/urn:nbn:de:kobv:11-100213001
  2. Helbig, Kerstin, Hausstein, Brigitte, Toepfer, Ralf (2015). Supporting Data Citation: Experiences and Best Practices of a DOI Allocation Agency for Social Sciences. Journal of Librarianship and Scholarly Communication, 3(2), eP1220. DOI: http://doi.org/10.7710/2162-3309.1220
  3. Library of Congress (2015). LOC Recommended Formats Statement 2015-16. [1]. Zugriff am 19.01.2016.
  4. Open Knowledge Foundation (2016). Open Definition 2.1. [2] Zugriff am 19.01.2016.
  5. Bundesrepublik Deutschland (1966). Gesetz über Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz). [3]. Zugriff am 19.01.2016.
  6. Bundesrepublik Deutschland (1990). Bundesdatenschutzgesetz. [4]. Zugriff am 19.01.2016.
  7. Europäisches Parlament (1996). Richtlinie 96/9/EG des Europäischen Parlaments und des Rates vom 11. März 1996 über den rechtlichen Schutz von Datenbanken.[5]. Zugriff am 19.01.2016.
  8. Creative Commons (2016). Mehr über die Lizenzen. [6] Zugriff am 19.01.2016.
  9. Helmholtz-Zentrum Potsdam Deutsches GeoForschungsZentrum GFZ (2015). Persistent Identifier. [7]. Zugriff am 19.01.2016.
  10. Data Citation Synthesis Group (2014). Joint Declaration of Data Citation Principles. [8]. Zugriff am 19.01.2016.