Lehrbuch Forschungsdatenmanagement/ Druckversion

Aus Handbuch.io


Inhaltsverzeichnis

Beschreibung der Zielgruppe

Stephan Büttner, Hans-Christoph Hobohm

Fachhochschule Potsdam

Zielgruppe

Es gibt sicherlich schon eine Reihe von Publikationen zum Forschungsdatenmanagement. (s.unten). Die Erfahrung zeigt jedoch, dass Personen ohne ausreichende Vorerfahrung in eigener Forschung bzw. den unterschiedlichen disziplinären Vorgehensweisen von Forschung (z.B. Geisteswissenschaften vs STM-Fächer) sich zunächst in einer Reihe von Grundfragen schwertun. Auch wenn die gesellschaftliche Diskussion um die erhöhten Anforderungen an die Dokumentation und Sicherung von Ergebnissen öffentlich finanzierter Wissenschaft und Forschung unter digitalen Bedingungen (vgl. Abschnitt 2) schon seit über einem Jahrzehnt geführt wird, so ist doch offensichtlich, dass entsprechende Infrastrukturen und Praktiken erst im Aufbau sind. Es gibt noch relativ wenige Spezialisten oder gar genuine fachliche Qualifikationswege, die zu beruflichen Positionen führen, bei denen das  Forschungsdatenmanagement eine zentrale Rolle spielt. Es zählt zu der so genannten guten wissenschaftlichen Praxis, dass jeder Wissenschaftler berufen ist, sich mit den hier vorliegenden Fragen zu beschäftigen und neben dem persönlichen Informationsmanagement (vgl. Jones 2014) auch ein Datenmanagement professionell zu führen. So wird von DFG gefordert, “Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, zehn Jahre lang aufbewahrt werden.” (vgl. DFG 2013). Allerdings ist hier nur von Aufbewahrung die Rede, um Fehlverhalten zu ahnden, dass  z.B. “[...] das Abhandenkommen von Originaldaten aus einem Labor gegen Grundregeln wissenschaftlicher Sorgfalt verstößt und prima facie einen Verdacht unredlichen oder grob fahrlässigen Verhaltens rechtfertigt.”(DFG 2013, S. 22). Wenn es um weitergehende Aktivitäten geht, also ein tatsächliches Management von Daten, begleiten zunächst “intermediäre” Personengruppen Wissenschaft und Gesellschaft auf diesem Wege.  

In den Anfängen einer Praxis sind die Akteure häufig die Betroffenen selber, erst im Laufe der Zeit ergibt sich eine Professionalisierung, die spezielle Kompetenzaneignungsformen erfordert und/oder neue berufliche Rollen herausbildet (vgl. Pampel/Bertelmann/Hobohm 2010).

Die Zielgruppen des Lehrbuchs sind demzufolge:

  • Fachwissenschaftler, die einen Überblick zum zentralen und systematischen Management “ihrer” Forschungsdaten haben wollen,
  • Studierende der Informationswissenschaften, die sich im fortgeschrittenen Bachelor- bzw. bereits im Masterstudium befinden und das Lehrbuch „Forschungsdatenmanagement“ studienbegleitend nutzen,
  • Praktiker (z.B. Informatikerinnen, Datenbibliothekarinnen etc.), die sich mit dem Thema beschäftigen indem sie z.B. an wissenschaftlichen Einrichtungen Forschungsdatenmanagement betreiben oder / und anwenden (s. Kap. 5).

Die Inhalte des Lehrbuchs basieren auf entsprechender Originalliteratur. Während Handbücher systematisches Wissen an eine unspezifische Zielgruppe vermitteln, soll ein Lehrbuch grundlegendes, bestehendes Wissen nach aktuellem Forschungsstand an eine spezifische Zielgruppe vermitteln, in diesem Fall die o.a.

Durch die repetitorische Ausrichtung soll das Wiederholen von Wissen und Kenntnissen ermöglicht werden. Grundziel ist es, Lern- und Erinnerungsprozesse durch eine übersichtliche Darstellung von Zusammenhängen und Sachverhalten auszulösen.

Das vorliegende “living” Lehrbuch soll somit als grundlegendes Nachschlagewerk für Studierende und Praktiker dienen.

Zusammenfassung

Das vorliegende Lehrbuch wendet sich an Fachwissenschaftler, Studierende der Informationswissenschaften und Praktiker (z.B. Informatikerinnen, Datenbibliothekarinnen etc.). An diese Zielgruppe soll das Lehrbuch grundlegendes, bestehendes Wissen nach aktuellem Forschungsstand vermitteln.

Fragen zum Verständnis

  • Worin besteht der Unterschied zwischen einem Handbuch und einem Lehrbuch?
  • Zählen Sie sich zur angegebenen Zielgruppe?


Referenzen

Büttner, R.; Hobohm, H.-C.; Müller, L. (Hrsg,) (2011): Handbuch Forschungsdatenmanagement. Bad Honnef: Bock + Herchen.

Corti, Louise;Van den Eynden, Veerle; Bishop, Libby; Woolard, MAtthew (2014): Managing and Sharing Research Data : A Guide to Good Practice. London : SAGE Publications Ltd.

Enke, H.; Ludwig, J. (Hrsg.) (2013): Leitfaden zum Forschungsdaten-Management. Glückstadt: Werner Hülsbusch.

DFG (2013): Vorschläge zur Sicherung guter wissenschaftlicher Praxis: Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft" ; Denkschrift Weinheim : Wiley-VCH

Jones, William (2014): Building a better world with our information. The future of personal information management. Part 3. San Rafael: Morgan & Claypool.

Kindling, M.; Schirmbacher, P.; Simukovic, E. (2013): Forschungsdatenmanagement an Hochschulen: das Beispiel der Humboldt-Universität zu Berlin. LIBREAS: Library Ideas, 23.

Neuroth, H.; Strathmann, S.; Oßwald, A.; Scheffel, R.; Klump, J.; Ludwig, J. (Hrsg.) (2012): Langzeitarchivierung von Forschungsdaten - Eine Bestandsaufnahme. Boizenburg: Werner Hülsbusch.

Pampel, Heinz; Bertelmann, Roland; Hobohm, Hans-Christoph (2010): "Data Librarianship" - Rollen, Aufgaben, Kompetenzen. Berlin: Rat für Sozial- und Wirtschaftsdaten / BMBF (Working paper series des RatSWD, 144).

Strasser, C.; Cook, R.; Michener, W.; Budden, A. (2012): DataOne Primer on Data Management. URL: http://www.dataone.org/sites/all/documents/DataONE_BP_Primer_020212.pdf.

Bibliographien

· Research Data Curation Bibliography von Charles W. Bailey

· Data sharing and withholding in Mendeley

Auswahl bisher veröffentlichter Lehrbücher zum FDM:

Enke, H.; Ludwig, J. (Hrsg.) (2013): Leitfaden zum Forschungsdaten-Management. Dortmund: Werner Hülsbusch. Glückstadt.

Klar, J., Enke, H. (2012): Projekt RADIESCHEN. Rahmenbedingungen einer disziplinübergreifenden Forschungsdateninfrastruktur. 

Van den Eynden, V.; Corti, L.; Woollard, M.; Bishop, L.; Horton, L. (2011): Managing and Sharing Data. 3. Aufl. Essex: University of Essex.

Strasser, C.; Cook, R.; Michener, W.; Budden, A. (2012): DataOne Primer on Data Management. URL: http://www.dataone.org/sites/all/documents/DataONE_BP_Primer_020212.pdf.

Neuroth, H.; Strathmann, S.; Oßwald, A.; Scheffel, R.; Klump, J.; Ludwig, J. (Hrsg.) (2012): Langzeitarchivierung von Forschungsdaten - Eine Bestandsaufnahme. Boizenburg: Werner Hülsbusch.

Kindling, M.; Schirmbacher, P.; Simukovic, E. (2013): Forschungsdatenmanagement an Hochschulen: das Beispiel der Humboldt-Universität zu Berlin. LIBREAS: Library Ideas, 23.

Büttner, R.; Hobohm, H.-C.; Müller, L. (Hrsg,) (2011): Handbuch Forschungsdatenmanagement. Bad Honnef: Bock + Herchen.

Was sind Forschungsdaten

Was sind Forschungsdaten? (Ludwig/Enke)

( Back to main page)


Forschungsdaten sind schwierig zu definieren. Die Untersuchung dieser Schwierigkeit lehrt sehr viel über Forschungsdatenmanagement. Um sich der Fragestellung zu nähern, ist es sinnvoll zuerst zu betrachten, welche einzelne Daten üblicherweise unter den Begriff Forschungsdaten gefasst werden. In einem Vergleich verschiedener Fachdisziplinen (Neuroth et al 2012) ist dokumentiert, was auch in Praxisgesprächen sehr einfach festgestellt werden kann: Eigentlich kann fast alles als Forschungsdaten angesehen werden. Wie kann angesichts dessen eine sinnvolle Definition aussehen?

Diskussion von Forschungsdaten und Methoden des Forschungsdatenmanagements werden in diesem Lehrbuch von vornherein auf den digitalen Bereich eingeschränkt. Damit soll nicht impliziert werden, dass wenn eine Geologin bei einer Messung Werte mit Bleistift und Papier aufschreibt, dies keine Forschungsdaten sind. Aber viele Fragestellungen, mit denen das Forschungsdatenmanagement konfrontiert ist, stellen sich nicht in gleicher Form für analoge Daten oder nur in sehr geringem Umfang. Einer der Gründe dafür ist einfach, dass eine Massenproduktion und -verarbeitung von Forschungsdaten digital mit weit effizienteren Methoden und neuen Möglichkeiten erfolgen kann als mit analogen Mitteln.

=> Übungsaufgabe: Vergleichen Sie Aufgaben des Forschungsdatenmanagement von digitalen und analogen Daten. Überlegen Sie auch, wieweit eindeutige (digitale) Kennzeichung von materiellen Objekten wissenschaftlich sinnvoll sind.

Exkurs: Ums analoge und digitale Daten voneinander abzugrenzen und das Wesen digitaler Daten zu verdeutlichen, ist das Modell Thibodeaus 2002 empfehlenswert. Aus der Perspektive der unterschiedlichen Aufgaben der Langzeitarchivierung digitaler Objekte unterscheidet er drei notwendige Aspekte von digitalen Objekten. Der erste Aspekt ist, dass digitale Objekte auch immer physikalische Objekte sind, nämlich materielle Zeichen auf einem materiellen Träger. Die häufige Gegenüberstellung von digitalen Objekten und materiellen Objekten ist deshalb auch nicht richtig. Der zweite Aspekt ist, dass digitale Objekte auch logische Objekte sind, die in einer bestimmten Art kodiert sind und bestimmte Formate haben, sodass Software sie prozessieren kann. Hier existiert der Hauptunterschied zu analogen Objekten. Zudem sind drittens digitale Objekte auch immer konzeptionelle/begriffliche Objekte, die für uns Menschen Bedeutung hat, wie z.B. eine Landkarte. In dieser Hinsicht muss das digitale Objekt nicht sehr unterschiedlich von einem analogen Objekt sein, obwohl sich im Digitalen viele Dinge realisieren lassen, zu denen kein analoge Entsprechung möglich ist.

Angesicht der oben erwähnten Vielfalt von Forschungsdaten ist es naheliegend, diese nicht als eine spezielle Datenart zu betrachten, die eine besondere Eigenschaft zu Forschungsdaten macht. Forschungsdaten sind einfach alle Daten, die im Forschungsprozess benutzt werden. Auf diesem Weg kann das Phänomen verstanden werden, dass z.B. ein Urlaubsfoto eines Denkmals in der privaten Fotosammlung kein Forschungsdatum ist, dasselbe Bild aber durchaus ein Forschungsdatum sein kann, wenn es Teil eines Trainingsdatensatzes ist, mit dem wissenschaftlich an Bilderkennungsverfahren gearbeitet wird. Mit diesem Definitionsversuch werden aber viele Dinge als Forschungsdaten erfasst, die nicht als Forschungsdaten bezeichnet werden sollten. Z.B. würde Literatur in Form von PDF-Dateien, die von Forscherinnen und Forscher während des Forschungsprozesses konsultiert wird, auch zu Forschungsdaten zählen. Und natürlich können digitale Texte auch Forschungsdaten sein, wenn sie z.B. Teil eines Textkorpus sind, der in der Computerlinguistik benutzt wird. Forschungsdaten können auch in Texten enthalten sein, sodass viel Aufwand betrieben wird, um z.B. chemische Strukturformeln in alten Fachartikeln automatisiert zu erfassen und auszuwerten. Die Rolle, in der Forschungsdaten in einer bestimmten Phase des Forschungsprozesses benutzt werden, ist spezieller, es reicht nicht, dass es sich um irgendwelche digital repräsentierten Informationen handelt.

In dem oben erwähnten Vergleich verschiedener Fachdisziplinen hat sich gezeigt, dass die Anworten von Disziplinvertreterinnen und -vertreter auf die Frage, was Forschungsdaten in ihrer Disziplin sind, grob in zwei Gruppen unterteilt werden können (Neuroth et al 2012, S. 299ff). Zum einen werden die Forschungsdaten oft durch ihren Medientyp bezeichnet (z.B. Video, Markup, Tabellen, 3D-Modelle) und nicht selten scheint eine Abgrenzung von Dokumenten beabsichtigt. Zum anderen dient der Bezug auf die Forschungsmethode als Charakterisierung der Forschungsdaten (z.B. Simulationsdaten, Beobachtungsdaten, Statistikdaten). Dies kann als Ausgangspunkt für einen weiteren Definitionsversuch dienen: Sind Forschungsdaten alle diejenigen Daten, die durch die Anwendung einer wissenschaftlichen Methode im Forschungsprozess entstehen? (Vergleiche dazu die Erklärung der Schwerpunktinitiative "Digitale Information" der Allianz der Wissenschaftsorganisationen: „Forschungsdaten sind Daten, die im Zuge wissenschaftlicher Vorhaben z.B. durch Digitalisierung, Quellenforschungen, Experimente, Messungen, Erhebungen oder Befragungen entstehen.“ (http://www.allianzinitiative.de/de/handlungsfelder/forschungsdaten.html)) Dies erlaubt zwar die Abgrenzung von Forschungsdaten und Textpublikationen, die am Ende das Ergebnis der Untersuchung kommunizieren, aber es finden sich schnell Gegenbeispiele. Nicht alle Forschungsdaten entstehen durch wissenschaftliche Methoden, sondern z.B. durch Zufall oder einfach als Zeitdokument oder Kulturprodukt, oder auch als Teil von Arbeitsprozessen und beliebigen Lebensäusserungen.

Forschungsdaten sind so vielfältig wie die Forschung selbst. In der modernen Wissenschaft ist es kaum mehr vorstellbar, dass etwas nicht Objekt wissenschaftlicher Untersuchung sein kann. (Würde ein solcher Bereich entdeckt, könnte dieser als Forschungslücke reklamiert und darüber geforscht und publizierter werden.) Die verwendeten Methoden sind nicht beliebig, aber die dabei entstehenden Forschungsdaten sind sehr vielfältig. Als Forschungsdaten sollten jedoch nicht nur alle Daten betrachtet werden, die mit einer wissenschaftlichen Methode über ein Forschungsobjekt erzeugt werden, sondern auch die Daten über ein Forschungsobjekt, die mit einer wissenschaftlichen Methode verarbeitet werden. Diese Definition erlaubt die Abgrenzung von textuellen Forschungsdaten von Textpublikationen, die nur am Ende das Ergebnis der Untersuchung kommunizieren oder am Anfang als Hintergrundwissen in die Gestaltung der Untersuchung einflossen. (Es sei nochmal darauf hingewiesen, dass Publikationen und Forschungsdaten kein Gegensatz sind. Ein Großteil des Forschungsdatenmanagements zielt darauf, Forschungsdaten zu publizieren. Forschungsdaten publizieren sollte ein anerkannter Bestandteil der Forschungstätigkeit sein.)

=> Überlegen Sie für einen konkreten Datensatz, in welchem Kontext dieser Gegenstand der Forschung sein kann, in welchem nicht.

In dem letzten Definitionsversuch wurde die Klausel “über ein Forschungsobjekt” hinzugefügt. Damit ist beabsichtigt, Forschungsdaten über ein Forschungsobjekt von reinen digitalen Stellvertretern des Forschungsobjekts abzugrenzen und das ist sicherlich nicht unumstritten. Ein Beispiel dafür sind Digitalisate einer mittelalterlichen Handschrift. Ein Literaturwissenschaftler, der über den Text der Handschrift forscht, kann zurecht behaupten, dass er mit dem Digitalisat Daten vorliegen hat, die er mit einer wissenschaftlichen Methode weiterverarbeitet, wird aber nach obiger Klausel wahrscheinlich nur selten behaupten, dass das Digitalisat Daten über sein Forschungsobjekt und damit ein Forschungsdatum darstellt. Das Digitalisat ist eher das Forschungsobjekt selbst bzw. eine Repräsentationsform des Forschungsobjekts. Eine Handschriftenforscherin, die hingegen weniger den textlichen Inhalt als das materielle Objekt erforscht, kann viel einfacher behaupten, dass das Digitalisat Daten über ihr Forschungsobjekt darstellt. Warum aber sollte diese Abgrenzung in der Definition vorgenommen werden?

Eine Definition ist nicht zweckfrei und neutral. Definitionen stellen ein Instrument der Kommunikation,insbesondere in der Wissenschaft dar. Dass es aber keine allgemein anerkannte Definition von Forschungsdaten gibt und das Forschungsdatenmanagement trotzdem große Fortschritte gemacht hat, zeigt aber, dass Definitionen nicht der alleinige Ausgangspunkt und die Grundlage für Kommunikation sein können. Sie sind stattdessen nach ihrer Nützlichkeit für bestimmte Zwecke bewerten. Natürlich kann die Bezeichung für Forschungsdaten beliebig weit gefasst werden , aber ob das nützlich und zielführend ist, ist eine andere Frage.

Die hier entwickelte These lautet, dass es sinnvoll ist, Forschungsdaten in verschiedenen Kontexten wie oben vorgeschlagen zu definieren, weil es auch hilft, gerade die neuen und bisher in klassischen Informationseinrichtungen vernachlässigten Aufgaben zu verstehen. Wenn Forschungsdaten so weit gefasst werden, dass auch Digitalisate oder gar jeder digitaler Text darunter fällt, dann ist zu fragen, warum die ganze Diskussion um Forschungsdatenmanagement stattfindet. Denn schließlich existieren sehr viele etablierte Verfahren und Methoden, um Digitalisate und digitale Texte zu managen, und gerade Bibliotheken können eine hohe Kompetenz in diesem Bereich beanspruchen. Die wissenschaftspolitische Brisanz der Definition ist jedoch, dass je nach Ausdehnung des Begriffs Forschungsdaten, unterschiedliche Institutionen behaupten können, bereits alle notwendige Kompetenz und Erfahrung zu besitzen und im Wettbewerb der Fördermittel das richtige Investitionsziel zu sein. Ganz im Sinne eines Lehrbuchs sehen die Autoren das Lehrreiche und Wichtige der Betrachtung des Forschungsdatenmanagements hier gerade darin, die bisher weniger unterstützten Objekte und Phasen des Forschungsprozesses aufzuzeigen. Damit öffenen sich auch Wege für bereits etablierte Institutionen, neue Aufgaben zu übernehmen und hinzulernen, sich und die Wissenschaft selbst weiterzuentwickeln. Oder es können neue Institutionen entstehen , die sich die neuen Aufgaben zu eigen machen. Die kürzeste Erklärung von Forschungsdaten könnte deshalb über die Aufgaben des Forschungsdatenmanagement erfolgen: Forschungsdaten sind das, was Gegenstand des Forschungsdatenmanagement ist.

=> Warum kann die Definition von Forschungsdaten nicht "ein für alle Mal" gegeben werden? Warum sind verschiedenen Annäherungen an die Definition sinnvoll, und keine ür sich allein?

Zusammenfassung

  • Es gibt sehr unterschiedliche Formen von Forschungsdaten. Man kann sich für fast alle digitalen Daten einen wissenschaftlichen Kontext überlegen, in denen es Forschungsdaten sind.
  • Die starke Kontextabhängigkeit von Forschungsdaten und die Vielfalt von Forschung macht eine Definition schwierig.
  • Auch Definitionen haben einen konkreten Zweck und einen Kontext, in dem sie nützlich sein sollen. Dieser Artikel vertritt die Ansicht, dass eine Definition von Forschungsdaten helfen sollte, die neuen Aufgaben des Forschungsdatenmanagement in den Blick zu bekommen und nicht nachträglich auch alle Aufgaben der Vergangenheit als Forschungsdatenmanagement aufzufassen.
  • Forschungsdaten sind alle digitalen Daten, die mit einer wissenschaftlichen Methode über ein Forschungsobjekt erzeugt werden oder verarbeitet werden.

Weiterführende Literatur

Was ist Forschungsdatenmanagement?

Autoren: Kerstin Helbig [1], Janna Neumann [2]

[1] Humboldt-Universität zu Berlin

[2] Technische Informationsbibliothek Hannover

Definition

Bevor das Thema Forschungsdatenmanagement näher betrachtet werden kann, soll hier zunächst eine Definition des Begriffs gegeben werden. Da das Thema jedoch zum Teil sehr domänenspezifisch/disziplinspezifisch betrachtet werden muss, kann der Begriff grundsätzlich nur relativ allgemein definiert werden. Daher wird hier auf eine übergreifende Definition nach Simukovic, Kindling und Schirmbacher (2013) zurückgegriffen. Darin heißt es, dass Forschungsdatenmanagement "alle Aktivitäten, die mit der Aufbereitung, Speicherung, Archivierung und Veröffentlichung von Forschungsdaten verbunden sind“ beinhaltet (Simukovic/Kindling/Schirmbacher 2013, S. 6 [1]).

Im Folgenden werden die verschiedenen Aspekte des Forschungsdatenmanagements in einzelen Unterkapiteln dargestellt. Die Grafik zeigt den allgemeinen Zyklus des Forschungsdatenmanagement und die zu betrachtenden Themenfelder.

Abbildung: Forschungsdatenmanagement-Zyklus

Forschungsdesign

Bereits bei der Konzipierung eines Forschungsprojekts und damit vor der Datenerhebung und/oder -sammlung, sollten Forschende sich Gedanken zu ihrem Forschungsdatenmanagement machen. Dazu gehören zum einen die Überlegungen zum Forschungsziel, jedoch zum anderen auch die Frage welche Daten im Zuge der wissenschaftlichen Arbeit erhoben und gesammelt werden. Die Motivation für eine Forschungsarbeit bezieht sich grundsätzlich aus dem resultierenden Erkenntnisgewinn der verarbeiteten Daten. Das Forschungsdatenmanagement ist daher nur Mittel zum Zweck, um den Forschungsprozess zu unterstützen. Es bietet sich deshalb an, die Forschungsarbeit so gut wie möglich zu strukturieren und zu dokumentieren. In Form eines Datenmanagementplans (s. a. Kapitel Werkzeuge des Forschungsdatenmanagements) können Fragestellungen und Überlegungen erfasst und in der Regel auch revidiert werden.

Datensammlung und -verarbeitung

In der Datenerhebungs- bzw. Datensammlungsphase spielen vor allem ganz praktische Überlegungen eine Rolle, wie die Datensicherung, Datenstrukturierung und -formatierung (s. a. Abschnitt Datenanalyse und Sicherung der Daten), aber auch die strikte Dokumentation der Daten. In der Regel dienen Metadaten zur Dokumentation bzw. Beschreibung der Daten. Wichtig dabei ist, alle Metadaten zu erfassen, die zur (Nach-)Nutzung und Analyse der Daten notwendig sind. Dabei geht es nicht nur darum, Daten für die Nachnutzung durch Dritte aufzubereiten, sondern auch für die eigene Nutzung verfügbar zu halten.

Die Dokumentation von Daten mit Hilfe von Metadaten verschafft sowohl dem Erzeuger als auch dem Nutzer weitere Vorteile. Sobald Daten in einer geeigneten Infrastruktur abgelegt sind, können sie anhand der Metadaten deutlich leichter (wieder-)gefunden werden. Außerdem wird ermöglicht, dass Daten bei Nachnutzung zitierbar sind.

Datenanalyse und Sicherung der Daten

Backup

Bereits während des Arbeitsprozesses sollte ein Backup eingerichtet werden. Die Datenwiederherstellung ist zu Beginn der Forschung sowie in regelmäßigen Abständen zu testen, um einen unerwünschten Datenverlust zu verhindern. Dabei sollten folgende Punkte beachtet werden:

  • Mindestens 3 Kopien einer Datei speichern
  • Auf mindestens 2 unterschiedlichen Speichermedien
  • Wovon mindestens eine Kopie dezentral ist (zum Beispiel auf einem anderen Server)

Sicherung sensibler Daten

Vor allem sensible Forschungsdaten benötigen besonderen Schutz. Mögliche Maßnahmen sind ein separater, abschließbarer Raum, ein abschließbarer Schrank für Datenträger oder Laptop oder ein Diebstahl-Schutz für das Notebook. Um sensible Forschungsdaten zusätzlich zu schützen, sollten Dateien verschlüsselt werden. Passwörter sind sicher aufzubewahren. Um einen Zugang zu den Daten zu gewährleisten, sollten dennoch mindestens zwei Personen Zugang zu den Forschungsdaten haben.

Dateistrukturierung

Dateien sind nur ein kleiner Teil der Datenstrukturen, in denen Forschungsergebnisse festgehalten werden. Dateistrukturen sollen nachfolgend jedoch als Beispiel dienen und die Datenstrukturierung illustrieren.

Eine klare Struktur der Verzeichnisse und Ordner hilft nicht nur der eigenen besseren Nachvollziehbarkeit nach wenigen Monaten oder Jahren. Vor allem für die Nachnutzung von Forschungsdaten sind sinnvolle Dateinamen und gut organisierte Dateien wichtig. Die Dateiversionen sollten bereits während des Forschungsprozesses kontinuierlich geprüft und verwaltet werden. Vor allem nach der abschließenden Datenanalyse empfiehlt es sich, obsolete Versionen zu separieren. Datums-/Zeitstempel oder eine separate ID (z. B. v1.0.0) für jede Version sind hierfür Beispiele. Spezielle Software kann die Versionsverwaltung unterstützen (bspw. Git u. a.). Für die Benennung von Dateien sollten Konventionen genutzt oder geschaffen werden. Diese Namenskonventionen sowie andere genutzte Abkürzungen sollten ebenfalls dokumentiert werden (s. a. Datenmanagementplan in Kapitel Werkzeuge des Forschungsdatenmanagements).

Beispiele für Namenskonventionen:

[Sediment]_[Probe]_[Instrument]_[YYYYMMDD].dat

[Experiment]_[Reagens]_[Instrument]_[YYYYMMDD].csv

[Experiment]_[Versuchsaufbau]_[Versuchsperson]_[YYYYMMDD].sav

[Beobachtung]_[Ort]_[YYYYMMDD].mp4

Vorschlag zur Versionierung[2]:

1.0.0 Änderung der ersten Stelle, wenn neue Daten hinzukommen (Stichprobe, Welle, Beobachtung)

1.1.0 Änderung der zweiten Stelle, wenn Daten korrigiert werden

1.0.1 Änderung der dritten Stelle, wenn die Datendokumentation verändert oder erweitert wird

Dateiformate

Nach Abschluss der Forschungstätigkeit sollten Dateiformate auf ihre Langlebigkeit überprüft werden. Für eine langfristige Nachnutzbarkeit von Forschungsdaten sollten die Dateien unverschlüsselt, nicht komprimiert, nicht firmeneigen oder patentiert sein und einen offenen, dokumentierten Standard nutzen. Eine Übersicht über Dateiformate und deren Archivierbarkeit bietet die Library of Congress (2015[3]).

Folgende Dateiformate sind empfehlenswert:

  • Tabellendaten: CSV, TSV, SPSS portable
  • Text*: TXT, HTML, RTF, PDF/A (nur, wenn das Layout von Bedeutung ist)
  • Multimedia: Container: MP4, Ogg; Codec: Theora, Dirac, FLAC
  • Bild: TIFF, JPEG 2000, PNG, GeoTIFF, FITS
  • Datenaustausch: XML, RDF, JSON

Zu vermeiden sind die Dateiformate:

  • Tabellendaten: Excel
  • Text: Word, PowerPoint
  • Multimedia: Windows Media Video, QuickTime, H.264
  • Bild: GIF, JPG
  • Datenaustausch: SDXF

*Bei Textdaten sollten auch Zeichenformate beachtet werden, da die Kodierungen nicht zwangsläufig kompatibel sind. Empfehlenswert sind hier Textdateien, die als ASCII, UTF-8, oder UTF-16 mit Byte Order Mark kodiert sind. Dies ermöglicht u.a. die problemlose Darstellung von Textdateien unter verschiedenen Betriebssystemen (Microsoft Windows, Mac OS, Linux).

Gemeinsame Nutzung der Daten

Bei der Verfügbarmachung von Forschungsdaten gibt es verschiedene Abstufungen der Veröffentlichung. Offene Forschungsdaten sind für jeden zugänglich sowie rechtlich, finanziell und technisch uneingeschränkt nutzbar (Open Knowledge Foundation 2016[4]). Dies ermöglicht sowohl die Beteiligung von Bürgerinnen und Bürgern in Citizen Science Projekten als auch das wissenschaftliche kollaborative Arbeiten (s. a. Handbuch CoScience, Kapitel Publikation von Forschungsdaten) .

Vor allem in wirtschaftsnahen Forschungsdisziplinen ist die Nutzung von Embargos für Forschungsergebnisse üblich. Datenarchive und Repositorien sowie auch Journal Policies haben sich darauf eingestellt und berücksichtigen Embargoperioden von ein bis drei Jahren. Darüber hinaus sind sensible (personenbezogenen) Daten bestimmter Disziplinen auf Zugriffsbeschränkungen angewiesen, um dem Datenschutz gerecht zu werden.

Eine Einreicherung der Forschungsdaten bei einem Datenarchiv oder Repositorium ermöglicht eine eigenständige Publikation der Daten. Des Weiteren ist es bei einigen Verlagen bereits möglich, die Forschungsdaten gemeinsam mit dem Text einzureichen und damit verfügbar zu machen. Ein Beispiel hierfür ist die Kooperationen zwischen dem Verlag Elsevier und dem Datenrepositorium Pangaea.

Bei sensiblen Daten ist die Nutzung eines Data Journals empfehlenswert. In einem Data Journal werden die Forschungsdaten über einen Text beschrieben sowie mögliche Anwendungsszenarien und Charakteristika skizziert. Dies bietet sich jedoch nur für Daten an, die in irgendeiner Form verfügbar und zugänglich sind (bspw. vor Ort innerhalb eines Forschungsdatenzentrums).

Einen tieferen Einblick in unterschiedliche Infrastrukturen zum Teilen von Forschungsdaten gibt das Kapitel Werkzeuge des Forschungsdatenmanagements.

Vor allem die rechtlichen Aspekte sind bei der Veröffentlichung von Forschungsdaten nicht zu vernachlässigen. Im deutschen Rechtsraum sind daher u. a. folgende Gesetze zu beachten:

  • Gesetz über Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz; UrhG[5])
  • Bundesdatenschutzgesetz (BDSG[6])
  • Richtlinie 96/9/EG des Europäischen Parlaments und des Rates vom 11. März 1996 über den rechtlichen Schutz von Datenbanken[7]

Unterstützung bieten Datenschutzbeauftragte oder Rechtsabteilungen sowie spezialisierte Medienjuristen und -juristinnen. Archiv- und Repositorienbetreiber können ebenfalls in begrenztem Umfang Hinweise geben.

Datenübernahme

Je nachdem wo die Forschungsdaten bereitgestellt werden sollen, gibt es unterschiedliche Möglichkeiten der Übermittlung der Daten. Einige Repositorien bieten eine automatische Anbindung an das System, wodurch bereits während der Datengenese eine Übermittlung stattfindet. Forschungsunterstützende Tools können ebenfalls eine Datenübermittlung vorbereiten und automatisieren. Ein Beispiel hierfür ist das Dokumentationstool von PsychData am Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID). Am häufigsten werden Forschungsdaten über einen Upload ins System eingepflegt und mit Metadaten versehen. Für größere Datenmengen bieten viele Forschungsdatenrepositorien bereits offene Schnittstellen (API) an, wodurch ebenfalls ein automatisierter Upload erfolgen kann. Einige Forschende bevorzugen allerdings auch immer noch die Zusendung eines Datenspeichers (CD, DVD, USB-Stick) per Post.

Möglichkeiten der Übermittlung der Forschungsdaten:

  • Upload
  • Nutzung von Schnittstellen
  • Zusendung eines Datenträgers per Post

Eine Übermittlung von Forschungsdaten erfordert meist eine zuvorige Registrierung sowie die Zustimmung zu Nutzungsbedingungen oder die Unterzeichnung eines Datenübernahmevertrags.

Datenanreicherung und -bereitstellung

Metadaten

Um die Nachnutzung zu erleichtern, sollten Forschungsdaten gut beschrieben und dokumentiert werden. Hierbei muss man zwischen einer Beschreibung zur Auffindung (Metadaten) und einer tieferen (fachwissenschaftlichen) Erschließung (Dokumentation) unterscheiden. Metadaten sind eine spezifische Untermenge der Dokumentationsangaben und dienen in erster Linie der Findbarkeit der Daten (z. B. Primärforscher, Zeitraum, Ort). Für die Erleichterung der Auffindung sollten wenn möglich standardisierte Metadatenstandards genutzt werden. Darüber hinaus kann eine weitere Dokumentation mittels separater Datei sinnvoll sein. Eine Dokumentation geht über die Beschreibung durch Metadaten hinaus und ist wesentlich ausführlicher als eine Beschreibung durch Metadaten (bspw. Beschreibung des Projekts, der Variablen, des Messinstruments). Normdaten und kontrollierte Vokabulare sollten ebenfalls zur Beschreibung der Daten genutzt werden.

Beispiele für disziplinspezifische Metadatenstandards:

  • Astronomie: International Virtual Observatory Alliance (IVOA)
  • Geisteswissenschaften: Text Encoding Intitiative (TEI)
  • Geowissenschaften: ISO 19115
  • Naturwissenschaften: ICAT Schema, Cristallographic Information Framework
  • Sozial- und Wirtschaftswissenschaften: Digital Documentation Initiative (DDI)

Wichtige Angaben zur Datenbeschreibung:

  • Titel: Name des Datensatzes oder Forschungsprojekts, worin die Daten produziert wurden
  • Autor/Primärforscher: Namen und Adressen der Organisation und/oder Personen, die die Daten erstellt haben (siehe auch Normdaten)
  • Mitwirkende: Personen, die nicht primär an der Datenerstellung beteiligt waren (bspw. Datenkuratoren, Forschungsförderer; siehe auch Normdaten)
  • Identifier: Die Identifikationsnummer, welche zur Identifizierung der Daten herangezogen werden kann, auch wenn es nur eine interne Projektreferenznummer ist
  • Daten: Tage oder Zeiträume, die mit den Daten in Verbindung stehen (z. B. Projektstart, -ende, Beobachtungszeitraum, Veröffentlichungsdatum)
  • Thema: Schlagwörter oder Phrasen, die das Thema oder den Inhalt der Daten beschreiben (siehe auch Kontrollierte Vokabulare)
  • Ort: Bezug zu einem physischen Ort oder einer räumlichen Abdeckung (z. B. Koordinaten)
  • Rechte: rechtliche Ansprüche an den Daten (siehe auch Lizenzen)
  • Dateinamen: Liste aller digitalen Dateien (mit Name und File-Erweiterung; siehe auch Dateistrukturierung)
  • Formate: Format der Dateien, z. B. CSV, HTML, JPEG
  • Methodik: Beschreibung der Methode zur Datenerhebung und -verarbeitung (Methodik, Versuchsprotokoll, Geräte, Software, Laborbuch)
  • Sprache: Sprache(n) des Inhalts der Forschungsdaten
  • Quellen: Referenzen zu Quellenmaterial, falls Daten aus anderen Quellen übernommen wurden
  • Relationen: Referenzen zu anderen Ressourcen (Daten, Literatur), die mit den Daten in Verbindung stehen

Normdaten

Für Personen, Institutionen, Forschungsförderer und vieles mehr können in der Regel Normdaten zur eindeutigen Identifikation vergeben werden. Dies erleichtert beispielsweise die Suche nach Personen bei Namensgleichheit und ermöglicht die eindeutige Zuordung für Suchmaschinen. Normdaten können sowohl bei der Forschungsdatenpublikation, bei der Publikation von Literatur oder auch im Rahmen eines Datenmanagementplans mit angegeben werden um eine eindeutige Differenzierung von Autoren und Mitwirkenden (bspw. Projektleiter) zu erreichen.

Beispiele für Normdaten:

Die Open Researcher and Contributor ID (ORCID) ist ein (alpha-)numerischer 16-stelliger Code und dient der eindeutigen Identifikation von Personen (Autoren oder Mitwirkenden) vergleichbar einer DOI bei Forschungsdaten.

Die Gemeinsame Normdatei (GND) dient vor allem der Katalogisierung von Literatur in Bibliotheken, wird jedoch auch zunehmend für andere Zwecke genutzt. Sie beinhaltet Normdaten für Personen, Körperschaften, Konferenzen, Geografika, Schlagwörter und Werktitel. Die Deutsche Nationalbibliothek und weitere Institutionen führen die GND kooperativ. Eine Mitarbeit erfolgt entweder über die deutschsprachigen Bibliotheksverbünde oder nach direkter Absprache mit der Deutschen Nationalbibliothek.

Der International Standard Name Identifier (ISNI, ISO 27729) ist ein 16-stelliger Code zur Identifikation von Personen, die an einer Publikation beteiligt sind. Die ISNI ist ein Standard der Internationalen Organisation für Normung (ISO) und vergleichbar mit der ORCID.

Das Virtual International Authority File (VIAF) ist eine internationale Normdatei für Personendaten und wird vom Online Computer Library Center (OCLC) in Dublin, Ohio (USA) gehostet und betrieben. Normdatensätze der GND und ISNI sind Bestandteil von VIAF und werden dort mit den Daten anderer nationaler Normdateien zusammengefügt.

FundRef ist ein Identifikationsdienst für Forschungsförderer. Mit der FundRef ID können beispielsweise Publikationen, aber auch Forschungsdaten einem bestimmten Förderprojekt und den jeweiligen beteiligten Forschungsförderern zugeordnet werden.

Kontrollierte Vokabulare

Thesauri und Klassifikationen sind Dokumentationssprachen, die zur inhaltlichen Beschreibung von Objekten (z. B. Forschungsdaten) verwendet werden. Sie werten Metadaten neben der Nutzung eines standardisierten Schemas wesentlich auf. Eine Klassifikation dient der Zuordnung von Objekten in (meist hierarchisch strukturierte) Klassen, welche durch bestimmte Merkmale charakterisiert sind. Ein Thesaurus (Pl. Thesauri) ist eine natürlich-sprachliche, geordnete Sammlung von Begriffen und deren Beziehungen zueinander. Die Vergabe von kontrollierten Schlagworten aus einem Thesaurus und die Eingruppierung in bestimmte Bereiche erleichtert die Findbarkeit der Daten. Für sehr viele Fachbereiche gibt es bereits eigene, spezialisierte Klassifikationen und Thesauri. Das Basel Register of Thesauri, Ontologies & Classifications[8] bietet eine Suchmöglichkeit und hat viele anerkannte Thesauri und Klassifikationen gelistet.

Beispiele für disziplinspezifische Klassifikationen:

  • Klassifikation Sozialwissenschaften
  • Journal of Economic Literature Classification System (JEL)
  • Physics and Astronomy Classification Scheme (PACS)
  • Mathematics Subject Classification (MSC)

Beispiele für disziplinspezifische Thesauri:

  • Thesaurus Sozialwissenschaften (TheSoz)
  • Standard Thesaurus Wirtschaft (STW)
  • Thesaurus Psychologie (PSYNDEX)
  • INFODATA Thesaurus
  • Umweltthesaurus (UMTHES)
  • Thesaurus Medical Subject Headings (MeSH)
  • Unified Astronomy Thesaurus (UAT)

Lizenzen

Zur Nachnutzung von Forschungsdaten ist die Vergabe von Nutzungsrechten von essentieller Bedeutung. Die Wahl einer Lizenz ist von unterschiedlichen Faktoren abhängig. Einen Einfluss können beispielsweise Policies der Forschungsförderer oder Institutionen haben. Darin wird häufig für die Nutzung einer möglichst offenen Lizenz plädiert (beispielsweise CC0, CC BY oder GNU GPL). Vertragliche Regelungen mit Verlagen oder Unternehmen können jedoch zu einer möglichen Einschränkung der Nutzungsrechte führen.

Creative Commons Lizenzen (2016[9])

Abbildung: Creative Commons CC BY

CC0 (Gemeinfreiheit/Public Domain)

CC BY (Namensnennung)

CC BY-ND (Namensnennung - Keine Bearbeitung)

CC BY-NC (Namensnennung - Nicht kommerziell)

CC BY-SA (Namensnennung - Weitergabe unter gleichen Bedingungen)

CC BY-NC-SA (Namensnennung - Nicht-kommerziell - Weitergabe unter gleichen Bedingungen)

CC BY-NC-ND (Namensnennung - Nicht-kommerziell - Keine Bearbeitung)

GNU Lizenzen (2016[10]) für Softwarecode

GNU General Public License (GPL)

GNU Lesser General Public License

GNU Affero General Public License

GNU Free Documentation License

Datennachnutzung

Da auf Grund von neuen Policies der Forschungsförderer und Institutionen vermehrt Forschungsdaten zur Verfügung gestellt werden, wird auch die Nachnutzung der Daten für viele Fachbereiche zunehmend interessant. In vielen Disziplinen werden Forschungsdaten aus unterschiedlichen Quellen zusammengefügt, um neue Forschungsergebnisse und Einblicke zu erzielen. Vor allem fachbereichsübergreifend entstehen so neue Erkenntnisse. Um den Primärforscherinnen und Primärforschern dieser Daten Rechnung zu tragen, ist die Datenzitation ein wichtiger Bestandteil des Forschungsdatenmanagements, um die Nachnutzung von Daten zu dokumentieren. Die Entwicklung von persistenten Identifikatoren hat die Datenzitation maßgeblich vereinfacht.

Für die Nachnutzung von Forschungsdaten sind die anhängenden Rechte und Lizenzen von zentraler Bedeutung. Sie geben vor, welche Art der Nachnutzung möglich ist und können beispielsweise eine kommerzielle Nutzung untersagen (CC BY-NC).

Möglichkeiten, um Forschungsdaten für die Nachnutzung zur Verfügung zu stellen:

  • Bereitstellung der Daten im Rahmen einer Textpublikation
  • Eigenständige Ablage in einem Datenarchiv oder Repositorium
  • Data Journal

Persistente Identifikatoren

Ein persistenter Identifikator (Englisch "persistent identifier", PID) ist eine eindeutige und dauerhafte Benennung einer digitalen Ressource (z. B. Forschungsdaten) durch Vergabe eines Codes (Helmholtz-Zentrum Potsdam Deutsches GeoForschungsZentrum GFZ 2015[11]). Vergleichbar einer ISBN (Internationale Standardbuchnummer) für Bücher ist der persistente Identifikator ein eindeutiger Bezeichner, kann aber zugleich für eine dauerhafte Verlinkung herangezogen werden, um ein Linksterben (404 Fehler) zu verhindern.

Beispiele für persistente Identifikatoren:

Datenzitation

Forschungsdaten sind als wertvolle Ergebnisse der Forschungstätigkeit anzusehen und somit zu zitieren. Die Zitation von Forschungsdaten kann von Verlag zu Verlag unterschiedlich sein. Auch disziplinspezifische Unterschiede sind - vergleichbar einer Buchpublikation - möglich. Die Datenzitationsprinzipien von FORCE11 (Data Citation Principles) sollten beachtet werden (2014[12]).

FORCE11 Empfehlung zur Datenzitation (2014[13]):

Autor(en), Publikationsjahr, Titel der Forschungsdaten, Datenrepositorium oder Archiv, Version, weltweit persistenter Identifikator

Der persistente Identifikator sollte dabei vorzugsweise als Link dargestellt werden.

Zusammenfassung

Forschungsdatenmanagement umfasst alle Phasen des Forschungsprozesses von der Idee bis zum Projektende und darüber hinaus. In jeder dieser Phasen gibt es Anforderungen zu beachten, die sowohl Forschungsdaten als auch deren Produzenten betreffen. Allerdings spielen auch viele weitere Akteure eine Rolle bei der Verarbeitung und dem Management von Forschungsdaten (siehe hierzu auch Kapitel Wer betreibt Forschungsdatenmanagement?). Forschende, akademische Institutionen, Forschungsförderer, Verlage und Unternehmen haben unterschiedliche Interessen und Vorgaben, die zu berücksichtigen sind. Die transparente Dokumentation eines Forschungsprozesses ist aufwändig und benötigt daher unterstützende Methoden und klar formulierte Ziele.

Die besondere Herausforderung beim Forschungsdatenmanagement ist zum einen Forschungsdaten so zu produzieren, zu verarbeiten, zu archivieren und zu veröffentlichen, dass sie sowohl für den Forschenden selbst als auch für andere (eingeschlossen zukünftige Generationen) (nach)nutzbar sind und bleiben. Zum anderen ist das - sicher nicht immer ganz einfache - Zusammenspiel zwischen den verschiedenen Akteuren im Forschungsdatenmanagement zu meistern. Nicht zuletzt hat das Management von Forschungsdaten in jeder Disziplin seine eigenen Regeln und ist nicht mit einem allgemeinen Schema abzubilden. Forschungsdaten und Erhebungsmethoden variieren von Fachbereich zu Fachbereich. Die hier genannten Aspekte sind Anhaltspunkte, die nicht unbedingt in jeder Disziplin relevant sind und eingehalten werden müssen. Die Disziplinspezifika machen sich vor allem bei der Nutzung von Checklisten zum Erstellen von Datenmanagementplänen bemerkbar (s. dazu auch den Abschnitt Forschungsdatenmanagementpläne im Kapitel Werkzeuge des Forschungsdatenmanagements).

Fragen zum Verständnis

  • Welche Aspekte umfasst das Forschungsdatenmanagement?
  • Was sollte bei sensiblen Daten beachten werden?
  • Was sind persistente Identifikatoren und welchen Zweck erfüllen sie?
  • Warum werden Nutzungslizenzen benötigt und welche Arten von Lizenzen eignen sich für welche Arten von Forschungsdaten?
  • Wozu dienen Metadaten und warum ist es sinnvoll Forschungsdaten damit anzureichern?

Weiterführende Literatur

  • Bertelmann, Roland; Gebauer, Petra; Hasler, Tim; Kirchner, Ingo; Peters-Kottig, Wolfgang; Razum, Matthias; Recker, Astrid; Ulbricht, Damian; van Gasselt, Stephan (2014). Einstieg ins Forschungsdatenmanagement in den Geowissenschaften. Postdam, GeoForschungsZentrum Potsdam. DOI: http://doi.org/10.2312/lis.14.01
  • Hartmann, Thomas (2014). Urheberrecht in der Bildungspraxis – Leitfaden für Lehrende und Bildungseinrichtungen. Bielefeld, W. Bertelsmann.
  • ZBW, GESIS, RatSWD (2015). Auffinden - Zitieren - Dokumentieren: Forschungsdaten in den Sozial- und Wirtschaftswissenschaften. Version 2.0. DOI: http://doi.org/10.4232/10.fisuzida2015.2

Referenzen

Warum braucht man Forschungsdatenmanagement?

Warum Forschungsdatenmanagement? (Enke/Ludwig)

Diese Frage kann auf unterschiedliche Weisen betrachtet werden:.

1. Wie ist das heute praktizierten Forschungsdatenmanagement entstanden? Diese Frage beschäftigt sich mit den Änderungen in den Forschungs(infra)strukturen, den Änderungen im Forschungsprozess, des wissenschaftlichen Arbeitens und auch mit den Änderungen des Status der Wissenschaftler.

2. Warum ist es sinnvoll, dass Forschungsdaten einem Management unteliegen sollen? Unabhängig davon, wie es dazu kam, kann der Sinn des Forschungsdatenmanagement in einer Reihe von Verbesserungen für die Wissenschaftlerin, die ihre eigenen Forschungsdaten managet, für den Wissenschaftler, der fremde Forschungsdaten nachnutzt, und für das Wissenschaftssystem als Ganzes, das zuverlässiger und effizienter wird, gesehen werden.

3. Und schließlich ist es auch sinnvoll sich zu vergegenwärtigen, in welchen Fällen Forschungsdatenmanagement nicht oder nur in reduziertem Maße sinnvoll ist, denn unterschiedliche Daten benötigen und rechtfertigen auch unterschiedliche Maßnahmen.

Wie hat sich, das heute praktizierte Forschungsdatenmanagement entwickelt?

Der nahezu ubiquitäre Einsatz von eletronischen Komponenten, angefangen bei dem Ersatz der Schreibmaschine durch den Arbeitsplatzrechner, über die digitale Steuerung von Arbeitsinstrumenten in Werkstatt und Labor bis hin zu Messgeräten und Instrumenten, die ohne elektronische/digitale Komponenten nicht denkbar sind, haben die Produktionsbedingungen in allen Fachdisziplinen einschneidendverändert. Damit einher sind Arbeitsweise und Arbeitsplatz eines Forschers einem tiefgreifenden Wandel unterworfen. Zudem ergeben sich für die Organisation der Forschungsprozesse sowohl im Labor als in ganzen Einrichtungen neue und weitergehende Aspekte bei der Erfassung und Bearbeitung vonUntersuchungen. Ein Beispiel für den Impact auf den individuellen Forschungsvorgang: Ein Physiker musste für die Messung in einem Experiment unter Verwendunganaloger Instrumente sicherstellen, dass deren Kalibrierung korrekt durchgeführt wurde, konnte dies im Laborbuch angeben/beschreiben und dann die Messreihen durchführen und protokollieren. Unter Verwendung eines modernen Messgerätes kann man diese Messreihen von der Elektronik protokollieren und auslesen lassen, wobei hier bereits das Problem der herstellerspezifischen Datenformate eine Rolle spielen kann, neben den Kalibrierungen, die nur noch begrenzt selbst vorgenommen werden können. Für einen Sprachwissenschaftler, der anstelle des materiellen Zettelkastens z.B. eine solche Sammlung im Arbeitsplatzrechner anlegt und nutzt, stellt sich ein ähnliches Problem: dass die im Rechner verfügbaren Programme / Apps alle Daten in meist software-spezifischen Formaten ablegent, und bei einem Umzug zu einen neuen Rechner diese nicht unbedingt noch weiter zur Verfügung steht. =>Digitale Daten verändernMethoden und Verfahren der Datenhaltung, insbesondere für die Wissenschaft. Suchen Sie Beispiele aus verschiedenen Fachisziplinen und arbeiten Sie die spezifischen Veränderungen heraus.

Die im Forschungsprozess eingesetzten Instrumente werden durch Chips und elektronische Sensoren gesteuert, wie auch die Datennahme mit diesen Instrumenten. Grössere Instrumente, wie z.B. MRI-Scanner in der Medizin, hochauflösende CCD-Kameras in vielen Anwendungsgebieten sind aus dem Forschungsalltag nicht mehr wegzudenken. Die Anforderungen an Güte und Genauigkeit treiben die erfassten Datenmengen in neue Grössenordnungen.Die Fülle der Daten, die anfallen, kann nur mit Hilfe von Computern aufbewahrt und organisiert werden. Die Kosten für solche Instrumente können nur durch gemeinschaftliche Nutzung durch grössere Gruppen von Wissenschaftlern für diverse Fragestellungen gerechtfertigt werden. Einher geht eine Veränderung des Forschungsprozesses, mitSpezialisierung, Arbeitsteilung und Kooperation der Forscher. Bereits auf der Ebene der Entstehung bzw. Produktion erfordert das Erfassen und Bearbeiten der Daten Konventionen und Absprachen, mindestens zwischen den beteiligten Wissenschaftlern. Solange jedoch die Resultate von Experimenten und Messungen einzig in textueller Form (Publikation) als relevante Ergebnisse betrachtet werden, stellt ein solches Verfahren kein Problem dar, vorausgesetzt, dass die Datenstrukturen einfach genug sind und die Spezialisten verfügbar bleiben. Diese Voraussetzungen sind mit zunehmender Komplexität der Instrumente der der Anzahl der Beteiligten kaum mehr eine realistische Annahme. In den Sozialwissenschaften sind es die grossen, durch staatliche Institutionen und Organisationen erfassten Datenbestände (Gesundheitsbehörden, Kranken- und Sozialversicherungen, Katasterämter, Steuerbehörden, Volkszählungen usw.), die neben dievon den Wissenschaftlern geplanten Surveys und daraus gewonnene Daten treten. Natürlich haben diese Organisationen jeweils eigene, historisch gewachsene und beschränkte Verfahren zur Datenorganisation, die sich auch in der digitalen Struktur ihrer Datensammlungen widerspiegeln. Es ist offensichtlich, dass eine Verbesserung der Datenorganisation durch Erweiterung der Schnittmenge von gemeinsamen Metadaten enorme Vorteile allein schon für die Sozialwissenschaften hätte. Wir betrachten hier die ökonomischen, legalen und politischen Aspekte nicht.

=> In beschränktem Umfang ist die Organisation der Datensammlung ein Bestandteil des Forschungsprozesses, wie auch im Betrieb einer Organisation. Charakteristisch hierfür sind jedoch die ideosynkratischen Strukturen dieser Datensammlungen. Die Notwendigkeit einer systematischen und professionellen Herangehensweise bei der Organisation der Daten wird durch die Komplexität des Forschungsprozesses erzwungen und ist Bestandteil desselben. Metadaten sind spezifisch, jedoch sind grosse Schnittmengen zwischen den verschiedenen Systemen möglich und vorteilhaft.

Neben der öffentlich gefördertengibt es auch private Forschung in industriellem Auftrag oder in Unternehmen. Die folgende Betrachtung setzt jedoch voraus, das wissenschaftliche Erkenntnis auch öffentlichen Zugang und freien Austausch erfährt. Aus den Anfängen der modernen Wissenschaft im 18/19 Jahrhundert ist das Bild des Gelehrten, der seine Experimente und Forschungtätigkeit durch eigene Mittel finanziert, als Ideal gewärtig. Damit ist auch assoziiert, das die Ergebnisse seiner Forschung, wie auch seine Datensammlungen, privater Schatz des Gelehrten sind. Diese Vorstellung ist in der heutigen Zeit keineswegs mehr zutreffend. Der Grossteil der Forschung in Instituten und Hochschulen wird öffentlich finanziert. Damit sind auch Ergebnisse der Wissenschaftler in solchen Einrichtungen nicht mehr fraglos ihr materielles Eigentum, unbeschadet davon, das Ergebnisse ihr geistiges Eigentum bleiben. Die Schlussfolgerung hieraus ist, dass Verfügung über die Datensammlungen und auch deren Datenorganisation nicht beim einzelnen Forscher verbleiben kann und auch nicht seiner alleinigen Disposition unterliegen kann. Die legale Kodifizierung ist hier historisch, teilweise hinter der faktuellen Entwicklung zurückgeblieben.

=> Forschungsdaten aus öffentlich finanzierten Forschungseinrichtungen sind öffentlich finanziertes Gut. Warum sind die Urheberschaft, i.e. das Recht, als Schöpfer/Autor einer wissenschaftlichen Erkenntnis genannt zu werden, und das Verwertungsrecht, i.e.mit den Anwendungen einer Erkenntnis Produkte zu erzeugen oder sie anderweitig wirtschaftlich zu verwerten, auseinanderzuhalten?

Warum ist Forschungsdatenmanagement sinnvoll?

Nutzen und Zweck des Forschungsdatenmanagement

Die digitale Form der Datensammlungen ermöglicht vielfältigere als nur die ursprünglich intendierte Nutzung, bietet neue Wege der Verifikation publizierter Ergebnisse,ermöglicht Kombination von Datensammlungen aus anderen wissenschaftlichen Fragestellungen und Fachgebieten. Die digitale Information ist darüberhinaus IT-basierten Methoden zugänglich, die mit statistischen und algorithmischen Analysen von Datensammlungen neue Gebiete in der Wissenslandschaft erschliessen, z.B. Computerlinguistik.Der daraus resultierende Nutzen für Wissenschaft und Gesellschaft ist noch nicht ausgelotet. Die Datenorganisation und Aufbereitung für deren erweiterte Wiederverwendung (Kuratierung) ist in vielen Wissensgebieten noch nicht bereit für die Möglichkeiten der digitalen Verwendung.

Im Folgenden sind einige der Nutzen für die Community (= Gemeinschaft der Wissenschaftler) aufgelistet:

  • FDM ermöglicht Anwendung neuer Methoden auf alte Daten, die zum Entstehungszeitpunkt der Daten noch nicht existierten
  • FDM ermöglicht Nutzung eines größeren Datenbestands
  • FDM hilft bei der Reproduzierbarkeit und Nachvollziehbarkeit von Wissenschaft.
  • Häufig ist die Erzeugung der Daten viel teurer als die Bewahrung. Dieselben Daten mehrmals zu erzeugen verschwendet Zeit und Geld, die in Wissenschaft hätten investiert werden können. Nicht zuletzt deshalb haben Förderinstitutionen ein hohes Interesse an Forschungsdatenmanagement und erlassen entsprechende Auflagen, um den Gesamtnutzen ihrer Investitionen zu verbessern.
  • Manche Daten können aber gar nicht reproduziert werden, egal wieviel Geld investiert wird. Beobachtungsdaten, seien es naturwissenschaftliche Messdaten aus Klimavorgängen oder gesellschaftswissenschaftliche Umfragen können nicht ein Jahr später einfach wiederholt werden, es sind episodische Daten. Forschungsdatenmanagement ist notwendig, um solche Daten nutzbar zu halten.

Es ist wichtig zu betonen, dass Forschungsdatenmanagement nicht nur anderen Wissenschaftlern hilft, die dann z.B. die Forschungsdaten nachnutzen, sondern auch den erzeugenden Wissenschaftlern und dem Ausgangsforschungsprojekt nützen kann. Diese ist besonders wichtig, weil sich derzeit Forschungsdatenmanagement-Aktivitäten häufig in einem Rechtfertigungszwang befinden, der durch Auflagen und Angebot der Förderinstitution nur begrenzt gemindert wird:

  • neue Methoden erfordern FDM
  • FDM ermöglicht neue Methoden
  • FDM sichert die Forschung z.B. vor Datenverlust


Warum kann Forschungsdatenmanagement auch nicht sinnvoll sein?

Auch wenn es eine Vielzahl von guten Gründen gibt, in Forschungsdatenmanagement zu investieren, so muss man doch in jedem Fall abwägen, ob und welche Maßnahmen sich lohnen. Die Ressourcen sind an jeder Institution und im gesamten Wissenschaftssystem begrenzt und man kann sehr viel Aufwand in das Forschungsdatenmanagement weniger Datensätze investieren. Eine Aufgabe des Forschungsdatenmanagement ist es deshalb auch abzuschätzen, wo sich der Aufwand lohnt und das Aufwand-Nutzen-Verhältnis besonders günstig ist. Diese Aufgabe ist leider sehr schwierig und aufgrund der damit verbundenen Mittelinvestition auch sehr politisch. Wenn ein Forschungsdatenzentrum sich z.B. entscheidet, bestimmte Daten nicht anzunehmen und keinen Aufwand zu investieren, dann wird es sicherlich einzelne Fälle geben, in denen es sinnvoll gewesen wäre, die Daten doch anzunehmen. Wenn es einen rationalen und auf Erfahrungen basierenden Auswahlprozess entwickelt hat, wird es aber wahrscheinlich überwiegend die richtige Entscheidung treffen. Und ähnliche Abwägungen müssen nicht nur für die Auswahl von Daten, sondern z.B. auch für die Art und Intensität des Datenmanagements jedes einzelnen Datensatzes getroffen werden. Dass es bei jeder einzelnen Entscheidung auch Fehlentscheidung gibt, macht den Gesamtprozess aber nicht überflüssig. Der Verzicht auf eine möglichst rationale Planung und bewusste Entscheidung für oder gegen Forschungsdatenmanagement würde hingegen den Prozess dem Zufall überlassen und man würde darauf verzichten, möglichst effizient Forschungsdaten zu managen. Ein solcher Entscheidungsprozess kann jedoch nicht ausschliesslich durch Repository, Datenzentrum oder Archiv erfolgen, er muss auf von der jeweiligen Fachcommunity zu entscheidenden Kriterien beruhen. So diese Community-Prozesse noch nicht etabliert sind, ist es auch Aufgabe dieser Datenprovider, solche zu initiieren. => Welche Akteure sollten bei der Entscheidung über ein Management von Daten einbezogen werden? Warum ist FDM nicht in jeden Falle anzuwenden?

Zusammenfassung

  • Die Frage, warum wir Forschungsdatenmanagement brauchen, kann unter verschiedenen Gesichtspunkten betrachtet werden: die historische Entwicklung (Warum hat sich FDM herausgebildet?), der Nutzen (Warum ist FDM für wen sinnvoll?) und den Voraussetzungen (Warum ist FDM in einem bestimmten Fall noch oder nicht mehr sinnvoll?).
  • Historisch hat sich mit der Weiterentwicklung der wissenschaftlichen Methoden und Instrumente auch das Forschungsdatenmanagement weiterentwickelt.
  • Forschungsdatenmanagement ist nützlich für die individuellen Wissenschaftler (als Datenproduzenten und -nutzer) und die Wissenschaft und Gesellschaft als Ganze.
  • Forschungsdatenmanagement ist aufwändig und nicht in jedem Fall steht der Aufwand in einem sinnvollen Verhältnis zum Nutzen.

Weiterführende Literatur

Wer betreibt Forschungsdatenmanagement?

Stephan Büttner, Hans-Christoph Hobohm

Fachhochschule Potsdam

Wie bereits in Kap. 1 erwähnt, ist Forschungsdatenmanagement zunächst eine originäre Tätigkeit der Wissenschaftlerinnen und Wissenschaftler selbst. Bis in das 20. Jahrhundert wurde die Datenerhebung manuell durch den Wissenschaftler oder Assistenen durchgeführt. Forschungsdaten treten in mannigfaltiger Form und sehr disziplinspezifisch auf.

Einige Beispiele mögen dies belegen.

  • In den Naturwissenschaften waren (und sind!) sog. Laborbücher üblich. (s. Abb. 1).
Abbildung: Laborbuch Otto Hahn 1938 eutsches Museum - Munich“ von J Brew - originally posted to Flickr as Nuclear fission Deutsches Museum. Lizenziert unter CC BY-SA 2.0 über Wikimedia Commons - https://commons.wikimedia.org/wiki/File:Otto_Hahn%27s_notebook_1938_-_Deutsches_Museum_-_Munich.jpg#/media/File:Otto_Hahn%27s_notebook_1938_-_Deutsches_Museum_-_Munich.jpg
  • Laborbücher dienen der chronologischen Dokumentation der wissenschaftlichen Tätigkeit. Es werden Versuchsaufbau und die Forschungs(mess-)daten und Randbedingungen eingetragen.
  • Neben den eigentlichen “Messdaten” sind auch die Messinstrumenten-Daten (klassische Metadaten) von hoher Relevanz, also Daten zur Genauigkeit und Qualität der Messungen (zufällige und systematische Abweichung), Maßeinheiten etc.
  • In den Sozialwissenschaften, vor allem in der empirischen Sozialforschung fallen datenbasierte Forschungsergebnisse an. Von klassischen Fragebögen für mehr oder weniger weitreichende Umfragen des Einzelforschers bis zu Wahl- oder Zensusdaten bzw. den Erhebungen der statistischen Ämter der Gebietskörperschaften, die unabhängig von einzelnen Forschungsfragestellungen häufig regelmäßig erhoben werden. Die Bereitstellung von Originaldatensätzen für die sog. Sekundäranalyse steht hierbei nicht nur unter dem Gesichtspunkt der Überprüfung von Forschungsergebnissen anderer Forscher, sondern stellt auch die Bereitschaft dar, Datensätze nachzunutzen mit anderen Forschungsfragen. Schon früh (spätestens seit den 1970er Jahren) haben sich dazu in vielen Ländern Datenarchive etabliert, wie zum Beispiel das Zentralarchiv für empirische Sozialforschung in Köln (jetzt Teil der GESIS).
  • In den Geisteswissenschaften sind neben historischen Editionen einzelner Texte oder Autoren vor allem große Korpora zur Sprachanalyse oder Edition von Wörterbüchern wichtige Beispiele, wie der Index Thomisticus (1946ff) von Roberto Busa oder der “American and French Research on the Treasury of the French Language” (ARTFL) (1982ff). Zur Textanalyse werden jedoch auch vielfach politische Reden oder Pressetexte verwendet. In den historischen Wissenschaften sind naturgemäß zeitbezogene Daten wichtig bzw. die Normierung historischer Daten und Fakten wie Kalenderdaten, Währungen, Maßeinheiten etc. Hierzu haben sich spezielle Tools und Forschungszentren etabliert wie die Datenbanksoftware “kleio” oder das ehemalige Zentrum für Historische Sozialforschung (ZHSF) in Köln.

Interessant ist, dass, obwohl die Wissenschaftler zwar die eigentlichen Akteure bei der Erhebung der Daten sind, ein Management der Daten nicht originär an die Wissenschaftler gebunden ist. Dies hängt mit dem Ziel der Datenerhebung zusammen, ob die Daten für den einmaligen Gebrauch oder z.B. für Kooperationsvorhaben erhoben werden.

So war es üblich, Daten nach der Erhebung und Auswertung in lokalen Systemen abzulegen, eine systematische Datenspeicherung und -weitergabe wurde, wenn überhaupt, auf der Ebene von Arbeitsgruppen oder Instituten praktiziert (Büttner,Hobohm, Müller 2011, S. 18).

Daten entstehen aus vielfältigen Gründen und Kontexten, im Rahmen lokaler Forschungsarbeiten (Small Science) ebenso im Rahmen internationaler Großprojekte (Big Science). Werden Daten für lokale, isolierte Forschungsvorhaben, den o.g. Small Science, z.B. im Rahmen von Graduierungen, erhoben, so fehlt i.d.R. ein zentrales Forschungsdatenmanagement. Studien zeigen: “Die Daten verbleiben bei den Datenproduzenten und es ist i.d.R kaum oder nicht bekannt, welche Daten es gibt und wer welche besitzt”. (Büttner, Söhnitz, 2014).

Werden Daten im Rahmen von Kooperationsprojekten erhoben (Big Science), gibt es i.d.R. sog. Policies, die den Umgang, das Management der Daten regeln (s.a. Kap. 3). In diesen Policies wird sehr genau geregelt, Wer, Was, Wann und Wie mit den Daten machen muss. Anders ist das bei Kooperationsprojekten kaum möglich. Beispiele:

  • Ein anschauliches Beispiel ist der Large Hadrone Collider in Cern, bei dem mehrere Tausend Wissenschaftler an unterschiedlichen Projekten kollaborativ arbeiten. Im Projekt ATLAS (A Toroidal LHC ApparatuS) sind mehr als 3000 Wissenschaftler beteiligt (Cern, 2015).
  • Als weiteres Beispiel sei das “World Radiation Monitoring Center – Baseline Surface Network” genannt. Für jede Station gibt es einen Wissenschaftler (den sog. station scientist) der verantwortlich für die Messung und Datenqualität ist (WRMC-BSRN, 2015).
  • In den Sozialwissenschaften gibt es ebenfalls transnationale Erhebungsinstrumente unter Beteiligung großer Wissenschaftlerverbünde, wie z.B. dem Inter-university Consortium for Political and Social Research (ICPSR) oder kontinuierliche Erhebungen wie den European Social Survey (ESS). In diesem Zusammenhang entstehen international akzeptierte Erhebungs- und Metadatenstandards.
  • Das “Projekt Gutenberg” ist eines der Beispiele zur kooperativen Sammlung von digitalisierten Texten zur philologischen Analyse. Im Kontext der Textanalyse entwickelte sich z.B. der Metadatenstandard “TEI”: der “Text Encoding Initiative”, der vor allem regelt, wie spezielle Texteigenschaften kodiert werden sollen (vgl. Nyhan 2012).
  • Die historischen Wissenschaften legen immer schon großen Wert auf “ihre” Hilfswissenschaften, die im Grunde schon in nuce das “Datenmanagement” der Quellen festlegten. Im Digitalen Kontext wird nunmehr häufig die Verwaltung der Datenhandbücher von Einrichtungen wie dem Leibniz Institut für Sozialwissenschaften (GESIS) in Mannheim/Köln übernommen oder findet in Sammlungen von Digitalen Bibliotheken Niederschlag.

In den letzten Jahrzehnten hat die Erzeugung von Forschungsdaten exponentiell zugenommen. Gründe dafür sind insbesondere in der Entwicklung von Computern und Speichermedien zu suchen. Schon vor Jahren wurde von einer „Datenflut“ (Hey & Trefethen, 2003) gesprochen. Messungen erfolgen zunehmend automatisch, die elektronische Speicherung und Verknüpfung von Forschungsdaten ermöglicht immer größere Datenmengen mit statistischen Verfahren und Visualisierungswerkzeugen auszuwerten. (Büttner, Hobohm, Müller 2011, S. 18). Der Computerwissenschaftler Jim Gray hielt die Umwälzungen in der Wissenschaftparadigmatik für so gravierend, dass er von der Entstehung eines vierten Forschungsparadigmas sprach, den sog. “datengetriebenen Wissenschaften” (Hey, Tansley, Tolle 2009).

In diesem Kontext werden Daten selbst zum zentralen Output wissenschaftlicher Arbeit. Die Bereitstellung durch die Informationsinfrastruktureinrichtungen wiederum zum Erfolgsfaktor der Wissenschaft. Datenmanagement ist demnach eine neue Ausprägung des Informations- und Wissensmanagements mithin ein originäres Thema der Informationswissenschaften. Es geht um Bewertung und Einordnung in Kontexte, um Metadaten, um Ontologien sowie um die Verknüpfung der Daten mit den Experten. Informationswissenschaftler und Praktiker (z.B. Datenbibliothekarinnen, Informatikerinnen, Fachwissenschaftlerinnen etc.), die an wissenschaftlichen Einrichtungen das zentrale Forschungsdatenmanagement betreiben, werden damit zu weiteren Akteuren des Forschungsdatenmanagements. Eine Studie aus 2014 zeigt aber deutlich, dass das zentrale Forschungsdatenmanagement an Universitäten und außeriuniversitären Forschungseinrichtungen aus Gründen fehlender finanzieller Ressourcen mit einem sehr geringen Personalansatz erfolgt (Büttner, Söhnitz, 2014). Um dennoch ein Forschungsdatenmanagement aufbauen zu konnen, kommt der Kooperation innerhalb der Informationsinfrastruktur (Rechenzentrum, Bibliothek) eine sehr hohe Bedeutung zu.

Zusammenfassung

Forschungsdatenmanagement ist ein originäres Betätigungsfeld von Wissenschaftlerinnen und Wissenschaftler. Die Datenerhebung erfolgte bis in das 20. Jahrhundert manuell durch die Wissenschaftler oder Assistenten. Forschungsdaten treten in mannigfaltiger Form und sehr disziplinspezifisch auf. Ein systematisches, zentrales Management der Forschungsdaten ist vorwiegend in den sog. Big Science vorhanden. Bei den Small Science fehlt i.d.R. ein zentrales Forschungsdatenmanagement. Die Erzeugung von Forschungsdaten hat exponentiell zugenommen. Daten werden zum zentralen Output wissenschaftlicher Arbeit. Datenmanagement ist eine neue Ausprägung des Informations- und Wissensmanagements und damit ein zentrales Betätigungsfeld für die Informationswissenschaft. Forschungsdatenmanagement wird zunehmend von der Informationsinfrastruktur (Rechenzentrum, Bibliothek) und den Fachwissenschaftlern in enger Kooperation betrieben.


Fragen zum Verständnis

  • Was wird unter Big und Small Science verstanden?
  • Warum ist eine disziplinspezifische Betrachtung bei den Forschungsdaten sinnvoll und notwendig?
  • Welche Rolle spielen Policies beim Forschungsdatenmanagement?
  • Diskutieren Sie die Rollen der einzelnen Akteuere!
  • Warum ist das Datenmanagement eine neue Ausprägung des Informations- und Wissensmanagements?

Referenzen

Büttner, Stephan; Hobohm, Hans-Christoph; Müller, Lars (Hrsg,) (2011): Handbuch Forschungsdatenmanagement. Bad Honnef: Bock + Herchen.

Büttner, Stephan; Sönitz, Stefanie (2015): Die personelle Umsetzung des Forschungsdatenmanagements - Eine Ist-Stand-Betrachtung 2014
Online: http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:525-10123

Cern 2015: Online: http://home.cern/about/experiments

Hey, Tony; Trefethen, Anne (2003). The Data Deluge: An e-Science Perspective.Wiley and Sons. Online:http://eprints.ecs.soton.ac.uk/7648/

Hey, Tony; Tansley, Stewart; Tolle, Kristin (2009). Jim Gray on eScience: A Transformed Scientific Method. In: A. Hey St. Tansley & K.M. Tolle, 2009. The Fourth Paradigm Data-Intensive Scientific Discovery. Redmond, Wash.: Microsoft Research, S. xix-xxxiii. Online: http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf

Nyhan, Julianne (2012): Text encoding and scholarly digital editions. In: Claire Warwick, Melissa Terras und Julianne Nyhan (Hg.): Digital humanities in practice. London: Facet Publ, S. 117–137.

World Radiation Monitoring Center – Baseline Surface Network (WRMC BSRN) 2015: Online: http://bsrn.awi.de/en/data/data_input

Werkzeuge des Forschungsdatenmanagements

Autoren: Maxi Kindling, Heinz Pampel

Forschungsdatenmanagementpläne

In Forschungsdatenmanagementplänen (im Englischen “Data Management Plan” genannt) wird der Umgang mit Forschungsdaten in einem Forschungsprojekt von der Planung bis zum Abschluss eines Projekts dokumentiert.

Forschungsdatenmanagementpläne sind dynamische Dokumente, die im Projektverlauf immer wieder angepasst werden können. Sie geben einem Projekt und seinen Partnerinnen und Partnern einen Handlungsrahmen für den Umgang mit den im Projekt entstehenden und verwendeten Forschungsdaten.

Inhalte von Datenmanagementplänen sind  z. B. Aussagen zu Typ und Format der Forschungsdaten, deren Grad der Standardisierung ( z. B. verwendete Metadaten, Datenformate), Angaben zur Zugänglichkeit und den Möglichkeiten der Nachnutzung sowie zu den angewandten Verfahren der langfristigen Bewahrung der Forschungsdaten.

Forschungsförderorganisationen fordern zunehmend bereits im Rahmen der Projektantragstellung Aussagen zur Zugänglichkeit und Nachnutzbarkeit der Forschungsdaten. Die konkreten Anforderungen an diese Forschungsdatenmanagementpläne sind in den Leit- oder Richtlinien zur Antragstellung formuliert.

Im Folgenden werden die Anforderungen der Europäischen Kommission im Rahmen von Horizon 2020 sowie die Anforderungen der Deutschen Forschungsgemeinschaft (DFG) an Forschungsdatenmanagementpläne exemplarisch dokumentiert: 

Beispiel 1: Horizon 2020

Die Europäische Kommission fordert im Rahmen des sogenannten “Open Research Data Pilot” im Forschungsrahmenprogramm Horizon 2020 Forschungsdatenmanagementpläne.

Hilfestellungen für das Verfassen dieser Pläne finden sich in den „Guidelines on Data Management in Horizon 2020“[14]. Nach diesen umfasst ein Forschungsdatenmanagementplan folgende Punkte:

●      “Data set reference and name,

●      Data set description,

●      Standards and metadata,

●      Data sharing,

Archiving and preservation (including storage and backup).”

Beispiel 2: Deutsche Forschungsgemeinschaft (DFG)

Die Anforderungen der Deutsche Forschungsgemeinschaft (DFG) an Antragestellerinnen und Antragsteller enthält der „Leitfaden für die Antragstellung”[15]. Dort heißt es: “Wenn aus Projektmitteln systematisch Forschungsdaten oderInformationen gewonnen werden, die für die Nachnutzung durch andere Wissenschaftlerinnen und Wissenschaftler geeignet sind, legen Sie bitte dar, ob und auf welche Weise diese für andere zur Verfügung gestellt werden. Bitte berücksichtigen Sie dabei auch - sofern vorhanden - die in Ihrer Fachdisziplin existierenden Standards und die Angebote existierender Datenrepositorien oder Archive.”

Während die DFG diese Aussagen zum Datenmanagement im Rahmen der Antragstellung erwartet, sind Datenmanagementpläne im Rahmen von Horizon 2020 als “deliverable” in den ersten sechs Monaten eines Projekts einzureichen. Weitere Aussagen eines Projektkonsortiums zum Datenmanagement werden im Projektverlauf und zum Ende eines Projekts erwartet.[16] Für die Erstellung dieser Pläne gibt es mittlerweile mehrere Werkzeuge und Vorlagen.[17] Beispiele sind:

●      Checkliste zum Forschungsdaten-Management des WissGrid-Projeks, Deutschland[18]

●      DMPonline des Digital Curation Centre, Großbritannien,[19]

●      DMPTool der University of California, U.S.A.[20]

Sinnvoll ist es auch, Forschungsdatenmanagementpläne als Berechnungsgrundlage für die Kosten des Forschungsdatenmanagements zu nutzen. Teilweise stellen Förderorganisationen Mittel für diese Arbeiten zur Verfügung. Im Rahmen eines Forschungsdatenmanagementplans können die beantragten Mittel so nach Aktivität des Forschungsdatenmanagements aufgeschlüsselt werden.

Informationsinfrastrukturangebote

Um die Transparenz der Forschung und die Nachnutzung von Forschungsdaten zu ermöglichen, können verschiedene Informationsinfrastrukturangebote genutzt werden. Sie ermöglichen den Nachweis der Forschungsdaten durch beschreibende Metadaten, den Zugang zu den Forschungsdaten für die Öffentlichkeit oder eine ausgewählte Nutzergruppe ( z. B. aus datenschutzrechtlichen Gründen) sowie die längerfristige Erhaltung der Forschungsdaten.

Unter Informationsinfrastrukturen werden in der Wissenschaft die technischen, organisatorischen, finanziellen und personellen Ressourcen in ihrem Zusammenspiel verstanden, die die Informationsversorgung -und verarbeitung gewährleisten.[21] Informationsinfrastruktureinrichtungen sind beispielsweise Rechenzentren, Datenzentren, Bibliotheken, Archive und Museen. Informationsinfrastrukturangebote sind Teil der Forschungsinfrastruktur und verstehen sich als Dienstleister für eine definierte Nutzergruppe. Im Zuge der Digitalisierung sind sie bestrebt die von ihnen gespeicherten Informationsobjekte über das Internet zugänglich zu machen. In den informationswissenschaftlichen Disziplinen sind Informationsinfrastrukturangebote Gegenstand der Forschung und Entwicklung. Es werden Anforderungen aus der Praxis erhoben, Angebote wie Repositorien und Mehrwertdienste aufgebaut, analysiert und weiterentwickelt, die technische und organisatorische Vernetzung dieser Infrastrukturen vorangetrieben sowie Qualitätsstandards entwickelt und verbreitet. Darüber hinaus werden Geschäfts- und Finanzierungsmodelle eruiert und die Anwendung von geeinigten rechtlichen Lizenzmodellen betrachtet.

Die Deutsche Forschungsgemeinschaft (DFG) empfiehlt in ihrer Denkschrift “Vorschläge zur Sicherung guter wissenschaftlicher Praxis” aus dem Jahr 1998,[22] die an vielen wissenschaftlichen Institutionen in Deutschland bindenden Charakter haben, die Aufbewahrung von Forschungsdaten für mindestens zehn Jahre.

Angemerkt werden muss jedoch, dass die von der DFG geforderte “Sicherung und Aufbewahrung”[23] weder die Zugänglichkeit der Forschungsdaten noch deren Nachutzbarkeit sicherstellt. Diese Forderung ist somit als Mindestanforderung für den Umgang mit Forschungsdaten zu verstehen. Im Jahr 2015 hat die DFG zusätzlich “Leitlinien zum Umgang mit Forschungsdaten” veröffentlicht, in denen Forschende aufgefordert werden, “Forschungsdaten so zeitnah wie möglich verfügbar” zu machen und sicherzustellen, so dass “eine sinnvolle Nach- und Weiternutzung durch Dritte ermöglicht” wird.[24]

Um Forschungsdaten über die von der DFG geforderte gute wissenschaftliche Praxis hinaus aufzubewahren und deren Zugänglichkeit und Nachnutzung zu ermöglichen, werden verlässliche Informationsinfrastrukturangebote benötigt, die die Daten möglichst dauerhaft in einer standardisierten und zitierbaren Form nachweisen und zugänglich machen.[25]

In einigen Wissenschaftsdomänen sind Informationsinfrastrukturangebote für Forschungsdaten bereits seit vielen Jahrzehnten etabliert (so z. B. durch die Weltdatenzentren in einigen Disziplinen der Naturwissenschaften schon seit den 1950er Jahren[26]), in anderen wird gerade erst begonnen, entsprechende Angebote aufzubauen und zu etablieren.

Je nach Wissenschaftsdisziplin und damit nach Datentypen und -formaten bestehen unterschiedliche Anforderungen an die Funktionalitäten der Forschungsdateninfrastrukturen. Die Landschaft der Infrastrukturangebote für Forschungsdaten ist daher äußerst heterogen.[27] Seit einigen Jahren wird die Professionalisierung dieser Infrastrukturangebote unter dem Begriff “Forschungsdatenrepositorien” diskutiert.[28]

Strategien der Zugänglichmachung und Nachnutzung

Digitale Forschungsdaten können unter verschiedenen Zugangsbedingungen und -verfahren bereitgestellt werden.[29] In einem ersten Schritt ist es dabei hilfreich, sich auf die Zugangsbereiche von Treloar & Harboe-Ree[30] zu beziehen, die zwischen einer privaten, einer Gruppen- und einer öffentliche Domäne unterscheiden (siehe Grafik 1).

Grafik 1: Zugangsbereiche nach Zugangsbereiche von Treloar & Harboe-Ree[31]

Bei dieser Darstellung handelt es sich um eine konzeptuelle Trennung von Zugangsdomänen, die in der Praxis entsprechende Implikation z. B. für die Aufbereitung der Forschungsdaten hat. Werden Forschungsdaten in der öffentlichen Domäne geteilt, so sind sie idealerweise durch einen persistenten Identifikator zitierfähig, mit aussagekräftigen Metadaten zu ihrer Entstehung, Verarbeitung und den Nutzungsmöglichkeiten angereichert.[32]

Die Bereitstellung von Forschungsdaten nach den Prinzipien von Open Access, die in der “Berlin Declaration on Open Access to Scientific Knowledge in the Sciences and the Humanities”[33] aus dem Jahr 2003 niedergeschrieben ist, bedeutet, dass Forschungsdaten ohne technische, rechtliche und finanzielle Einschränkungen zugänglich gemacht werden und nachnutzbar sind.

In den letzten Jahren gibt es in der Wissenschaft unter dem Begriff Open Research Data[34] eine Diskussion über die Strategien und Verfahren der Öffnung von Forschungsdaten, die als Teil der Entwicklung hin zu Open Science verstanden wird.[35]

Können Forschungsdaten  z. B. aus Gründen des Datenschutzes nicht offen zugänglich gemacht werden, ist es empfehlenswert, zumindest ihre Metadaten öffentlich sichtbar zu machen, so dass die Forschungstransparenz gewährleistet wird und die Chance besteht, dass sie für Dritte zuordenbar sind. Die Bedingungen der Zugänglichkeit und Nutzung von Forschungsdaten müssen dann mit den jeweiligen Rechteinhaberinnen und -inhabern geklärt werden.

Ein weiteres Szenario ist, dass Forschungsdaten erst nach einer Embargofrist zugänglich gemacht werden. So können Forschende ihre Daten bereits auf einem Forschungsdatenrepositorium speichern und mit einem persistenten Identifikator[36] versehen, der dann in einer Textpublikation ( z. B. einem Artikel in einem Fachjournal) zitiert werden kann. Die Forschenden haben somit Zeit, die Forschungsdaten umfassend für die eigene Forschungsarbeit auszuwerten, bevor sie dann für die Fachcommunity zugänglich gemacht werden.

Spezifische Angebote zur Bereitstellung von Forschungsdaten

Von vielen wissenschaftlichen Zeitschriften bzw. Verlagen wird inzwischen die Bereitstellung von Forschungsdaten zur Verifizierung der Forschungsergebnisse gefordert, die in einer Veröffentlichung beschrieben werden.

In Hinweisen, häufig mit “Data Policy”[37] betitelt, werden Anforderungen an die Zugänglichkeit der Forschungsdaten formuliert, die Grundlage einer Textpublikation sind. Die Bereitstellung von mit dem Artikel in einer technisch geeigneten Art und Weise verknüpften Forschungsdaten (“Enhanced Publication”[38]) und ergänzenden Materialien ( z. B. Visualisierungen, Software) kann in einem Forschungsdatenrepositorium oder auch im Zusammenspiel mit einem “Data Paper” in einer wissenschaftlichen Zeitschriften oder einem speziellen “Data Journals” erfolgen.[39]

Nachfolgenden werden diese Infrastruktur- und Publikationsangebote beschrieben.

Forschungsdatenrepositorien

Informationsinfrastrukturangebote für die Bewahrung und Zugänglichmachung von Forschungsdaten werden häufig unter dem Begriff “Forschungsdatenrepositorium” (im Folgenden: FDR) zusammengefasst.

Der Begriff des „Repositoriums“ ist im Kontext der Informationsinfrastruktur bereits aus dem Umfeld der Textrepositorien bekannt, die Zugang zu elektronischen Veröffentlichungen ermöglichen.[40]

Im Projekt re3data.org - Registry of Research Data Repositories[41] wurde ein globales Verzeichnis von Forschungsdatenrepositorien aufgebaut.[42] In diesem Verzeichnis werden inzwischen weltweit 1475 FDR nachgewiesen.[43] Sie sind mithilfe eines umfangreichen Schemas beschrieben.[44] In re3data.org können Forschende, Angehörige von Infrastruktureinrichtungen und Forschungsförderorganisationen sowie Interessierte nach geeigneten FDR für die Zugänglichmachung von Forschungsdaten suchen; zugleich können FDR gefunden werden, die Forschungsdaten zur Nachnutzung anbieten. Auf Basis der umfangreichen Metadatenbeschreibung der indexierten FDR lässt sich die Suche in re3data.org mithilfe von Filtern verfeinern.

Anhand von re3data.org zeigt sich die gesamte Bandbreite an Forschungsdatenrepositorien: Es werden beispielsweise disziplinäre, multidisziplinäre, behördliche, institutionelle und projektspezifische Repositorien nachgewiesen[45].

Grafik 2: Die Suchmaske von re3data.org

Für die Aufnahme eines FDR in das Verzeichnis gilt die folgende Definition: “A research data repository is a subtype of a sustainable information infrastructure which provides long-term storage and access to research data. Research data means information objects generated by scholarly projects for example through experiments, measurements, surveys or interviews.”[46] Diese sehr breit angelegte Definition eines FDR entstand vor dem Hintergrund, dass den Nutzerinnen und Nutzern von re3data.org bei der Suche möglichst viele potentiell relevante FDR angeboten werden sollen.

Nach informationswissenschaftlichen Gesichtspunkten ist ein FDR spezifischer zu beschreiben: Es handelt sich dabei um ein webbasiertes Angebot der Informationsinfrastruktur, das die Zugänglichmachung und Nutzung von digitalen Forschungsdaten unterstützt. Dabei stellt das FDR mindestens sicher, dass auf Basis von Anforderungen einer definierten Nutzergruppe

●      die Forschungsdaten in einem für die Nachnutzung geeigneten Datenformat bereitgestellt werden,

●      die Forschungsdaten zitierbar sind und durch etablierte Metadatenschemata beschrieben werden,

●      die Forschungsdaten mit Informationen zu Nutzungsbedingungen angereichert werden.

Ein FDR wird durch eine vertrauenswürdige Institution wie etwa eine wissenschaftliche Einrichtung mit dem Ziel betrieben, das FDR langfristig verfügbar zu halten. Die Zielgruppe des FDR, die Anforderungen an die zu speichernden Forschungsdaten, die Bedingungen zur Nutzung des FDR und der Forschungsdaten sind in öffentlich verfügbaren Dokumenten dargestellt. Ein FDR orientiert sich bei der Aufbereitung von Forschungsdaten an in der jeweiligen Fachcommunity verfügbaren Standards sowie an übergreifenden Qualitätsstandards für Informationsinfrastrukturangebote wie etwa dem Data Seal of Approval[47], der DIN Norm 31644 “Kriterien für vertrauenswürdige digitale Langzeitarchive”[48] oder der ISO Norm 16363:2012 "Audit and certification of trustworthy digital repositories”[49] . Ein FDR bietet eine metadatenbasierte Suche über die gespeicherten Inhalte und erlaubt den Zugang zu diesen über eine Weboberfläche. Darüber hinaus stellt das FDR die nachgewiesenen Metadaten über standardisierte Schnittstellen bereit und erlaubt so Aggregation der Metadaten durch Dienste Dritter ( z. B. durch Suchmaschinen). Die Gestaltung von FDR ist darüber hinaus abhängig von Faktoren wie z. B.:

●      den Zugangsmodellen zum Repositorium selbst und zu den Forschungsdaten,

●      den durch jeweilige Zielgruppe benötigten Funktionalitäten,

●      der verwendeten Software und

●      den zugrunde liegenden Kosten- und Geschäftsmodellen.

Bekannte fachliche FDR sind PANGAEA[50] im Bereich der Geowissenschaften und GenBank[51] in der Biomedizin. An vielen wissenschaftlichen Institutionen entstehen aktuell FDR, die Forschungsdaten der Angehörigen der jeweiligen Institutionen aufnehmen. Beispiele in Deutschland sind heiDATA[52] an der Universität Heidelberg, Open Data LMU [53] an der Ludwig-Maximilians-Universität München oder panMetaDocs[54] am Deutschen GeoForschungsZentrum - GFZ. An einigen Einrichtungen wie z. B. der Technischen Universität Berlin[55] wird ein gemeinsames Repositorien für Forschungsdaten, Textpublikationen und andere Informationsobjekte angeboten. Ist in der Fachcommunity kein geeignetes FDR vorhaben und auch keine institutionelles FDR existent, bietet sich die Zugänglichmachung der Daten auf dem generischen Repositorum an, z. B. auf Zenodo[56] am CERN.

Data Papers und Data Journals

In Data Papers werden Forschungsdaten umfassend dokumentiert. Sie eignen sich besonders, wenn die Metadatenbeschreibung eines Datensatzes in einem FDR nicht ausreichend ist, um beispielweise die Möglichkeiten der Nachnutzung zu dokumentieren. Die Veröffentlichung eines Data Papers erfolgt in einer wissenschaftlichen Zeitschriften, einem speziellen Data Journals und anderen Publikationstypen.[57] Eine Liste von Data Journals wird im Forschungsdaten-Wiki gepflegt.[58]

Recherchemöglichkeiten

Werden Forschungsdaten für die Nutzung gesucht, ist es naheliegend, bekannte und etablierte Angebote wie FDR oder Data Journals direkt anzusteuern oder im jeweiligen Wissenschaftsgebiet z. B. mithilfe von re3data.org nach FDR zu suchen, die potentiell relevante Forschungsdaten nachweisen. Neben lokalen und fachspezifischen Recherchemöglichkeiten gibt es darüber hinaus auch generische Suchdienste über die Forschungsdaten recherchiert werden können. Mit Blick auf die zumeist fachspezifischen Metadaten bieten diese Dienste jedoch häufig keine detaillierten Suchmöglichkeiten. Nachfolgend werden drei Beispiele genannt, deren Datenräume sich teilweise überschneiden. Bei allen Angeboten ist zu beachten, dass die Granularität der über Identifikatoren identifizierbaren Metadateninformationen sehr unterschiedlich sein kann. D.h. es sind sowohl einzelne Forschungsdaten als auch ganze Forschungsdatensammlungen mit Metadaten beschrieben.

DataCite Metadata Search[59]

Dieser Dienst erlaubt die Suche in den Metadaten von Informationsobjekten wie z. B. Forschungsdaten, die bei DataCite mit einem Digital Object Identifier registriert sind und für die bei DataCite entsprechende Metadaten hinterlegt sind. Im Januar 2016 sind im Datenraum von DataCite 5.949.171 Metadatensätze recherchierbar, darunter 1.728.625 unter dem Objekttyp “Dataset”.[60]

BASE - Bielefeld Academic Search Engine[61]

Dieser Dienst erlaubt die Suche in den Metadaten von derzeit 4029 Repositorien[62] und anderen Datenanbietern der Informationsinfrastruktur, die ihre Meadaten über eine OAI-PMH-Schnittstelle zu Verfügung stellen. Im Januar 2016 sind 2.228.113 Metadateneinträge der “Dokumentart” “Primärdaten” zugeordnet.[63] In BASE werden auch die Metadaten von DataCite integriert.

EUDAT B2 Find[64]

Dieser Dienst wurde im Rahmen des EU-Projektes EUDAT entwickelt. Er weist Metadaten von Forschungsdaten aus diversen ausgewählten Quellen nach.[65] U. a. sind Metadaten aus Common Language Resources and Technology Infrastructure - CLARIN[66] oder Global Biodiversity Information Facility - GBIF[67] indexiert. Auch die Metadaten von DataCite sind teilweise in diesem Suchdienst nachgewiesen.

Fragen zum Verständnis

Was ist unter einem Informationsinfrastrukturangebot für Forschungsdaten zu verstehen?

Welche Strategien der Zugänglichmachung lassen sich unterscheiden?

Was sind Data Papers?

Was sind Forschungsdatenrepositorien?

Was sind Anforderungen an Forschungsdatenrepositorien aus informationswissenschaftler Sicht?

Wo lassen sich Forschungsdaten auf Basis ihrer Metadaten recherchieren?

Referenzen

Einzelnachweise

  1. Simukovic, Elena; Kindling, Maxi; Schirmbacher, Peter (2013). Umfrage zum Umgang mit digitalen Forschungsdaten an der Humboldt-Universität zu Berlin. URN: http://nbn-resolving.de/urn:nbn:de:kobv:11-100213001
  2. Helbig, Kerstin; Hausstein, Brigitte; Toepfer, Ralf (2015). Supporting Data Citation: Experiences and Best Practices of a DOI Allocation Agency for Social Sciences. Journal of Librarianship and Scholarly Communication, 3(2), eP1220. DOI: http://doi.org/10.7710/2162-3309.1220
  3. Library of Congress (2015). LOC Recommended Formats Statement 2015-16. [1]. Zugriff am 19.01.2016.
  4. Open Knowledge Foundation (2016). Open Definition 2.1. [2] Zugriff am 19.01.2016.
  5. Bundesrepublik Deutschland (1966). Gesetz über Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz). [3]. Zugriff am 19.01.2016.
  6. Bundesrepublik Deutschland (1990). Bundesdatenschutzgesetz. [4]. Zugriff am 19.01.2016.
  7. Europäisches Parlament (1996). Richtlinie 96/9/EG des Europäischen Parlaments und des Rates vom 11. März 1996 über den rechtlichen Schutz von Datenbanken.[5]. Zugriff am 19.01.2016.
  8. Universität Basel (2016). Basel Register of Thesauri, Ontologies & Classifications. [6]. Zugriff am 20.01.2016.
  9. Creative Commons (2016). Mehr über die Lizenzen. [7] Zugriff am 19.01.2016.
  10. Kohne, Joerg (2016). Lizenzen. [9]. Zugriff am 20.01.2016.
  11. Helmholtz-Zentrum Potsdam Deutsches GeoForschungsZentrum GFZ (2015). Persistent Identifier. [8]. Zugriff am 19.01.2016.
  12. Data Citation Synthesis Group (2014). Joint Declaration of Data Citation Principles. [https://www.force11.org/group/joint-declaration-data-citation-principles-final]. Zugriff am 19.01.2016.
  13. FORCE11 (2016). Example. [9]. Zugriff am 19.01.2016.
  14. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf
  15. http://www.dfg.de/formulare/54_01/
  16. Vgl. https://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf
  17. Auch an deutschen Forschungseinrichtungen wird auf Basis der genannten verfügbaren Werkzeuge an angepassten Lösungen gearbeitet, die ggf. frei verfügbar gemacht werden und voraussichtlich in einer Version 2.0 dieses Artikels ergänzt werden können.
  18. http://resolver.sub.uni-goettingen.de/purl?isbn-978-3-86488-032-2
  19. http://dmponline.dcc.ac.uk
  20. http://dmp.cdlib.org
  21. In Anlehnung an eine von Peter Schirmbacher für Lehre und Forschung verwendete Definition. Vgl. u.a. Schirmbacher, Peter (2015) Informationsmanagement als Bestandteil der bibliotheks- und informationswissenschaftlichen Ausbildung. In: Bibliothek Forschung und Praxis. Band 39, Heft 2, Seiten 143–149, ISSN (Online) 1865-7648, ISSN (Print) 0341-4183, DOI: 10.1515/bfp-2015-0017
  22. http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_1310.pdf
  23. Siehe Empfehlung Nr. 7 “Sicherung und Aufbewahrung von Primärdaten” in: http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_1310.pdf
  24. http://www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/richtlinien_forschungsdaten.pdf
  25. Siehe dazu den Abschnitt Forschungsdaten-Repositorien.
  26. Seit 2008 als ICSU World Data System (WDS) fortgeführt. Siehe: http://www.icsu-wds.org
  27. Vgl. Pampel, H., Vierkant, P., Scholze, F., Bertelmann, R., Kindling, M., Klump, J., Goebelbecker, H.-J., Gundlach, J., Schirmbacher, P., Dierolf, U. (2013). Making Research Data Repositories Visible: The re3data.org Registry. PLOS ONE, 8(11), e78080. doi:10.1371/journal.pone.0078080
  28. Vgl. Pampel, H., Goebelbecker, H.-J., & Vierkant, P. (2012). re3data.org: Aufbau eines Verzeichnisses von Forschungsdaten-Repositorien. Ein Werkstattbericht. In Mittermaier, B. (Ed.), Vernetztes Wissen – Daten, Menschen, Systeme. WissKom 2012 (pp. 61–73). Jülich: Verlag des Forschungszentrums Jülich. http://hdl.handle.net/2128/4699
  29. Siehe dazu das Kapitel “Data Sharing” in dieser Publikation.
  30. Treloar, A. and Harboe-Ree, C. (2008). "Data management and the curation continuum: how the Monash experience is informing repository relationships". Proceedings of VALA 2008, Melbourne, February. http://www.vala.org.au/vala2008-proceedings/vala2008-session-6-treloar
  31. Treloar, A. and Harboe-Ree, C. (2008). "Data management and the curation continuum: how the Monash experience is informing repository relationships". Proceedings of VALA 2008, Melbourne, February. http://www.vala.org.au/vala2008-proceedings/vala2008-session-6-treloar
  32. Siehe das entsprechende Kapitel von Helbig und Neumann in dieser Publikation.
  33. http://openaccess.mpg.de/Berliner-Erklaerung
  34. Vgl. Pampel, H., & Dallmeier-Tiessen, S. (2014). Open Research Data: From Vision to Practice. In S. Bartling & S. Friesike (Eds.), Opening Science. The Evolving Guide on How the Internet is Changing Research, Collaboration and Scholarly Publishing (pp. 213–224). Heidelberg: Springer. doi:10.1007/978-3-319-00026-8.
  35. Siehe hierzu insbesondere: The Royal Society. 2012. “Science as an Open Enterprise. The Royal Society Science Policy Centre Report 02/12.” http://royalsociety.org/uploadedFiles/Royal_Society_Content/policy/projects/sape/2012-06-20-SAOE.pdf
  36. Siehe das entsprechende Kapitel von Helbig und Neumann in dieser Publikation.
  37. Vgl. Pampel, H., Bertelmann, R. (2011). „Data Policies“ im Spannungsfeld zwischen Empfehlung und Verpflichtung. In Büttner, S., Hobohm, H.-C., Müller, L. (Eds.), Handbuch Forschungsdatenmanagement (pp. 49-61). Bad Honnef: Bock + Herchen. urn:nbn:de:kobv:525-opus-2287.
  38. Vgl. Woutersen-Windhouwer, Saskia, and Renze Brandsma. 2009. “Enhanced Publications, State of the Art.” In Enhanced Publications. Linking Publications and Research Data in Digital Repositories, edited by Marjan Vernooy-Gerritsen. Amsterdam: Amsterdam University Press. http://dare.uva.nl/aup/nl/record/316849.
  39. Vgl. Pampel, H., & Dallmeier-Tiessen, S. (2014). Open Research Data: From Vision to Practice. In S. Bartling & S. Friesike (Eds.), Opening Science. The Evolving Guide on How the Internet is Changing Research, Collaboration and Scholarly Publishing (pp. 213–224). Heidelberg: Springer. doi:10.1007/978-3-319-00026-8.
  40. Siehe hierzu  z. B.: Lynch, Clifford A. 2003. “Institutional Repositories: Essential Infrastructure for Scholarship in the Digital Age.” ARL: A Bimonthly Report, no. 226. http://www.arl.org/resources/pubs/br/br226/br226ir.shtml.
  41. Das Projekt und das Verzeichnis re3data.org sind unter der gleichnamigen URL erreichbar: http://www.re3data.org .Projektpartner waren das Karlsruher Institut für Technologie (KIT), das Deutsche GeoForschungsZentrum und die Humboldt-Universität zu Berlin in Kooperation mit den Purdue University Libraries. Das Projekt wurde von 2012 bis 2015 durch die Deutsche Forschungsgemeinschaft (DFG) gefördert.
  42. Vgl. Pampel, H., Vierkant, P., Scholze, F., Bertelmann, R., Kindling, M., Klump, J., Goebelbecker, H.-J., Gundlach, J., Schirmbacher, P., Dierolf, U. (2013). Making Research Data Repositories Visible: The re3data.org Registry. PLOS ONE, 8(11), e78080. doi:10.1371/journal.pone.0078080.
  43. Stand: 26.02.2016.
  44. Rücknagel, J., Vierkant, P., Ulrich, R., Kloska, G., Schnepf, E., Fichtmüller, D., Reuter, E., Semrau, A., Kindling, M., Pampel, H., Witt, M., Fritze, F., van de Sandt, S., Klump, J., Goebelbecker, H.-J., Skarupianski, M., Bertelmann, R., Schirmbacher, P., Scholze, F., Kramer, C., Fuchs, C., Spier, S., Kirchhoff, A. (2015): Metadata Schema for the Description of Research Data Repositories. Version 3.0. doi:10.2312/re3.008.
  45. Vgl. Rücknagel, J., Vierkant, P., Ulrich, R., Kloska, G., Schnepf, E., Fichtmüller, D., Reuter, E., Semrau, A., Kindling, M., Pampel, H., Witt, M., Fritze, F., van de Sandt, S., Klump, J., Goebelbecker, H.-J., Skarupianski, M., Bertelmann, R., Schirmbacher, P., Scholze, F., Kramer, C., Fuchs, C., Spier, S., Kirchhoff, A. (2015): Metadata Schema for the Description of Research Data Repositories. Version 3.0. doi:10.2312/re3.008.
  46. Rücknagel, J., Vierkant, P., Ulrich, R., Kloska, G., Schnepf, E., Fichtmüller, D., Reuter, E., Semrau, A., Kindling, M., Pampel, H., Witt, M., Fritze, F., van de Sandt, S., Klump, J., Goebelbecker, H.-J., Skarupianski, M., Bertelmann, R., Schirmbacher, P., Scholze, F., Kramer, C., Fuchs, C., Spier, S., Kirchhoff, A. (2015): Metadata Schema for the Description of Research Data Repositories. Version 3.0. doi:10.2312/re3.008.
  47. http://www.datasealofapproval.org
  48. https://www.beuth.de/de/publikation/vertrauenswuerdige-digitale-langzeitarchivierung/169654635
  49. http://www.iso.org/iso/catalogue_detail.htm?csnumber=56510
  50. http://www.pangaea.de
  51. http://www.ncbi.nlm.nih.gov/genbank/
  52. https://heidata.uni-heidelberg.de/dvn/
  53. http://data.ub.uni-muenchen.de/
  54. http://bib.telegrafenberg.de/services/service-fuer-autoren/forschungsdaten/panmetadocs/
  55. https://depositonce.tu-berlin.de/
  56. http://zenodo.org/
  57. Vgl. Pampel, H., & Dallmeier-Tiessen, S. (2014). Open Research Data: From Vision to Practice. In S. Bartling & S. Friesike (Eds.), Opening Science. The Evolving Guide on How the Internet is Changing Research, Collaboration and Scholarly Publishing (pp. 213–224). Heidelberg: Springer. doi:10.1007/978-3-319-00026-8.
  58. http://www.forschungsdaten.org/index.php/Data_Journals
  59. http://search.datacite.org/ui
  60. Siehe http://stats.datacite.org. Stand: 24.01.2016
  61. Siehe https://www.base-search.net. Stand: 24.01.2016
  62. Stand: 24.01.2016
  63. Stand: 24.01.2016
  64. Siehe http://b2find.eudat.eu/.
  65. Dokumentation unter: https://eudat.eu/services/userdoc/b2find (Stand: 24.01.2016)
  66. Siehe: http://www.clarin.eu
  67. Siehe: http://www.gbif.org