Wer betreibt Forschungsdatenmanagement?

Aus Handbuch.io

Stephan Büttner, Hans-Christoph Hobohm

Fachhochschule Potsdam

Wie bereits in Kap. 1 erwähnt, ist Forschungsdatenmanagement zunächst eine originäre Tätigkeit der Wissenschaftlerinnen und Wissenschaftler selbst. Bis in das 20. Jahrhundert wurde die Datenerhebung manuell durch den Wissenschaftler oder Assistenen durchgeführt. Forschungsdaten treten in mannigfaltiger Form und sehr disziplinspezifisch auf.

Einige Beispiele mögen dies belegen.

  • In den Naturwissenschaften waren (und sind!) sog. Laborbücher üblich. (s. Abb. 1).
Abbildung: Laborbuch Otto Hahn 1938 eutsches Museum - Munich“ von J Brew - originally posted to Flickr as Nuclear fission Deutsches Museum. Lizenziert unter CC BY-SA 2.0 über Wikimedia Commons - https://commons.wikimedia.org/wiki/File:Otto_Hahn%27s_notebook_1938_-_Deutsches_Museum_-_Munich.jpg#/media/File:Otto_Hahn%27s_notebook_1938_-_Deutsches_Museum_-_Munich.jpg
  • Laborbücher dienen der chronologischen Dokumentation der wissenschaftlichen Tätigkeit. Es werden Versuchsaufbau und die Forschungs(mess-)daten und Randbedingungen eingetragen.
  • Neben den eigentlichen “Messdaten” sind auch die Messinstrumenten-Daten (klassische Metadaten) von hoher Relevanz, also Daten zur Genauigkeit und Qualität der Messungen (zufällige und systematische Abweichung), Maßeinheiten etc.
  • In den Sozialwissenschaften, vor allem in der empirischen Sozialforschung fallen datenbasierte Forschungsergebnisse an. Von klassischen Fragebögen für mehr oder weniger weitreichende Umfragen des Einzelforschers bis zu Wahl- oder Zensusdaten bzw. den Erhebungen der statistischen Ämter der Gebietskörperschaften, die unabhängig von einzelnen Forschungsfragestellungen häufig regelmäßig erhoben werden. Die Bereitstellung von Originaldatensätzen für die sog. Sekundäranalyse steht hierbei nicht nur unter dem Gesichtspunkt der Überprüfung von Forschungsergebnissen anderer Forscher, sondern stellt auch die Bereitschaft dar, Datensätze nachzunutzen mit anderen Forschungsfragen. Schon früh (spätestens seit den 1970er Jahren) haben sich dazu in vielen Ländern Datenarchive etabliert, wie zum Beispiel das Zentralarchiv für empirische Sozialforschung in Köln (jetzt Teil der GESIS).
  • In den Geisteswissenschaften sind neben historischen Editionen einzelner Texte oder Autoren vor allem große Korpora zur Sprachanalyse oder Edition von Wörterbüchern wichtige Beispiele, wie der Index Thomisticus (1946ff) von Roberto Busa oder der “American and French Research on the Treasury of the French Language” (ARTFL) (1982ff). Zur Textanalyse werden jedoch auch vielfach politische Reden oder Pressetexte verwendet. In den historischen Wissenschaften sind naturgemäß zeitbezogene Daten wichtig bzw. die Normierung historischer Daten und Fakten wie Kalenderdaten, Währungen, Maßeinheiten etc. Hierzu haben sich spezielle Tools und Forschungszentren etabliert wie die Datenbanksoftware “kleio” oder das ehemalige Zentrum für Historische Sozialforschung (ZHSF) in Köln.

Interessant ist, dass, obwohl die Wissenschaftler zwar die eigentlichen Akteure bei der Erhebung der Daten sind, ein Management der Daten nicht originär an die Wissenschaftler gebunden ist. Dies hängt mit dem Ziel der Datenerhebung zusammen, ob die Daten für den einmaligen Gebrauch oder z.B. für Kooperationsvorhaben erhoben werden.

So war es üblich, Daten nach der Erhebung und Auswertung in lokalen Systemen abzulegen, eine systematische Datenspeicherung und -weitergabe wurde, wenn überhaupt, auf der Ebene von Arbeitsgruppen oder Instituten praktiziert (Büttner,Hobohm, Müller 2011, S. 18).

Daten entstehen aus vielfältigen Gründen und Kontexten, im Rahmen lokaler Forschungsarbeiten (Small Science) ebenso im Rahmen internationaler Großprojekte (Big Science). Werden Daten für lokale, isolierte Forschungsvorhaben, den o.g. Small Science, z.B. im Rahmen von Graduierungen, erhoben, so fehlt i.d.R. ein zentrales Forschungsdatenmanagement. Studien zeigen: “Die Daten verbleiben bei den Datenproduzenten und es ist i.d.R kaum oder nicht bekannt, welche Daten es gibt und wer welche besitzt”. (Büttner, Söhnitz, 2014).

Werden Daten im Rahmen von Kooperationsprojekten erhoben (Big Science), gibt es i.d.R. sog. Policies, die den Umgang, das Management der Daten regeln (s.a. Kap. 3). In diesen Policies wird sehr genau geregelt, Wer, Was, Wann und Wie mit den Daten machen muss. Anders ist das bei Kooperationsprojekten kaum möglich. Beispiele:

  • Ein anschauliches Beispiel ist der Large Hadrone Collider in Cern, bei dem mehrere Tausend Wissenschaftler an unterschiedlichen Projekten kollaborativ arbeiten. Im Projekt ATLAS (A Toroidal LHC ApparatuS) sind mehr als 3000 Wissenschaftler beteiligt (Cern, 2015).
  • Als weiteres Beispiel sei das “World Radiation Monitoring Center – Baseline Surface Network” genannt. Für jede Station gibt es einen Wissenschaftler (den sog. station scientist) der verantwortlich für die Messung und Datenqualität ist (WRMC-BSRN, 2015).
  • In den Sozialwissenschaften gibt es ebenfalls transnationale Erhebungsinstrumente unter Beteiligung großer Wissenschaftlerverbünde, wie z.B. dem Inter-university Consortium for Political and Social Research (ICPSR) oder kontinuierliche Erhebungen wie den European Social Survey (ESS). In diesem Zusammenhang entstehen international akzeptierte Erhebungs- und Metadatenstandards.
  • Das “Projekt Gutenberg” ist eines der Beispiele zur kooperativen Sammlung von digitalisierten Texten zur philologischen Analyse. Im Kontext der Textanalyse entwickelte sich z.B. der Metadatenstandard “TEI”: der “Text Encoding Initiative”, der vor allem regelt, wie spezielle Texteigenschaften kodiert werden sollen (vgl. Nyhan 2012).
  • Die historischen Wissenschaften legen immer schon großen Wert auf “ihre” Hilfswissenschaften, die im Grunde schon in nuce das “Datenmanagement” der Quellen festlegten. Im Digitalen Kontext wird nunmehr häufig die Verwaltung der Datenhandbücher von Einrichtungen wie dem Leibniz Institut für Sozialwissenschaften (GESIS) in Mannheim/Köln übernommen oder findet in Sammlungen von Digitalen Bibliotheken Niederschlag.

In den letzten Jahrzehnten hat die Erzeugung von Forschungsdaten exponentiell zugenommen. Gründe dafür sind insbesondere in der Entwicklung von Computern und Speichermedien zu suchen. Schon vor Jahren wurde von einer „Datenflut“ (Hey & Trefethen, 2003) gesprochen. Messungen erfolgen zunehmend automatisch, die elektronische Speicherung und Verknüpfung von Forschungsdaten ermöglicht immer größere Datenmengen mit statistischen Verfahren und Visualisierungswerkzeugen auszuwerten. (Büttner, Hobohm, Müller 2011, S. 18). Der Computerwissenschaftler Jim Gray hielt die Umwälzungen in der Wissenschaftparadigmatik für so gravierend, dass er von der Entstehung eines vierten Forschungsparadigmas sprach, den sog. “datengetriebenen Wissenschaften” (Hey, Tansley, Tolle 2009).

In diesem Kontext werden Daten selbst zum zentralen Output wissenschaftlicher Arbeit. Die Bereitstellung durch die Informationsinfrastruktureinrichtungen wiederum zum Erfolgsfaktor der Wissenschaft. Datenmanagement ist demnach eine neue Ausprägung des Informations- und Wissensmanagements mithin ein originäres Thema der Informationswissenschaften. Es geht um Bewertung und Einordnung in Kontexte, um Metadaten, um Ontologien sowie um die Verknüpfung der Daten mit den Experten. Informationswissenschaftler und Praktiker (z.B. Datenbibliothekarinnen, Informatikerinnen, Fachwissenschaftlerinnen etc.), die an wissenschaftlichen Einrichtungen das zentrale Forschungsdatenmanagement betreiben, werden damit zu weiteren Akteuren des Forschungsdatenmanagements. Eine Studie aus 2014 zeigt aber deutlich, dass das zentrale Forschungsdatenmanagement an Universitäten und außeriuniversitären Forschungseinrichtungen aus Gründen fehlender finanzieller Ressourcen mit einem sehr geringen Personalansatz erfolgt (Büttner, Söhnitz, 2014). Um dennoch ein Forschungsdatenmanagement aufbauen zu konnen, kommt der Kooperation innerhalb der Informationsinfrastruktur (Rechenzentrum, Bibliothek) eine sehr hohe Bedeutung zu.

Zusammenfassung

Forschungsdatenmanagement ist ein originäres Betätigungsfeld von Wissenschaftlerinnen und Wissenschaftler. Die Datenerhebung erfolgte bis in das 20. Jahrhundert manuell durch die Wissenschaftler oder Assistenten. Forschungsdaten treten in mannigfaltiger Form und sehr disziplinspezifisch auf. Ein systematisches, zentrales Management der Forschungsdaten ist vorwiegend in den sog. Big Science vorhanden. Bei den Small Science fehlt i.d.R. ein zentrales Forschungsdatenmanagement. Die Erzeugung von Forschungsdaten hat exponentiell zugenommen. Daten werden zum zentralen Output wissenschaftlicher Arbeit. Datenmanagement ist eine neue Ausprägung des Informations- und Wissensmanagements und damit ein zentrales Betätigungsfeld für die Informationswissenschaft. Forschungsdatenmanagement wird zunehmend von der Informationsinfrastruktur (Rechenzentrum, Bibliothek) und den Fachwissenschaftlern in enger Kooperation betrieben.


Fragen zum Verständnis

  • Was wird unter Big und Small Science verstanden?
  • Warum ist eine disziplinspezifische Betrachtung bei den Forschungsdaten sinnvoll und notwendig?
  • Welche Rolle spielen Policies beim Forschungsdatenmanagement?
  • Diskutieren Sie die Rollen der einzelnen Akteuere!
  • Warum ist das Datenmanagement eine neue Ausprägung des Informations- und Wissensmanagements?

Referenzen

Büttner, Stephan; Hobohm, Hans-Christoph; Müller, Lars (Hrsg,) (2011): Handbuch Forschungsdatenmanagement. Bad Honnef: Bock + Herchen.

Büttner, Stephan; Sönitz, Stefanie (2015): Die personelle Umsetzung des Forschungsdatenmanagements - Eine Ist-Stand-Betrachtung 2014
Online: http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:525-10123

Cern 2015: Online: http://home.cern/about/experiments

Hey, Tony; Trefethen, Anne (2003). The Data Deluge: An e-Science Perspective.Wiley and Sons. Online:http://eprints.ecs.soton.ac.uk/7648/

Hey, Tony; Tansley, Stewart; Tolle, Kristin (2009). Jim Gray on eScience: A Transformed Scientific Method. In: A. Hey St. Tansley & K.M. Tolle, 2009. The Fourth Paradigm Data-Intensive Scientific Discovery. Redmond, Wash.: Microsoft Research, S. xix-xxxiii. Online: http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf

Nyhan, Julianne (2012): Text encoding and scholarly digital editions. In: Claire Warwick, Melissa Terras und Julianne Nyhan (Hg.): Digital humanities in practice. London: Facet Publ, S. 117–137.

World Radiation Monitoring Center – Baseline Surface Network (WRMC BSRN) 2015: Online: http://bsrn.awi.de/en/data/data_input