DH-Handbuch/Wie organisiert man Forschungsdaten

Aus Handbuch.io

<<<Zurück
DH in der Praxis
Inhaltsverzeichnis Weiter>>>
Lizenzen

Die Digital Humanities zeichnen sich dadurch aus, dass sie digitale Daten generieren und/oder den Erkenntnisprozess auf Daten dieser Art aufbauen. Grundlage digitaler Daten können analoge Inhalte, wie beispielsweise Quellen, Manuskripte, Gemälde, etc. sein, die digitalisiert werden oder mit digitalen Methoden untersucht werden. Die dabei entstehenden Daten sind vielfältig in ihren Formaten, Funktionen und repräsentierten Inhalten, was eine weitere Spezifizierung sinnvoll macht.

Grundsätzliches zuerst: Zur Definition von Daten und ihrem Entstehungskontext

Digitale Daten lassen sich nach verschiedenen Gesichtspunkten und Perspektiven unterscheiden. Dabei spielt (a) der Kontext der Entstehung der Daten, (b) ihre Funktion innerhalb des geisteswissenschaftlichen Forschungsprozesses sowie (c) die inhaltlich Ausrichtung der Daten eine ausschlaggebende Rolle. Aus dieser Unterscheidung lassen sich unterschiedliche Anforderungen an die Daten und deren AnbieterInnen ableiten. 

(a) Kontext: Entstehung und Provenienz der Daten 

Zum einen können digitale Daten entstehen, wenn analoge Inhalte digitalisiert werden oder wenn Daten digital erstellt werden beispielsweise mittels Software und digitalen Aufnahmegeräten. Bei der Digitalisierung physischer Objekte oder Inhalte kommt es vor allem auf die Genauigkeit des Digitalisats an und inwieweit es als Stellvertreter oder Surrogate für die analogen Inhalte fungieren kann. Hier ist es wichtig zu unterscheiden, inwieweit die digitale Rekonstruktion Eigenschaften des physischen Objekt digital abbilden kann. Die Tiefe und Genauigkeit der Digitalisierung bestimmt auch, welche Forschungsfragen damit beantwortet werden können.[1] So liefert die Digitalisierung eines Buches für einen/eine TextwissenschaftlerIn meist keinen Informationsverlust, der/ die GeisteswissenschaftlerIn dessen Forschungsobjekt aber das Buch und seine Nutzung an sich ist, wird kaum sein/ihr Forschungsinteresse nur auf die digitale Version des Buches beschränken wollen. Ein weiterer wichtiger Punkt sind die digital erzeugten Daten (oft auch born-digital[2]), die innerhalb des Forschungsprozesses entstehen oder als Basis für den Erkenntnisgewinn dienen. Einerseits können die z.B. Social-Media-Daten sein, anderseits sind dies Daten, die mit digitalen Werkzeugen erstellt wurden, z.B. Bilder, Annotationen, Fragebögen,  GIS-Daten aus Geoinformationssystemen oder Daten aus Office-Anwendungen[3].

(b) Funktion innerhalb des geisteswissenschaftlichen Forschungsprozesses

Im Hinblick auf Daten als Grundlage für geisteswissenschaftliche Forschung und Ausgangspunkt des Erkenntnisprozesses wird oft von Forschungsdaten gesprochen. Diese genau zu definieren, ist schwierig und häufig kommt es auf die Funktion der Daten innerhalb des Forschungsprozesses an. Dies zeigt sich besonders in der Abgrenzung von Primärdaten und Sekundärdaten. Puhl et al. [4] sagen, dass die Grenzen zwischen Primär- und Sekundärdaten fließend verlaufen und nur aus der Perspektive des jeweiligen Forschungsprozesses heraus bestimmt werden können (S. 9). Daraus ergibt sich, dass Primärdaten herangezogen werden, um gegebene Forschungsfragen zu beantworten, während Sekundärdaten schon als Ergebnis eines Erkenntnisprozesses vorliegen (ebd, S. 9). Wir folgen hier der Definition von Puhl at al.:

„Unter digitalen geistes- und kulturwissenschaftlichen Forschungsdaten werden innerhalb von DARIAH-DE all jene Daten verstanden, die im Kontext einer geistes- und kulturwissenschaftlichen Forschungsfrage gesammelt, beschrieben, ausgewertet und/oder erzeugt wurden.“

Puhl, Andorfer, Höckendorff, Schmunk, Stiller und Thoden: Diskussion und Definition eines Research Data Life Cycle für die digitalen Geisteswissenschaften

Andorfer[5] zeigt im Zuge der Auswertung von Interviews mit FachwissenschaftlerInnen, dass der Begriff der Forschungsdaten wenig Verwendung findet, wenn damit Quellen oder Publikationen gemeint sein. Im Hinblick auf die Nachnutzbarkeit von Daten, die während des Forschungsprozesses erstellt werden, waren die interviewten WissenschaftlerInnen jedoch sehr wohl bereit ihre Daten zu publizieren und anderen zur Verfügung zu erstellen, als auch selbst auf solche "Forschungsdaten" zurückzugreifen.

(c) Inhaltliche Ausrichtung der Daten  

Daten lassen sich auch noch hinsichtlich ihrer inhaltlichen Ausrichtung unterscheiden: handelt es sich um Daten oder Metadaten. Metadaten sind ganz generell Daten über Daten, die die technischen, administrativen oder funktionellen Eigenschaften dieser beschreiben. Diese können selbst Forschungsdaten sein, wenn beispielsweise bibliographische Angaben für bibliometrische Analysen genutzt werden. Wichtig sind dabei auch Nachweisinstrumente für Forschungsdaten, auch wenn diese nur analog vorliegen, die Metadaten aber digital sind. 

Wenn Daten einen Sinnzusammenhang bilden, spricht man auch von digitalen Objekten, die sich durch eine gewisse inhaltliche Zusammengehörigkeit auszeichnen. Ein digitales Objekt beispielsweise kann ein Digitalisat mit seinen entsprechenden Metadaten und angereicherten Vokabularen sein. Alle Daten innerhalb eines digitalen Objekts können in unterschiedlichen Formaten mit unterschiedlichen Lizenzen vorliegen. 

Um Handlungsvorgaben und Empfehlungen für den Umgang mit Daten in Forschungsumgebungen zu liefern, wurden viele Referenzmodelle für den digitalen Forschungsdatenkreislauf entwickelt. DARIAH-DE hat solch einen Datenzyklus aufgestellt, um die verwendeten Daten, ihre Bearbeitung innerhalb geisteswissenschaftlicher Forschungsaktivitäten und daraus resultierende Ergebnisse transparenter zu machen und Handlungsempfehlungen für die DARIAH-Infrastruktur zu liefern[6]. Aspekte der Langzeitarchivierung, Publikation und Nachnutzung von Daten fanden auch berücksichtig und sind in den Kreislauf eingeflossen.

Die Abbildung zeigt den entwickelten Research Data Life Cycle, die verschiedenen Arbeitsschritte, die daraus resultierenden Datenformate und die Voraussetzungen für eine Nachnutzung und Langzeitarchivierung der Daten.

Aus Masse mach Klasse - aber wie? Interoperabilität durch Standardisierung

In einigen geisteswissenschaftlichen Fachdisziplinen haben sich in den vergangenen Jahren fachspezifische nationale und international angewandte Standards herausgebildet, mit denen bestimmte Kategorien von Forschungsdaten, Forschungsobjekten oder auch Forschungsprozessen beschrieben werden können. Festzustellen ist auch, dass sich bei einer Vielzahl von Editionsprojekten – unabhängig von ihrer disziplinären Verortung – solche Standardisierungsprozesse herausgebildet haben. So sind hier an erster Stelle die Text Encoding Initiative (TEI) mit einem internationalen Spektrum oder auch das deutsche Projekt TextGrid zu nennen, die maßgeblich zu einheitlicheren Verfahren beitrugen.

Als weiterer Aspekt ist zu nennen, dass in der Vergangenheit von Seiten der Drittmittelgeber für ausschließlich inhaltlich orientierte und ausgerichtete Forschungsprojekte die Erfassung und Erschließung des verwendeten Quellenmaterials mit standardisierten Metadaten nicht explizit gefördert wurden. Aber auch hier sind in den letzten Jahren beispielsweise durch das Förderprogramm für wissenschaftliche Literaturversorgungs- und Informationssysteme (LIS) der Deutschen Forschungsgemeinschaft Empfehlungen entwickelt worden, die maßgeblich zu Standardisierungen und einer interdisziplinären Interoperabilität beigetragen haben. Trotz dieser Einschränkungen ist erkennbar, dass auch bei den zuletzt genannten Disziplinen eine stärkere Verwendung von Normdaten, wie beispielsweise des Thesaurus of Geographic Names (TGN) oder der Gemeinsamen Normdatei (GND), erkennbar ist und diese Entwicklungen auch auf Dauer unterstützt werden sollten.

Zur Notwendigkeit semantischer Auszeichnungen

Eine Maschine dürfte Schwierigkeiten haben, im folgenden Satz „Hans Hamburger genießt in Paris einen Berliner“ Ortsnamen von Personennamen und populären Speisen zu unterscheiden. Beißt Hans Hamburger in Paris/Frankreich oder in Paris/Texas in die Süßspeise? Hier könnte eine Spezifizierung über den Getty Thesaurus of Geographic Names für geographische Präzisierung sorgen. Gleiches gilt für Hans Hamburger, denn immerhin gibt es drei Personen dieses Namens mit je eigener Identifikator (ID) in der Gemeinsamen Normdatei (GND) der deutschen Nationalbibliothek und diese gilt es dann zu spezifizieren. Und um auszuschließen, dass mit „Berliner“ Kennedys „Ik bin ein Berliner“ assoziiert wird, könnte durch Hinweis auf Kategorie 642 „Mahlzeiten und Tischkultur“ der Deweyschen Decimal Classification auf die Backware hingewiesen werden.

Eine einfache Suche bei Wikipedia kann ebenfalls die Unklarheiten bzw. Probleme veranschaulichen, die beim Text-Mining und dem Matching auf bestimmte Vokabulare entstehen – zum Beispiel bei der Erkennung von Homonymen; siehe dazu etwa die Begriffsklärung zu „London“ in der deutschsprachigen Wikipedia.[7]

Datenqualität

Die Qualität der Daten bestimmt maßgeblich, inwiefern diese für die Forschung nutzbar und nachnutzbar sind.

So kann die Auflösung von Bilddaten für die Beantwortung einiger Forschungsfragen sehr entscheidend sein, während für die Beantwortung anderer Forschungsfragen beispielsweise eher die Qualität der Metadaten, bspw. im Bitstream eines Bildes, bedeutend sein kann.

Auf der einen Seite spielt die Datenqualität eine Rolle für das Auffinden von digitalen Objekten auf der anderen Seite ist sie essentiell für die Analyse der Daten mit digitalen Methoden. Die Qualität von Metadaten wird oft von Nutzern und Anbietern von Metadaten unterschiedlich betrachtet und eingeordnet. So beschreibt zum Bespiel die Europeana[8] gute Metadatenqualität als Voraussetzung, um digitalisierte kulturelle Objekte zu beschreiben, zu finden und überhaupt mit Ihnen weiter arbeiten zu können. [9] Im bibliothekarischen Bereich wurden auch einige Anstrengungen unternommen, um den Begriff der Metadatenqualität näher zu beschreiben und Handlungsempfehlungen für die Verbesserung von Metadatenqualität erstellen zu können.[10]

Bereits bei der Digitalisierung und Aufbereitung ist auf die Qualität der Daten zu achten. Hier ist beispielsweise die Fehlerrate der Texterkennung (Optical Character Recognition oder OCR) in digitalisierten Volltexten zu berücksichtigen - Textmining-Ergebnisse basierend auf digitaliserten Volltexten nicht zu hinterfragen und die Qualiät der Daten nicht zu kennen kann gefährlich sein. [11]

Weiterhin ist Datenqualität essentiell für die Nachnutzung der Forschungsdaten seien dies nun Metadaten oder die Daten selbst. Hier ist es auch selbstverständlich dass die Richtlinien guter wissenschaftlicher Praxis eingehalten werden und sich diese auch in den publizierten Daten widerspiegeln.[12] Eine Sicherung der Daten in institutionellen Repositorien, die fachspezifische Richtlinien umsetzen und eine Bereithaltung der Daten garantieren, unterstützt auch die Einhaltung von Qualitätsstandards. Kindling[13] unterscheidet neben der Qualität der Daten und Metadaten auch noch eine dritte Ebene, nämlich die Qualität der Forschungsdateninfrastrukturen. Forschungsprojekte, wie Registry of Research Data Repositories (r3data)[14] versuchen hier WissenschaftlerInnen Anhaltspunkte für die Einschätzung der Güte und Qualität von Repositorien zu geben.  

Kontrollierte Vokabulare

Viel Aufmerksamkeit richtet sich bei der Arbeit mit geisteswissenschaftlichen Daten auf die Kategorisierung und Schematisierung der Inhalte. Dies ist gerade aufgrund der Vielfalt und Verschiedenheit der Daten geboten und es lässt sich wertvolle Arbeitszeit sparen, wenn auf bereits stattgefundene Arbeiten zurück gegriffen werden kann.

So existieren bereits für die Einteilung von personen- und ereignisbezogenen Inhalten so genannte Normdaten oder kontrollierte Vokabulare, mithilfe derer eine Kategorisierung von Daten erfolgen kann.

Die Potentiale von kontrollierten Vokabularen sind erheblich: Durch die Verwendung von Semantic Web Strategien können z.B. in der prosopographischen Forschung synonyme Bezeichnungen für eindeutige historische Personen erkannt und aufgelöst werden und so umfassendere Nachweise erstellt und verwendet werden. Ähnliche Strategien werden bereits für Verwandtschaftsbeziehungen, biographische Informationen (Lebensdaten, Wirkungsorte, Berufe, soziale Rollen) aber auch eindeutige Ortsbezeichnungen, Geodaten u.ä. angewandt.

Insbesondere in Kombination mit personenbezogenen Normdaten können so komplexe Zusammenhänge und Vergleichsperspektiven erschlossen werden: Korrelationen von Statusgruppe, Konfession, politischer Funktion können ebenso erfasst werden wie die Verortung Einzelner in Personen-, Berufs-, Patronage- und Familiennetzwerken.

Was sind kontrollierte Vokabulare?  – Einige Grundzüge

Kontrollierte Vokabulare sind Sammlungen von Wörtern und Bezeichnungen, die nach festgelegten Regeln bearbeitet wurden, um die Mehrdeutigkeiten der natürlichen Sprache zu reduzieren. Kontrolliert-strukturierte Vokabulare können zur terminologischen und zur begrifflichen Kontrolle in der Informationspraxis zu Indexierung und Retrieval genutzt werden. Als terminologische Kontrolle wird dabei die Möglichkeit genutzt, durch Sammlung von Wörtern, die nach festgelegten Regeln bearbeitet wurden, Mehrdeutigkeiten der natürlichen Sprache zu reduzieren. Als begriffliche Kontrolle kann der Aufbau von Relationen zwischen Begriffen verstanden werden. Kontrollierte Vokabulare ermöglichen dabei die inhaltliche Erschließung von Dokumenten durch

  • eine konsistente Indexierung von gleichartigen Bestandteilen,
  • verbesserte Wiederauffindbarkeit von Arten/Datafakten,
  • Hilfe bei der Präzisierung der Recherche,
  • Verständigung über die Inhalte einer (Wissens-) Domäne,
  • Unterstützung der Interoperabilität von Datafakten/Artefakten und
  • besseres Verständnis der Semantik von Daten.

Der Zweck von kontrolliert-strukturierten Vokabularen liegt also maßgeblich in der Organisation von Daten, bzw. darin enthaltenen Informationen. Kontrollierte Vokabulare können nach Art und Grad ihrer Strukturierung typologisiert werden. Man kann unterscheiden zwischen:

  • einer einfachen Form ohne begriffliche Strukturierung (z.B. Liste äquivalenter Terme wie Synonymringe oder bevorzugter Terme wie Synonymlisten, Schlagwortlisten, Normdateien) und
  • strukturierten kontrollierte Vokabularen (z.B. hierarchisch strukturierte Vokabulare wie Taxonomien, Klassifikationssysteme, Systematiken oder Thesauri).

Dabei lässt sich methodologisch eine zunehmende Aussagekraft über Artefakte und Relationen mit der Modellierung von einfachen Wortlisten hin zu komplexeren Ontologien gewinnen[15].  

Einen großen Vorteil bietet die Linked Open Data Initiative[16], welche den Austausch und die Verknüpfung von solchen kontrollierten Vokabularen zum Ziel hat. Gerade der Austausch ist hierbei nicht zu vernachlässigen: Kontrollierte Vokabularien gewinnen erst dadurch ihren Nutzen, dass sie zwischen mehreren WissenschaftlerInnen genutzt werden und so als Standard fungieren.  

Dateiformate

Die Welt der Dateiformate ist eine vielfältige und komplexe: Gemäß der Objekt-Abstraktion von nestor, welche Objekte in physische, logische und konzeptionelle unterteilt, handelt es sich bei Dateien, die Formatstandards gehorchen, um Objekte logischer Natur[17]. Das heißt, dass es sich nicht nur um physische Binärströme (Eine Reihe von Signalen auf einem Datenträger) mit einem Anfang und einem Ende handelt, sondern dass es auch Informationen gibt, welche dem Computer mitteilen, mit welcher Software diese Binärströme erstellt wurden, mit welcher sie zu öffnen sind und wie sie im Dateisystem organisiert sind. 

Binäre Daten. Quelle: wikimedia.org. Lizenz: GNU Free Documentation License

Solche reichlich informatiklastigen Überlegungen sind für digital arbeitende GeisteswissenschaftlerInnen wegen mehrerer Aspekte für die eigene Arbeit interessant:

  • Die Interoperabilität von Dateiformaten mit verschiedener Software und damit auch ggf. unterschiedlichen Fragestellungen ist ein durchaus hinreichender Grund, um vor Beantwortung einer Forschungsfrage zum Beispiel zu prüfen, ob auch andere Programme / Softwaredistributionen mit einem Dateiformat arbeiten können, d.h. es lesen und verstehen können. 
  • Es ist auch wenig sinnvoll, ein kaum dokumentiertes, nirgendwo sonst verwendbares Dateiformat einzusetzen, wenn – wie in den Digital Humanities vorrausgesetzt – ein reger Austausch mit der Community, ggf. auch über die eigenen Disziplingrenzen hinaus, statt finden soll.
  • Daneben ergeben die Probleme der Langzeitspeicherung und des Langzeitzugriff gewisse Implikationen zur Wahl eines Dateiformats (Vgl. Kapitel Langzeitspeicherung)

Die in den Digital Humanities verwendeten Tools und Softwarelösungen sind sehr heterogen, das betrifft sowohl ihre Komplexität als auch ihre nur schwer messbare Reichweite und Beliebtheit in verschiedenen Communities

Wenn man bedenkt, dass es nur Schätzungen über die aktuell existierende Anzahl von Dateiformaten auf der Welt gibt und dass womöglich täglich neue hinzukommen und dass diese u.U. jeweils nur von einem Softwarehersteller zur Speicherung der jeweils nur in seiner Software gebräuchlichen Funktionalität erfunden werden, bedarf es zumindest eines gewissen Grundverständnis und einiger Kriterien, um sich in dieser Welt zurecht zu finden und sinnvolle Entscheidungen für oder gegen die Speicherung der eigenen Daten in einem bestimmten Format zu treffen. WissenschaftlerInnen benötigen sehr gute - meist inhaltliche - Gründe, warum sie ein singulär vorhandenes Dateiformat, welches von keiner anderen Software unterstützt wird und sich auch innerhalb einer wissenschaftlichen Community keiner Bekanntheit erfreut, verwenden und sollten diese Wahl zumindest reflektieren und kommunizieren.

Eine Übersicht über relevante Dateiformate und Metadatenstandards für die Geisteswissenschaften wurde sowohl im IANUS Projekt[18] als auch in DARIAH[19] produziert, beide sind öffentlich online zugänglich.

Zur Vergänglichkeit von Bits: Archivierung und Zugriffssicherung von Daten

Im Falle analoger Quellen und Forschungsdaten ist bekannt, dass diese von Verfall betroffen sind und mit welchen Verfallszeiträumen zu rechnen ist. So haben Steininschriften naturgemäß und wenn sie nicht ständigen Kriegen oder Witterungen ausgesetzt sind, eine sehr lange Haltbarkeit – ggf. über mehrere tausend Jahre. Auch Microfilm wird eine Haltbarkeit von bis zu 500 Jahren bescheinigt. Neuere Datenträger, wie CD-ROMs sind hingegen von einem viel schnelleren Verfall betroffen – hier ist die Rede von 10 Jahren.[20]

Es ist also nicht verwunderlich, dass die Haltbarkeit digitaler Daten eine fragile Angelegenheit ist. Beispiele aus der Praxis belegen dies:

„The University of Southern California's neurobiologists couldn't read magnetic tapes from the 1976 Viking landings on Mars. With the data in an unknown format, he had to track down printouts and hire students to retype everything. 'All the programmers had died or left NASA', Miller said. 'It was hopeless to try to go back to the original tapes.'“

– A Digital Dark Age?[21]

Vint Cerf, der Mitentwickler des TCP/IP Protokolls, eines Standards mit großer Bedeutung für das Internet, sagte in Newsweek[22]:

„People think by digitizing photographs, maps, we have preserved them forever, […] but we’ve only preserved them forever if we can continue to read the bits that encode them.“

Abbildung einer Festplatte. Lizenz: CC0 Public Domain

Die genannten Aussagen illustrieren, dass hier einige Fragen beantwortet werden müssen: Es reicht nicht, qualitativ hochwertige Daten zu generieren, sie müssen auch so gestaltet und abgelegt sein, dass auf sie auch nach längeren Zeiträumen zugegriffen werden kann und das sie durch aktuelle Hard- & Software interpretiert werden können, d.h. so "gelesen" werden können, dass sie von Menschen "verstanden" werden.





Was ist Langzeitarchivierung (LZA)?

Der Begriff der Langzeitarchivierung (LZA) bezieht sich sowohl auf die Haltbarkeit der Datenträger, auf denen Daten gespeichert werden, als auch auf die Haltbarkeit von Dateien selbst. Die Erhaltung der dauerhaften Verfügbarkeit von Informationen ist ein wichtiges Ziel: Erst mit einer gelungenen Langzeitarchivierung lassen sich Forschungsdaten langfristig auch von anderen Wissenschaftlern auswerten und nachnutzen.

Mit dem Ziel einer dauerhaften Verfügbarkeit sind einige typische Herausforderungen verbunden: Jeder kennt das Phänomen, dass es bei der Dateiübertragung, beispielsweise einem Videostream, bei unzuverlässiger Datenleitung zu Bitfehlern und damit auch Darstellungsfehlern in einer Datei kommen kann. Auch sind die Dateiformate selbst sowie deren Standardisierung und Normalisierung eine Kernkomponente bei der Pflege (englisch: Curation) von Daten – beispielsweise durch Bibliothekare und Archivare. Das International Journal of Digital Curation stellt folgende Tabelle als Übersicht über die Gefahren der Langzeitarchivierung bereit[23]:

Gefahren für Bits. Vgl. The International Journal of Digital Curation. Issue 1, Volume 5. 20 S. 9


Wir unterscheiden also zwischen verschiedenen Gefahren bei der langfristigen Ablage von Daten:

  1. Hardware-Korruption – Die Beschädigung von Hardware-Speichern (Festplatten, DVDs etc.) durch äußere Einflüsse (Stichwort Kölner Stadtarchiv) oder altersbedingten Verfall
  2. File-Korruption – Die Beschädigung von Dateien, wenn einzelne Bits nicht mehr lesbar sind durch entweder fehlerhafte Dateiübertragung oder beschädigte Hardware
  3. Format Obsoleszenz – Die Überalterung eines Dateiformats, wenn ein Dateiformat nicht weiter entwickelt wurde und von keiner aktuellen Software interpretiert werden kann, gilt es als obsolet – eine langfristige Sicherung mit Gewährleistung der Lesbarkeit kann nicht mehr garantiert werden.
  4. Hardware Obsoleszenz – Auch Hardware kann veralten. Man denke an die Floppy Disk. Eine Datensicherung auf Floppy Disks würde nach heutigen Maßstäben nicht als eine ausreichende Maßnahme zur Langzeitarchivierung gelten.

Technische Lösungsstrategien und bestehende Infrastrukturangebote für die Archiverung von Daten 

Die Forschung zur digitalen Langzeitarchivierung kennt folgende Ansätze, um diesen Gefahren zu begegnen:

  1. Hardwaremigration – Die Migration auf dem Gebiet von Hardware meint das regelmäßige Kopieren von Daten zwischen Datenträgern. Es wird also in regelmäßigen Abständen die Aktualität und Qualität der verwendeten Hardware (häufig Serverarchitekturen in Rechenzentren) geprüft und gegebenenfalls gegen aktuellere Modelle ausgestauscht. Hernach ist immer ein Kopieren der enthaltenen Daten von einem zum anderen System notwendig.
  2. Redundante Speicherung – Redundante Speicherung ist eine weitere Voraussetzung, um eine sichere Ablage gewährleisten. So ist eine einzelne Datei ohne existierende Kopien an einem anderen Ort immer ein Risiko: Wenn ausgerechnet diese eine Kopie auf einem Server liegt, der einen Wasserschaden nicht überlebt hat, so ist sie für immer vernichtet oder kann nur durch aufwendige Maßnahmen wieder hergestellt werden  – Sind hingegen weitere Kopien im Umlauf, kann auf diese ausgewichen werden. Daher empfiehlt es sich für einen Anbieter von Diensten digitaler Langzeitarchivierung, mehrere Hardware-Systeme parallel im Einsatz zu halten und diese auch an unterschiedlichen Orten aufzustellen. Eine Software, die die darauf gespeicherten Daten regelmäßig überprüft und miteinander vergleicht, ggf. auch korrupte Daten durch vollständige austauscht, kann hier helfen.
  3. Formatmigration – Als Formatmigration wird der Vorgang, der sonst häufig Formatkonvertierung genannt wird, bezeichnet. Wenn also eine aufbewahrungswürdige Datei ein Dateiformat besitzt, von welchem bekannt ist, dass es vermutlich nicht mehr aktuell ist, so sollte diese Datei in ein geeigneteres Dateiformat konvertiert oder migriert werden. Auf dem Gebiet der unterschiedlichen Medientypen existieren dabei unterschiedlich große Empfehlungen und Herangehensweisen: Für klassische Bilddaten (pixelbasiert – nicht vektorbasiert), wird klassischerweise in das Dateiformat TIFF als langzeitarchivierungssicheres Dateiformat migriert. Für Videodaten oder weniger einheitliche Medientypen, wie Datenbanken, existieren hingegen keine einheitlichen Überlegungen, geschweige denn einheitliche Empfehlungen.  
  4. Software-Emulation – Software-Emulation bezeichnet die Strategie, ein veraltetes Computer-Programm, welches nicht mehr auf aktuellen Betriebssystemen läuft und auch nicht mehr unterstützt oder weiter entwickelt wird, zu "emulieren", d.h. nachzubilden - häufig, indem die Betriebssystemarchitektur dieser Zeit nachgebildet wird. Beispielsweise kann so CorelDraw aus den späten 90er Jahren auf einem aktuellen Apple System, bspw. MacOS X 10.9, wieder ausgeführt werden. Es handelt sich dabei aber um eine sehr aufwendige und experimentelle Strategie, die nur in Ausnahmefällen Anwendung findet. Am Bekanntesten sind wohl Nachbildungen von Videospielen aus den 80er Jahren, von denen mittlerweile viele per Emulation in Webtools gespielt werden können (Zum Beispiel Arcade Games aus den 80er Jahren: http://www.tripletsandus.com/80s/80s_games/arcade.htm).
  5. Dokumentation – Diese Strategie wird als Ergänzung zu den vorherigen verwendet: Durch aktive und umfassende Extraktion von technischen Metadaten aber auch der intensiven bibliographischen Beschreibung des Inhalts (Deskriptive Metadaten), kann sowohl das Auffinden von Daten als auch das Finden einer geeigneteren aktuellen Software zur Interpretation erleichtert werden. 

Die Punkte Hardwaremigration und redundante Speicherung sind mittlerweile hinreichend bekannt, auch Praxis moderner Rechenzentren. Für die letzten Punkte besteht noch einiger Forschungs- bzw. Implementierungsbedarf. Daher müssten WissenschaftlerInnen selbst diese Punkte zumindest im Auge behalten, indem beispielsweise Empfehlungen bei der Verwendung von Software und Dateiformaten eingehalten werden oder auch aktiv am Ende eines Forschungsprojekts in empfohlene Dateiformate konvertiert wird. 

Die WissGrid-Initiative versucht die Lösung konzeptionell anzugehen und trifft auf Basis der Unterscheidung zwischen verschiedenen Arten des Objektbegriffs[24] folgende Arten der Gewährleistung von "Speicherung". Demnach sind Langzeitarchivierungsstrategien dann erfolgreich, wenn sie folgende Ebenen berücksichtigen:

  • "der physikalischen Ebene (digitale Objekte werden auf physikalischen Medien gespeichert),
  • der logisch-technischen Ebene (digitale Objekte werden in bestimmten Formaten kodiert) und
  • der intellektuellen Ebene (digitale Objekte erfüllen einen bestimmten Sinn für Menschen)."

Für WissenschaftlerInnen bedeutet dies, dass ihre Expertise und Mitarbeit gerade zur Erhaltung der intellektuellen Ebene von digitalen Forschungsdaten gefordert ist und eine geeignete Langzeitarchivierungsstrategie möglichst in Kooperation mit dem technischen Dienst, der diese umsetzen soll, abgesprochen werden muss. 

Weitere bedenkenswerte Aspekte im Bezug auf die Verbreitung und Veröffentlichung von Daten

Zitierbarkeit

 Im Gegensatz zu textbasierten Publikationen gibt es für Forschungsdaten – und zwar zumeist auch in den Naturwissenschaften – keine standardisierte Methode, wie zitiert werden soll. Zur Nachvollziehbarkeit und ggf. auch Wiederholbarkeit eines digitalen Forschungsprojekts ist aber der Zugriff auf diese zugrunde liegenden Daten essentiell.

Es wird gemeinhin die Verwendung von persistenten Identifikatoren empfohlen.[25] Bei diesen handelt es sich um eindeutige, dauerhaft auf eine Ressource verweisende Zeichenketten (Also Folgen von Zahlen und Buchstaben). 

So können Links und Verweise in einer Publikation langfristig zugreifbar bleiben und behalten auch nach – beispielsweise – Technologiebrüchen, Serverumzügen oder Firmenübernahmen weiterhin ihre Gültigkeit, da nur die Uniform Resource Locator (URL) hinter einem persistenten Identifikator ausgetauscht wird, nicht aber der Identifikator selbst. Auf diese Art ist eine dauerhafte Verfügbarkeit und ein dauerhafter Zugriff auf Daten auch im Kontext der Langzeitarchivierung sicher gestellt. Vertiefende Informationen zu persistenten Identifikatoren finden sich im Kapitel zu digitalen Infrastrukturen.

Trust

Ein weiterer – noch nicht hinreichend standardisierter – Aspekt ist der Kontext der Vertrauenssicherheit, im englischen gebräuchlicher: Trust.

Hier handelt es sich um Verfahren, um sicher zu stellen, dass einem Langzeitarchivierungssystem / einem Datenrepositorium auch vertraut werden kann. Diese werden häufig als ein Audit, d.h. als eine Art Betriebsprüfung, durchgeführt. Beispiele hierfür sind das Data Seal of Approval (DSA)[26] oder die Norm "Audit and certification of trustworthy digital repositories (ISO 16363)" von der International Organization for Standardization (ISO)[27]. Keiner der genannten Lösungsvorschläge wurde speziell auf die Implikationen von heterogenen geisteswissenschaftlichen Daten angepasst, daher bedarf es hier einer genaueren Prüfung, welche der Ansätze die passendste Lösung darstellt.

Archivierung vs. Nachnutzbarkeit

Es sollte darauf hingewiesen werden, dass die genannten Lösungsstrategien aus dem Bibliotheks- und Archivbereich stammen. Dabei wird der Fokus auf die Sicherstellung des Zugriffs und der Lesbarkeit von Dateien gelegt.  Ein weiteres – noch nicht ausreichend erforschtes – Feld ist deswegen die Sicherstellung ihrer Nachnutzbarkeit. Hier handelt es sich nicht zwangsläufig um die gleiche Problemstellung: So wird im Bereich Textmedien gerne das Dateiformat PDF/A zur Langzeitarchivierung empfohlen – dabei wird jedoch nicht hinreichend berücksichtigt, dass das Dateiformat "Portable Document Format" (PDF) keinerlei Editieren und damit Arbeiten mit den Textdaten ermöglicht. Es handelt sich lediglich um ein Dateiformat zur plattformunabhängigen Darstellung von (mehrseitigen) Text- und Bilddateien. Gerade zur Gewährleistung der Nachnutzbarkeit von Daten, was im Rahmen eines Forschungsdatenzyklus ein zentrales Anliegen ist, kann das Dateiformat PDF also zu einer massiven Nutzungseinschränkung führen. Hier empfehlen sich alternative Dateiformate: Zum einen kann der Open Document (ODF) Standard für Office-Dokumente verwendet werden, für klassisch geisteswissenschaftliche Quellgattungen kann der TEI Standard und die darin angebotenen Anpassungen (en: Customizations) eine gute Alternative sein. Beide Empfehlungen gelten jedoch unter Vorbehalt, da viele weitere Verwendungszwecke von textbasierten Informationen möglich sind, welche von den genannten Empfehlungen nur unzureichend unterstützt werden. 

Insgesamt wird interessierten WissenschaftlerInnen für alle genannten Aspekte der Langzeitproblematik empfohlen, immer Nutzen und Aufwand zwischen den unterschiedlichen Optionen bei der Wahl von Dateiformaten abzuwägen. Das folgende Kapitel nennt dabei die wichtigsten Punkte, die es zu bedenken gilt.

Handlungsbedarf und offene Forschungsfragen in der Langzeitarchivierung

Das Problemfeld der Langzeitarchivierung stellt sowohl eine Herausforderung an Bibliothekare und Archivare aber auch an jeden Forschenden dar. Aus den oben geschilderten Aspekten ergibt sich schnell, dass hier kein einheitlicher Lösungsvorschlag unterbreitet werden kann. Es können aber einige Bereiche identifiziert werden, in denen WissenschaftlerInnen selbst Lösungsmöglichkeiten beeinflussen können:

  • Eine unvollständige Liste von Dateiformaten zählt bei Wikipedia aktuell 1316 gebräuchliche Dateiformate[28]. Diese unterscheiden sich augenscheinlich in allerlei Aspekten – sowohl was ihren Anwendungsbezug als auch ihre Dokumentationstiefe, ihre Verbreitung und weiteres betrifft. Hier kann die Library of Congress wertvolle Empfehlungen geben.[29] Durch die Wahl des Dateiformats lässt sich das Problem der Formatobsoleszenz zumindest eingrenzen. Kriterien, wie die Verbreitung eines Dateiformats, seine Lizenzierung und Akzeptanz über eine Community hinaus sind ein wichtiger Maßstab, um dessen Langzeitarchivierungstauglichkeit beurteilen zu können.
  • Sollte es sich bei den desiderierten Forschungsdaten um Solche handeln, welche die Digitalisierung noch vor sich haben, sind unbedingt die Empfehlungen der DFG und des Wissenschaftsrats zu beachten. Generell ist es eine gute Idee, nicht unbedingt eigene Konventionen festzulegen, sondern bereits bestehende zu übernehmen.[30]
  • Die Frage nach der Datenablage nach Projektabschluss, sollte möglichst schon im Forschungsantrag beantwortet werden. Die verschiedenen Forschungsförderungsorganisationen machen gegebenenfalls auch Angaben zu erwünschtem Umfang und Form der abschließenden Aufbewahrung. Generell ist zu empfehlen, Forschungsdaten nicht nur lokal zu speichern, sondern Angebote des eigenen Rechenzentrums, der lokalen Hochschulbibliothek, aber auch landes- oder bundesweiter wissenschaftlicher Infrastrukturen anzunehmen. Hier gilt es auf die oben aufgeführten Kriterien zu achten: Werden die Daten redundant gespeichert? Werden Strategien zur Formaterkennung und -dokumentation angeboten?
  • Eine hinreichend umfangreiche deskriptive Beschreibung der eigenen Forschungsdaten in einem dafür vorgesehenen und verbreiteten Metadatenstandard ist immer zu empfehlen. Solche Metadaten können wertvolle Zusatzinformationen liefern und erleichtern das Auffinden und die Verknüpfung zu anderen Daten in einem System. Hier bieten sich die Standards der Library of Congress an.[31]

Eine nicht vollständige aber umfangreiche Liste von möglichen Kriterien, die es hinsichtlich Langzeitarchivierungsfähigkeit und Nachnutzbarkeit der eigenen Forschungsdaten zu beachten gilt wurde außerdem im Rahmen von DARIAH-DE entwickelt. [32]

Links und Literatur

  • Andorfer, Peter: "Forschen und Forschungsdaten in den Geisteswissenschaften. Zwischenbericht einer Interviewreihe". DARIAH-DE Working Papers Nr. 10. Göttingen: DARIAH-DE, 2015 URN:urn:nbn:de:gbv:7-dariah-2015-3-8
  • Bruce und Hillmann: The Continuum of METADATA Quality: Defining,Expressing, Exploiting, Published in “Metadata in Practice,” ALA Editions, 2004,Stvilia, B., & Gasser, L. (2008). Value based metadata quality assessment. Library & Information Science Research, 30(1), 67-74. http://dx.doi.org/10.1016/j.lisr.2007.06.006
  • Kindling, Maxi (2013) Qualitätssicherung im Umgang mit digitalen Forschungsdaten. In: Information: Wissenschaft und Praxis, 64(2/3):137-147
  • Simukovic, Elena; Thiele, Raphael; Struck, Alexander; Kindling, Maxi; Schirmbacher, Peter (2014): Was sind Ihre Forschungsdaten? Interviews mit Wissenschaftlern der Humboldt-Universität zu Berlin. Bericht, Version 1.0. Online verfügbar unter: urn:nbn:de:kobv:11-100224755

Anmerkungen

  1. Für Digitalisate und darauf basierenden Forschungsergebnissen, ist es essentiell festzustellen, inwiefern die Rekonstruktion dem historischen Objekt nahe kommt und welche Erkenntnisse belegbar sind.
  2. In einem Essay von Ricky Erway von OCLC werden digital erzeugte Daten als Daten definiert, die digital erstellt wurden und in digitaler Form bearbeitet werden. (Erway, Ricky: Defining “Born Digital”. An Essay by Ricky Erway, OCLC Research, 2010)
  3. Weitere Datenformate und Beispiele wurden in durchgeführten Interviews mit Fachwissenschaftlern an verschiedenen deutschen Universitäten und Forschungseinrichtungen, z.B. Simukovic, Elena; Thiele, Raphael; Struck, Alexander; Kindling, Maxi; Schirmbacher, Peter (2014): Was sind Ihre Forschungsdaten? Interviews mit Wissenschaftlern der Humboldt-Universität zu Berlin. Bericht, Version 1.0. Online verfügbar unter: urn:nbn:de:kobv:11-100224755 oder Peter Andorfer: "Forschen und Forschungsdaten in den Geisteswissenschaften. Zwischenbericht einer Interviewreihe". DARIAH-DE Working Papers Nr. 10. Göttingen: DARIAH-DE, 2015 URN:urn:nbn:de:gbv:7-dariah-2015-3-8)
  4. Johanna Puhl, Peter Andorfer, Mareike Höckendorff, Stefan Schmunk, Juliane Stiller, Klaus Thoden: "Diskussion und Definition eines Research Data LifeCycle für die digitalen Geisteswissenschaften".DARIAH-DE Working PapersNr. 11. Göttingen: DARIAH-DE, 2015 URN:urn:nbn:de:gbv:7-dariah-2015-4-4 http://webdoc.sub.gwdg.de/pub/mon/dariah-de/dwp-2015-11.pdf
  5. Peter Andorfer: "Forschen und Forschungsdaten in den Geisteswissenschaften. Zwischenbericht einer Interviewreihe". DARIAH-DE Working PapersNr. 10. Göttingen: DARIAH-DE, 2015 URN:urn:nbn:de:gbv:7-dariah-2015-3-8
  6. Johanna Puhl, Peter Andorfer, Mareike Höckendorff, Stefan Schmunk, Juliane Stiller, Klaus Thoden: "Diskussion und Definition eines Research Data LifeCycle für die digitalen Geisteswissenschaften".DARIAH-DE Working PapersNr. 11. Göttingen: DARIAH-DE, 2015 URN:urn:nbn:de:gbv:7-dariah-2015-4-4 http://webdoc.sub.gwdg.de/pub/mon/dariah-de/dwp-2015-11.pdf
  7. Aus: Fachspezifische Empfehlungen für Daten und Metadaten, http://dev2.dariah.eu/wiki/pages/viewpage.action?pageId=20058160
  8. www.europeana.eu
  9. Dangerfield, Marie-Claire;  Kalshoven, Lisette (Edn.): Report and Recommendations from the Task Force on Metadata Quality, 2015, http://pro.europeana.eu/files/Europeana_Professional/Publications/Metadata%20Quality%20Report.pdf
  10. Weiterführende Literatur zur Metadatenqualität in digitalen Bibliotheken:  Bruce und Hillmann: The Continuum of METADATA Quality: Defining,Expressing, Exploiting, Published in “Metadata in Practice,” ALA Editions, 2004,Stvilia, B., & Gasser, L. (2008). Value based metadata quality assessment. Library & Information Science Research, 30(1), 67-74. http://dx.doi.org/10.1016/j.lisr.2007.06.006 & Park, Jung-Ran. “Metadata Quality in Digital Repositories: A Survey of the Current State of the Art.”Cataloging & Classification Quarterly47, no. 3–4 (April 9, 2009): 213–28. doi:10.1080/01639370902737240.
  11. Alex, B. and Burns, J. 2014. Estimating and Rating the Quality of Optically Character Recognised Text. In Proceedings of DATeCH 2014, Madrid, Spain 
  12. siehe die ergänzte und aktualisierte Denkschrift  "Sicherung guter wissenschaftlicher Praxis" der DFG, 2013, http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_1310.pdf
  13. Kindling, Maxi (2013) Qualitätssicherung im Umgang mit digitalen Forschungsdaten. In: Information: Wissenschaft und Praxis, 64(2/3):137-147
  14. http://www.re3data.org/
  15. Für weitere Informationen: https://dev2.dariah.eu/wiki/display/publicde/5.+Kontrolliert-Strukturierte+Vokabulare
  16. Vgl. http://linkeddata.org/
  17. Neuroth, Heike, Karsten Huth, Achim Oßwald, Regine Scheffel, and Stefan Strathmann (Hg.). Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.3. nestor, 2010. http://www.nestor.sub.uni-goettingen.de/handbuch/index.php. Nestor 2010, Kap 9.1, S. 4
  18. http://www.ianus-fdz.de/it-empfehlungen/dateiformate
  19. https://dev2.dariah.eu/wiki/pages/viewpage.action?pageId=38080370
  20. http://wp.ub.hsu-hh.de/13800/haetten-sies-gewusst-geschichte-speichermedien-begann-40-000-v-chr/
  21. Coming Soon: A Digital Dark Age?. 2013. http://www.cbsnews.com/news/coming-soon-a-digital-dark-age/
  22. http://www.newsweek.com/2015/07/03/storing-digital-data-eternity-345557.html
  23. http://ijdc.net/index.php/ijdc/article/view/143/205, S.9
  24. Neuroth, Heike, Karsten Huth, Achim Oßwald, Regine Scheffel, and Stefan Strathmann (Hg.). Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.3. nestor, 2010. http://www.nestor.sub.uni-goettingen.de/handbuch/index.php
  25. Tonkin, Emma. “Persistent Identifiers: Considering the Options.” Ariadne, no. 56 (2008). http://www.ariadne.ac.uk/issue56/tonkin
  26. http://datasealofapproval.org/en/
  27. Vgl. UK DATA ARCHIVE: HOW TO CURATE DATASTANDARDS OF TRUST. http://www.data-archive.ac.uk/curate/trusted-digital-repositories/standards-of-trust
  28. https://en.wikipedia.org/wiki/List_of_file_formats
  29. http://www.loc.gov/preservation/resources/rfs/TOC.html
  30. http://www.dfg.de/formulare/12_151/12_151_de.pdf
  31. http://www.loc.gov/standards/
  32. https://dev2.dariah.eu/wiki/pages/viewpage.action?pageId=38080370