Digitale Langzeitarchivierung an der UB Basel – ein Statusupdate

Bereits in der ersten Jahreshälfte berichteten wir von unseren Plänen zur digitalen Langzeitarchivierung an der Universitätsbibliothek Basel. Neben dem damals beschriebenen Umgang mit alten Datenträgern bauen wir parallel die Infrastruktur für die langfristige Archivierung dieser Daten auf. Wohlbemerkt: Langfristig im Sinne eines Archivs bedeutet auch bei den schnelllebigen digitalen Daten nicht bloss zehn Jahre. Wir rechnen grundsätzlich mit 100 Jahren bis in die ferne Ewigkeit. Das bedeutet letztlich, dass die archivierten Daten nicht mit der blossen Speicherung auf einer separaten Festplatte und einer mehr oder weniger durchdachten Backup-Strategie gesichert sind. Vielmehr müssen sie regelmässig überprüft, umkopiert, in die Hand genommen und auch mal in ein neues Dateiformat migriert werden (wenn bspw. ein proprietärer Software-Anbieter Konkurs anmeldet und das von ihnen entwickelte Dateiformat damit wohl nicht mehr lange leben wird, oder, wenn Microsoft für ihre Office-Produkte wieder einmal neue Dateiformate einführt).

In diesem Themenfeld ist man als Archiv zum Glück nicht alleine unterwegs. Auf der ganzen Welt engagieren sich Archivare, Bibliothekare und verschiedene IT-Experten für die Archivierung unserer Daten und den Erhalt unserer digitalen Kulturgüter. Beispiele für solche Netzwerke sind etwa die Digital Preservation Coalition, die Open Preservation Foundation oder das Software Preservation Network, aber auch die Community auf Twitter ist sehr rege und hilfsbereit. Zudem kann man nicht wenig von Erfahrungen und Tools aus anderen Communities wie bspw. der Digitalen Forensik profitieren.

Der Bedarf für die digitale Langzeitarchivierung ist auch bei uns in der Universitätsbibliothek in den letzten Jahren kontinuierlich gewachsen, weshalb wir 2019 mit dem konkreten Aufbau einer eigenen Infrastruktur für die Archivierung unserer digitalen Kulturgüter begonnen haben.

Schematische Übersicht der Komponenten für die Langzeitarchivierung

Die Entwicklung der skizzierten Infrastruktur folgt dabei den agilen Prinzipien der Softwareentwicklung. Das Projektmanagement-Framework Scrum ermöglicht uns schnelle Fortschritte und sichtbare Ergebnisse. In zeitlich begrenzten Entwicklungszyklen von drei bis vier Wochen kümmern wir uns jeweils um einen konkreten Anwendungsfall wie aktuell um die Archivierung von Office-Dokumenten verschiedensten Ursprungs oder davor um unsere Bild-Digitalisate auf e-codices oder um Audio-Dateien. Unser Ziel ist, dass im Laufe des nächsten Frühlings eine vollständige produktive Infrastruktur zur Verfügung steht. Im Detail beschäftigen uns dabei folgende Themen:

Data to be archived: Aktuell liegen auf unseren Servern rund 60 Terabyte an Digitalisaten von handschriftlichen Dokumenten, alten Drucken, aber auch von einigen wenigen audiovisuellen Medien oder Zeitungen. Die Investitionen in die Digitalisierung der letzten zehn Jahre waren recht hoch, weshalb wir sicherstellen wollen, dass die dabei entstandenen Daten auch langfristig gesichert sind. Unabhängig davon tauchen in den Nachlässen und Archiven in unseren Beständen immer mehr digitale Datenträger auf (Floppy Disketten, CDs, Festplatten und USB-Sticks, Iomega Zip uvm.). Auch diese Daten müssen gesichert und zugänglich gemacht werden. Abschliessend prüfen wir die Anbindung unseres Publikationsrepositories edoc und damit die, möglichst automatisierte, digitale Archivierung der Publikationen unserer Forschenden.

Ingest and Migration Toolbox: Mit der Firma docuteam zusammen und auf Basis des Tools docuteam feeder und des Repositories Fedora Commons entwickeln wir eine Toolbox mit Speicherverwaltung, die die Analyse, Validierung, Migration (d.h. Umwandlung in archivtaugliche Dateiformate) und die Archivierung der Daten in Form von Archivkapseln ermöglicht. Die Toolbox ist modular aufgebaut und fast vollständig Open Source bzw. frei von Lizenzgebühren und kann daher einfach konfiguriert, angepasst und erweitert werden. So sind wir auch für künftig neu aufgetauchte oder entwickelte Dateiformate gut gerüstet. Ein besonderes Augenmerk legen wir dabei auf die Authentizität und Integrität der Daten. Wir wollen sicherstellen, dass unsere Nutzer*innen keine verfälschten oder fehlerhaften Daten erhalten. Mit technischen Verfahren und einer ausführlichen Dokumentation belegen wir deren Integrität und die im Laufe der Archivierung durchlaufenen Prozesse an und mit den Daten.

Archive Storage: Mit verschiedenen Partnern an der Universität Basel aber auch auf nationaler Ebene prüfen wir mögliche Speicherstandorte für die archivierten Daten. Die konzeptuelle Basis legt dafür die sogenannte 3-2-1-Regel. Diese besagt, dass die archivierten Daten in drei Kopien auf zwei verschiedenen Datenträgertypen (bspw. Netzwerkspeicher und Magnetbänder) gespeichert werden, wobei eine Kopie der Daten an einem Ort mit einem anderen Risikoplan liegt. Der Hintergedanke dabei ist, dass wir, sollte Basel doch noch von einem Nachfolger des grossen Erdbebens im Jahre 1356 getroffen werden, dennoch eine vollständige Kopie der Daten an einem Ort in der Schweiz gesichert haben, den das Beben nicht tangiert hat.

Usage and Sharing: Eine reine Archivierung der Daten, ohne, dass man jemals wieder darauf zugreifen kann, macht natürlich wenig Sinn. Daher überlegen wir uns bereits verschiedene Optionen, wie wir unsere Daten für Nutzer*innen zugänglich machen können. Während unsere Bild-Digitalisate bereits über die Portale e-manuscripta, e-rara und e-codices recherchier- und nachnutzbar sind, wollen wir auch Digitalisate von audiovisuellen Medien vermehrt zugänglich machen. Einige wenige Tonaufnahmen sind bspw. bereits über das nationale Portal Memobase abspielbar. Des Weiteren sind wir im Bereich IIIF (International Image Interoperability Framework) sehr aktiv. Dieses Framework ermöglicht es, Digitalisate auf neue und innovative Weise für die Nachnutzung und Forschung aufzubereiten (siehe dazu auch unseren Blog-Artikel vom August 2018). Letztlich wird es aber immer auch Daten geben, deren Aufbereitung für die Nutzung uns vor (zu) grosse Hürden stellt. Gerade bei älteren Dateiformaten aus speziellen Betriebssystemen oder Software-Tools geht eine Migration in ein aktuelles Dateiformat unweigerlich mit einem mehr oder weniger grossen Informationsverlust einher. Daher stellen wir bereits erste Überlegungen an, wie wir zukünftig einen digitalen Lesesaal betreiben und mit Emulation-as-a-Service ausstatten können. Das würde es bspw. erlauben, dass man die originalen digitalen Daten eines Archivs auf dem System nutzen und erleben könnte, auf dem sie damals entstanden sind – und zwar direkt im Webbrowser.

Wir stehen erst am Anfang des Projekts, die Realisierungsphase begann im Frühsommer 2019. Möglichst bald wollen wir jedoch erste konkrete Ergebnisse präsentieren. Über den weiteren Projektverlauf berichten wir regelmässig – natürlich auch auf diesem Blog.

beat.mattmann@unibas.ch

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.