Transkribus kompakt: Transkriptionsoberfläche und Sammlungsverwaltung

Ein Gastbeitrag von Ina Serif, Mitarbeiterin am Lehrstuhl für Geschichte der Renaissance und Frühe Neuzeit am Departement Geschichte und im Projekt Stadt.Geschichte.Basel.

Transkribus, ein Programm zur Transkription handschriftlicher und gedruckter Dokumente, wurde die letzten Jahre im Rahmen des READ-Projekts entwickelt (EU-Förderprogramm Horizon 2020). Es bietet die Möglichkeit, unterschiedliche Schritte der Aufbereitung und Anreicherung von Quellen in einer Arbeitsumgebung durchzuführen, und ist kostenlos und für alle gängigen Betriebssysteme verfügbar (zur Registrierung und zum Download geht es hier). Die zahlreichen Funktionen sind zu Beginn etwas schwer zu überblicken, können aber für die Arbeit mit handgeschriebenen oder gedruckten Quellen mit grossem Nutzen angewendet werden. Eine ausführliche, wenn auch nicht erschöpfende Anleitung zur Installation und ersten Schritten mit dem Programm habe ich an anderer Stelle veröffentlicht. Hier kommen nun ein kleiner Einblick und einige Aspekte zu Transkribus für Neugierige:

Das grösste Versprechen der Software stellt sicher die automatische Texterkennung für Handschriften dar (Handwritten Text Recognition, HTR), und in diesem Bereich sind in den letzten Jahren auch immense Fortschritte gemacht worden – und noch weitere zu erwarten. Für die Besucher*innen des Sonderlesesaals der UB Basel dürfte aber vielleicht jener Aspekt des Programms besonders interessant sein, der fast ein wenig untergeht: Transkribus bietet nämlich für herkömmliche Transkriptionen eine sehr angenehme und vor allem auch ungemein praktische Arbeitsumgebung:

Transkribus1
Abb. 1: Transkriptionsansicht in Transkribus, vertikale Ausrichtung.
Transkribus2
Abb. 2: Transkriptionsansicht in Transkribus, horizontale Ausrichtung.

Bevor es zu dieser Ansicht kommt, muss nach dem Hinzufügen eines Dokuments in die eigene Sammlung zuerst das Layout erkannt werden, damit die Textbereiche auch als solche identifiziert und Text und Bild miteinander verknüpft werden können– auch hierfür sei auf die ausführlichere Anleitung verwiesen. Danach wird, wie auf den ersten beiden Abbildungen zu sehen ist, die aktuell transkribierte Zeile auf dem Digitalisat und im Textfeld jeweils farbig hervorgehoben – je schmaler die Zeilenabstände in einem Dokument sind, desto hilfreicher ist diese Ansicht. Die Ausrichtung des Textfelds kann dabei gewechselt werden, und das Digitalisat kann vergrössert oder verkleinert werden – ob man bei starker Vergrösserung nur noch Pixel sieht, hängt freilich von der Auflösung der Bilddatei ab. Bei den auf e-codices vorhandenen digitalisierten Beständen der UB Basel können sehr hochaufgelöste Bilddateien exportiert werden.

Die im Textfeld erstellten Texte, die seitenweise gespeichert werden, können in verschiedene Formate exportiert werden, sei es als Textdatei (doc oder txt) oder in Kombination mit dem dazugehörigen Digitalisat (als durchsuchbare PDF-Datei). Zudem lässt sich die Transkription auch mit Tags versehen, wobei zu den vorhandenen auch eigene erstellt werden können.

Transkribus3
Abb. 3: Markierung von “ ē“ als Abkürzung (Tag „abbrev“) und Zuweisung der Eigenschaft „en“ als Abkürzungsauflösung.

Ein Export in TEI ist ebenfalls möglich, wobei gewählt werden kann, ob und wenn ja, welche Tags mit exportiert werden sollen. (Wer eine eigene xls-Transformation anwenden möchte, kann sich an den Support von Transkribus wenden.)

Abb. 4: TEI-Export mit Tags.
Abb. 4: TEI-Export mit Tags.

Je nach Vorgehen bzw. Vorgaben für die zu erstellende Transkription steht eine grosse Auswahl an Sonderzeichen bereit; sollte sich ein Zeichen nicht finden, kann es über dessen Unicode importiert werden:

Bild_5.png

Die Sammlungsverwaltung – hier können sogenannte «Collections» erstellt und Dateien, vom Einzelbild bis zur kompletten Handschrift, hinzugefügt werden – bietet auch die Möglichkeit, mit anderen gemeinsam an einem Projekt zu arbeiten, indem solche Collections oder auch nur einzelne Dokumente daraus geteilt werden:

Bild_6.png

Sammlungsverwaltung, Verknüpfung der Text-Bild-Ebene in der Transkriptionsumgebung und die verschiedenen Exportmöglichkeiten bieten eine gute Unterstützung bei der Quellenarbeit; einige Tücken des Programms, das nicht immer ganz intuitiv zu bedienen ist, gilt es dabei zu überwinden, aber die Mühe dürfte sich fast immer lohnen. Und wer genügend Seiten von Hand transkribiert hat, kann sich auch weiter in Richtung automatisierte Texterkennung vortasten und dadurch am Ende vielleicht ganz neue Fragen an seine Quellen stellen.

Verwendete Handschrift:
Basel, Universitätsbibliothek, E II 11, fol. 114r. Das Digitalisat finden Sie hier!

Die Handschrift enthält die Straßburger Chronik Jakob Twingers von Königshofen, fol. 114r den Beginn des zweiten Kapitels.

ina.serif@unibas.ch

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.