Worauf kann ich mich verlassen? Arbeiten mit digitalisierten Quellen, Teil 1: OCR

Forscherinnen und Forscher sind immer froh, wenn sie im Netz rasch diejenigen Materialien finden, die sie für ihre Studien benötigen. Doch gleich nach dem Treffer stellen sich eine Reihe von Fragen, welche die Qualität des gefundenen Dokuments betreffen: Handelt es sich um die richtige Ausgabe? Ist die Quelle richtig nachgewiesen? Ist das Digitalisat vollständig?

Im heutigen Blogpost möchte ich auf die Qualität von digitalen Volltexten eingehen, die man gerne zum Nachschlagen und Suchen verwendet. Dieses Thema durfte ich im Rahmen eines «transferable skills» Kurses «Doing Digital Projects» am Graduate Center (GRACE) unterrichten. «Doing Digital Projects» fokussierte sich auf die «digital litteracy», d.h. wie Promovierende die digitalen Technologien fach- und gattungsgerecht in ihrer Forschungspraxis einsetzen können. Neben digitalen Tools zur Arbeitsorganisation, Möglichkeiten zur Veröffentlichung von Publikationen und Forschungsdaten, thematisierte ich die Beurteilung von Datenqualität. Diese Einschätzung ist alles andere als trivial: Nur wer die Qualität der aufgefundenen Daten evaluieren kann weiss auch, wie belastbar die Daten sind und wozu man sie verwenden kann.

Born digital oder retrodigitalisiert?

Sind bei einem Projekt Daten aus dem Netz im Spiel, ist es zunächst wichtig, dass man deren Entstehung korrekt einordnen kann. Handelt es sich dabei um ein retrodigitalisiertes Dokument? Oder wurde das Dokument digital am Computer erstellt und publiziert? So die gängigen Fragen. Retrodigitalisierte Dokumente erkennt man an ihrer Raster- oder Pixelstruktur, wenn man sie bei grosser Vergrösserung betrachtet. Digital erstellte PDF Dateien hingegen bestehen nicht aus Bilddaten, sondern aus formatierten Textdateien und haben die Schriftarten zur korrekten Anzeige in der Datei eingebettet. Diese Schriften sind als Vektorgrafiken hinterlegt und können beliebig gross skaliert werden. Während bei digital erstellten Dateien der Text am Computer  „geboren wurde“, kommt bei den retrodigitalisierten Dateien ein automatisiertes Schrifterkennungsverfahren (OCR, optical character recognition) zur Anwendung.

Wie gut ist die Datenbasis? Quellenkritik bei retrodigitalisierten Volltexten

Wenn ein retrodigitalisiertes PDF vorliegt, sollte man vorsichtshalber immer die Qualität der OCR Texterkennung überprüfen. Denn bei diesem automatisierten Verfahren kann einiges schief gehen. Die Qualität des erkannten Textes hängt stark von der Qualität der Bilder ab. Klassische Probleme sind ausgefressene Buchstaben, wie zum Beispiel bei Typoskripten, komplizierte Schriftarten oder ein Satzspiegel, bei denen die Zeichen zu eng in einander verschachtelt sind. Die OCR Verfahren unterziehen die Bilder einer sogenannten Binarisierung. Das Ziel ist, dass die Software die Buchstaben vom Hintergrund isoliert. Dazu wird der Kontrast so weit verstärkt, bis es nur noch ganz schwarze und ganz weisse Pixel gibt. Je nachdem wie grob die Struktur des Papiers ist, kann es vorkommen, dass die Papierstruktur mit den eigentlichen Buchstaben interferiert. Bei Typoskripten auf Durchschlagpapier kann es vorkommen, dass die Schrift mit dem Hintergrund verschmilzt.

Sind es nur einzelne Buchstaben, die sich in ihrer Erscheinung nicht gut vom Hintergrund isolieren lassen, können die Wörter dank unterstützender Wörterbücher immer noch richtig erkannt werden. Doch da kommt es auch darauf an, dass im automatisierten Prozess die richtige Sprache eingestellt ist.

Fallstricke bei Frakturschriften

Grundsätzlich stellen alte Schriften von Drucken vor 1830 eine grosse Herausforderung für OCR Verfahren dar. Frakturschriften können zwar gut erkannt werden aber nur wenn eine spezifische Fraktur-OCR-Engine eingesetzt wird. Viele Frakturtexte gehen bei Massendigitalisierungsverfahren unter und enthalten gänzlich unbrauchbare Resultate. Dies lässt sich sehr rasch feststellen, wenn man den Text im PDF Darstellungsprogramm (wie z.B. Acrobat) mit dem Textwerkzeug markiert und kopiert und anschliessen in einen Texteditor einfügt.

Qualität der OCR prüfen

Wie gut der automatisch erkannte Text tatsächlich ist, lässt sich sehr rasch überprüfen: Man markiert einen Textabschnitt im PDF Darstellungsprogramm (z.B. Acrobat) mit dem Textwerkzeug, kopiert und fügt diesen anschliessend in einen Texteditor ein.

 

OCR
Hier wurde ganz offensichtlich keine Fraktur-OCR durchgeführt. Man könnte den Text mit den richtigen Einstellungen nochmals erkennen lassen.

Beim obigen Beispiel wurde ganz offensichtlich keine Fraktur-OCR durchgeführt. Er eignet sich also nicht für Volltextsuchen.

OCR2
Stimmen die Einstellungen mit der Textvorlage überein, können auch Frakturschriften zu hervorragenden Ergebnissen führen!

Stimmen die Einstellungen der Texterkennung mit der Art der Vorlage überein, können auch Frakturschriften zu hervorragenden Ergebnissen führen. Diese können dann durchaus für nicht ausschliessende Suchen verwendet werden. Das heisst, es gibt Fundstellen. Dennoch  sollte man bei Null Treffern nicht behaupten, dass das Wort im Text nicht vorkomme. Es könnte sein, dass es nicht richtig erkannt wurde, in einer anderen Wortform abgedruckt oder am Seitenrand umgebrochen wurde.

Sorgfältig digitalisierte Quellen

Auf Plattformen wie e-rara oder e-periodica werden Inhalte angeboten, die von wissenschaftlichen Bibliotheken mit grossem Fachwissen digitalisiert wurden. Bei e-rara wurde jedes Werk vor der Volltexterkennung angeschaut und nur dann einer Texterkennung unterzogen, wenn das Werk nach 1830 erschienen ist, keine mathematische Formeln und keine Frakturschrift enthält. Neuerdings werden auf e-rara zwar auch Werke mit Frakturschriften bearbeitet, aber nur sofern sie sich auch dafür eignen. Damit kann man mit einer sehr hohen Datenqualität rechnen. Diese Datenqualität macht sich bereits bei der Suche auf der Plattform bemerkbar. Es werden nämlich auch Treffer im Volltext der Werke angezeigt. Es ist aber klar, dass nicht alle Dokumente im Netz mit einer solchen Sorgfalt digitalisiert wurden.

Bild3.jpg

Zum Schluss noch ein Sonderfall: Liegen tabellarische Daten vor, so darf man nicht erwarten, dass die Zeilen und Spalten immer richtig erkannt werden (wobei es bei einfachen Tabellen in Drucken des 20. Jh durchaus zu akzeptablen Zufallstreffern kommen kann). Projekte, die speziell an der Gewinnung und Auswertung von Tabellen interessiert sind, können sich mit Spezialsoftware oder der Konfiguration von Standardsoftware behelfen. Die auf die Erkennung von Handschriften ausgerichtete Spezialsoftware «Transkribus» ermöglicht das manuelle Festlegen von Spalten und Zeilen und es besteht Hoffnung, dass die Fortschritte der künstlichen Intelligenz dereinst eine automatische Analyse von tabellarischen Schreibbüchern (Geburts- und Sterberegister, Kirchenbücher) ermöglichen wird.

elias.kreyenbuehl@unibas.ch

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.