digitalisierung.jpg

Dresdner Digitalisierungszentrum

Dresdner Digitalisierungszentrum, 5. Juni 2012, Foto: SLUB Dresden/Henrik Ahlers, Quelle: Flickr, Lizenz: CC BY-SA 2.0

 
„Es wird die Arbeit der Historiker verändern“
Ein Gespräch mit Michael Goebel über den praktischen Nutzen von OCR und die Auswirkungen der Digitalisierung in den Geschichtswissenschaften
von
Michael Goebel
Druckversion

Veröffentlicht: Juni 2016

Der digitale Wandel ist in aller Munde. Dies kann wenig überraschen, hat doch die rapide Verbreitung computergestützter Technologien und nicht zuletzt die zunehmende Vernetzung der Welt unübersehbar zu einer fundamentalen Veränderung der Gesellschaft geführt. Von diesem gesamtgesellschaftlichen Transformationsprozess bleibt selbstverständlich auch die Geschichtswissenschaft nicht unberührt: Digitale Technologien prägen nicht nur längst den Forschungsalltag und haben zu einem Umbruch des wissenschaftlichen Publikationssystems geführt, auch als zeithistorischer Untersuchungsgegenstand gewinnen Computerisierung und Digitalisierung zunehmend an Bedeutung.

Zeitgeschichte-online wird sich im Rahmen einer Reihe von sporadischen Beiträgen diesen Entwicklungen widmen und versuchen, sich dem Themenkomplex aus verschiedenen Perspektiven zu nähern. Ein zentrales Anliegen der Redaktion ist es, den Blick von den vielbeachteten „Big Data"-Großförderungsprojekten auf die meist unbemerkte alltägliche Vielfalt digitaler Geschichtswissenschaften zu lenken. Hierbei soll jedoch auch die teils utopische Überhöhung der Potenziale der neuen Digitalität der Geisteswissenschaften, wie sie sich beispielsweise in der hohen Erwartung an die „Digital Humanities" ausdrückt, kritisch begleitet und hinterfragt werden.

 

Michael Goebel ist Professor für Globalgeschichte und Lateinamerikanische Geschichte an der Freien Universität Berlin und Autor der jüngst veröffentlichten Studie Anti-Imperial Metropolis: Interwar Paris and the Seeds of Third World Nationalism (erschienen 2015 bei Cambridge University Press). Zum Auftakt unserer Reihe zu den Geschichtswissenschaften im Zeitalter der digitalen Revolution berichtet er im Interview von seinen praktischen Erfahrungen mit dem Einsatz von Optical-Character-Recognition (OCR) und schildert seine Eindrücke der Auswirkungen von Digitalisierungsprozessen auf die Arbeit des Historikers. Die Fragen stellte unser Redakteur Christoph Plath.

C.P.:
Herr Goebel, die fortschreitende Digitalisierung und Computerisierung hat in den vergangenen Jahren auch auf die Forschung einen unübersehbaren Einfluss genommen. Eine besondere Bedeutung kommt hierbei ohne Zweifel der Optical-Character-Recognition (OCR) zu, welche nicht zuletzt die DFG für die geisteswissenschaftliche Forschung mittlerweile für unverzichtbar hält.[1] Auch Sie haben dieses Verfahren während der Arbeit zu Ihrem letzten Buch intensiv genutzt und können daher die entsprechenden Vor- und Nachteile gut beurteilen. Würden Sie sagen, dass sich die Arbeit von Historikerinnen und Historikern durch die Effekte der Digitalisierung im Allgemeinen und Hilfsmittel wie OCR im Besonderen grundlegend verändert?

Michael Goebel:
Zunächst einmal arbeiten Historiker ja nicht ausschließlich mit Primärquellen, sondern auch mit Sekundärliteratur und sind darüber hinaus in zahlreiche administrative Angelegenheiten involviert. Und vor allem in diesem zweiten Bereich ähneln die Vorteile, die sich für Historiker ergeben, denen, die alle anderen Menschen auch haben. So kann ich zum Beispiel viel leichter gescannte Sekundärliteratur nach Kernbegriffen oder Studienordnungen durchsuchen, um herauszufinden, ob ein Studierender in seinem Modul eine Hausarbeit schreiben muss, oder nicht. In dieser Hinsicht beschleunigt OCR bereits jetzt viele Arbeitsschritte. Auf die Arbeit mit Primärquellen bezogen sind allerdings der Technik im Moment noch Grenzen gesetzt, wobei auch hier mein Eindruck ist, dass sich die Situation stark bessert. Allein was die notwendige Software betrifft, war es noch 2013 so, als ich mit der Nutzung von OCR begonnen habe, dass die Lesequalität in Adobe Pro sehr viel schlechter war als bei einem spezialisierten Programm, das ich letztlich angeschafft habe. Ich weiß gar nicht, ob es diesen Unterschied heute noch so gibt.

C. P.:
Einschränkungen durch die Abhängigkeit von Hard- und Software sind sicherlich nach wie vor ein großes Thema, aber sobald Archivalien in digitalisierter Form vorliegen, müsste doch auch die Möglichkeit der Volltextsuche die Archivarbeit des Historikers erheblich erleichtern, oder?

Michael Goebel:
Zunächst einmal liegen die Basisquellen in maschinengeschriebener Form zumeist erst nach dem Ersten Weltkrieg in großer Zahl vor. Das heißt, es ist sehr viel einfacher, OCR für zeitgeschichtliche Quellen nutzbar zu machen, als für die allermeisten Jahrhunderte, mit denen sich Historiker beschäftigen. Mein Buch behandelt jedoch das Paris der Zwischenkriegszeit, und ein Großteil der Quellen war mit der Schreibmaschine verfasste Korrespondenz zwischen französischen Ministerien und Behörden. Und da Archive glücklicherweise immer liberaler werden, was das Fotografieren der Bestände betrifft, konnte ich große Mengen archivalischer Quellen ablichten. Die Bilder ließen sich anschließend mit OCR bearbeiten und dadurch durchsuchbar machen.

C. P.:
In Ihrem Fall war es also so, dass die Archive selbst noch keine Digitalisierungsprozesse angestoßen hatten, sondern die digitale Aufbearbeitung der Quellen war Bestandteil der Forschungsarbeit?

Michael Goebel:
Genau. Ich habe überwiegend in französischen Archiven gearbeitet, beispielsweise im Pariser Polizeiarchiv, im Archiv des französischen Außenministeriums und vor allem im Archiv des Kolonialministeriums. Und die hatten zu diesem Zeitpunkt und auch heute noch lediglich ein paar berühmte Dokumente digitalisiert, aber mindestens 95 % des Bestands nicht. Deshalb bin ich tatsächlich erst einmal mit einer Kamera in die Archive gegangen – im Fall von Aix-en-Provence, also dem Kolonialarchiv, wurde ich sogar von zwei Hilfskräften unterstützt – und habe dann in großer Menge Dokumente abfotografiert. Und dann begann die Aufbereitung.

C. P.:
Und dennoch erleichtert die OCR-Texterfassung die Arbeit so sehr, dass der hohe Aufwand gerechtfertigt ist?

Michael Goebel:
Zunächst einmal hilft das Abfotografieren unabhängig von der OCR-Bearbeitung dabei, dass nicht mehr alles im Archiv gelesen werden muss, wodurch Archivaufenthalte weniger zeitintensiv werden. Das war auch meine ursprüngliche Idee, noch bevor ich auf die Idee mit OCR kam. Natürlich führt das auch dazu, dass man mehr abfotografiert, als man eigentlich braucht, weil man die Dokumente nur anliest. Am Ende hatte ich über 20.000 Seiten abfotografiert. Und so kam ich auf den Gedanken, OCR zu nutzen – nicht aus grundsätzlichen Überlegungen zu Digital Humanities, sondern weil ich mich fragte, wie ich in dieser Masse aus Bildern, die Sachen, die mich am meisten interessieren, herausfiltern sollte. OCR erwies sich schließlich als sehr hilfreich, wenn es darum ging, bestimmte Personen und Orte zu finden. Später begann ich, nach speziellen Begriffen wie „Freundschaft“ oder „Ehe“ zu suchen, weil ich anfing, mich für die legalen Probleme bei Eheschließungen zwischen Männern aus französischen Kolonien und französischen Frauen zu interessieren. Aber egal, ob man nach Personen, Orten oder Begriffen sucht, es gibt technische Grenzen.

Die meisten Dokumente, die ich mir angeschaut habe, waren Korrespondenzen zwischen verschiedenen französischen Behörden. Und diese bestanden überwiegend aus maschinengeschriebenen Durchschlägen auf einem sehr dünnen Papier. Hiervon musste ich aber erst einmal eine gute Fotoqualität bekommen, weil das die Grundlage dafür ist, dass nachher der OCR-Vorgang richtig funktioniert und so das Dokument auch vernünftig durchsuchbar wird. Die hierfür benötigte hohe Auflösung führte aber dazu, dass ich für jedes Foto eine Größe von zwei Megabyte einrechnen musste. Und so belegte letztlich ein Ordner mit einer Signatur des Kolonialarchives schon einmal 400 Megabyte Speicherplatz. Ich agierte also zwangsläufig mit etwas unhandlichen Dateien, und ein OCR-Durchgang von einem solchen Dokument dauerte – zumindest vor drei Jahren – über eine Stunde. Das heißt, wir hatten in unseren Büros tatsächlich über Wochen die Computer Tag und Nacht in Betrieb. An diesem Punkt fühlten wir uns schon etwas wie Pioniere. Aber selbst wenn der Prozess abgeschlossen war, hieß das trotzdem nicht, dass man nun alles im Dokument finden konnte, weil unabhängig von der Fotoqualität einfach die Qualität des Ursprungsdokuments nicht gut war, Buchstaben in der Zeile verrutscht oder irgendwelche Passagen durchgestrichen waren oder der Text nicht klar lesbar war.

C. P.:
Nachdem dieser Prozess erst einmal abgeschlossen war, worin bestand für Sie der größte Vorteil von OCR?

Michael Goebel:
OCR hat mir vor allem geholfen, Verknüpfungen zwischen Personen oder Orten herzustellen, die man vorher nicht finden konnte. Um ein kurzes Beispiel zu geben: Im französischen Kolonialministerium habe ich ein Dokument des Generalgouverneurs von Madagaskar entdeckt, der im Jahr 1925 in einem Ort im Hochland bestimmte Pamphlete gefunden hat, welche die französische Staatsbürgerschaft für Madegassen forderten. In dem Schreiben fragte er das Kolonialministerium in Paris, ob es zur Aufklärung beitragen und ihm den Ursprung der Dokumente nennen könnte. Mit OCR konnte ich gezielt nach diesem Ort suchen und habe durch ein Dokument aus der Pariser Polizeipräfektur herausgefunden, dass es sich um den Geburtsort eines madegassischen Aktivisten in Paris handelt. Ich kann deshalb mit großer Wahrscheinlichkeit annehmen, dass über bestimmte Migrationsnetzwerke diese Pamphlete von Paris an den besagten Ort gelangt sind. Es sind solche Verbindungen, die man mit OCR sehr viel schneller herstellen kann. Und das war für meine Forschung wichtig, weil ich versuche, die Bedeutung solcher Migrationsnetzwerke deutlicher zu machen. Auch an einem anderen Beispiel lässt sich der Nutzen von OCR sehr gut verdeutlichen: In Frankreich sind unterschiedliche Archive zuständig für unterschiedliche nationale Gruppen. Das heißt zum Beispiel, weil Algerien offiziell als integraler Bestandteil Frankreichs galt, fielen Algerier in die Zuständigkeit des Innenministeriums, Vietnamesen und Senegalesen in die Zuständigkeit des Kolonialministeriums und Tunesien und Marokko, weil diese Protektorate waren, in die Zuständigkeit des Außenministeriums. Das heißt, es gibt so einen archivalisch getränkten, methodologischen Nationalismus, der bereits durch die Organisation dieser Archive zustande gekommen ist. Und den kann man natürlich auch durch OCR leichter überwinden, indem man Querverbindungen zwischen Dokumenten, die in verschiedenen Archiven liegen, schafft. So lassen sich über Behördengrenzen hinweg Verbindungen herstellen, über die Historiker lange Zeit im Dunkeln tappten, weil sie einfach die technischen Möglichkeiten nicht hatten. Da sehe ich wirklich Potenzial für OCR.

C. P.:
Um von diesen konkreten Schilderungen ausgehend einmal etwas allgemeiner zu werden: Sie haben in Archiven in Lateinamerika, Spanien, Frankreich und Deutschland gearbeitet und waren als Fellow an der Harvard University. Gibt es in Bezug auf die Verbreitung digitaler Hilfsmittel im Allgemeinen gravierende regionale Unterschiede?

Michael Goebel:
Ich würde sagen, dass diese in Lateinamerika sicherlich weniger verbreitet sind. Das hängt allerdings auch damit zusammen, dass Archivarbeit in Lateinamerika grundsätzlich anders und weniger ausgeprägt ist. Dort arbeiten Historiker viel mehr mit Sekundärliteratur und mit Büchern. Die Intellectual History zum Beispiel ist als Feld wesentlich breiter, und als Quellen werden oft eher philosophische Abhandlungen als archivalische unveröffentlichte Materialien gesichtet – auch weil die Archive schlechter funktionieren. Wenn man die Geschichte der Psychiatrie in Argentinien zurückverfolgen will, dann ist es schwerer, an einen wirklich breiten Quellenfundus zu kommen, weshalb Forschung viel mehr über Oral History oder Sekundärabhandlungen läuft. Hinzu kommt, dass es in den meisten lateinamerikanischen Ländern auch nicht möglich ist, Dokumente abzufotografieren, um sie für OCR aufzubereiten. Ich bin ja Lateinamerikahistoriker und verbringe dort dann immer noch die Zeit im Archiv. Allerdings ist meist auch die Datenmenge geringer, und man kann sich etwa im Archiv des argentinischen Außenministeriums auch die Zeit nehmen, die einzelnen Berichte des Botschafters aus Washington zu lesen, weil so viele nicht archiviert sind. Das heißt, die ganze archivalische Kultur ist etwas anders. Weil aber dementsprechend auch weniger Notwendigkeit besteht, ist das Interesse an Digital Humanities in der Geschichtswissenschaft dort geringer ausgeprägt als hier. Im Vergleich zu den USA allerdings habe ich das Gefühl, dass US-amerikanische Archive mit der Digitalisierung der Bestände schneller sind als die deutschen. Ich weiß aber nicht, ob Historiker in der Praxis häufiger auf OCR zurückgreifen, was sie ja auch weniger selber machen müssen, wenn die Archive die Leistung schon erbracht haben.

C. P.:
Auch hier in Deutschland ist es ja so, dass die Digitalisierung von Archivbeständen immer weiter fortschreitet und es eine ganze Reihe groß angelegter Digitalisierungsprojekte gibt. Wird eine flächendeckende Durchsetzung die Arbeit von Historikern nachhaltig verändern?

Michael Goebel:
Ich glaube, dass sich digitalisierte Archive auch in Deutschland immer mehr durchsetzen werden. Es demokratisiert natürlich ungemein den Zugriff auf Archive, das heißt, plötzlich ist alles für alle zugänglich, sodass Historiker sich vielleicht mehr auf Interpretation, Auswahl, Gewichtung von Bedeutung konzentrieren können, da die eigentliche Archivarbeit in einem vorherigen Schritt schon geleistet wurde. Insofern wird sich auch die Arbeit der Historiker verändern.

C. P.:
Aber wäre dies denn tatsächlich eine Demokratisierung, oder ist es nicht auch so, dass durch die Abhängigkeit von technischem Equipment oder speziellen Fähigkeiten neue Exklusionskriterien geschaffen werden?

Michael Goebel:
Wenn die Digitalisierung so läuft, wie sie bei den National Archives in Kew in England schon relativ weit fortgeschritten ist, dann kann jeder über das Internet auf PDFs zugreifen und beispielsweise die Einschätzung des Cabinet Office vom Februar 1919 zur Frage der Unabhängigkeit Ägyptens nachlesen. Natürlich braucht man ein gewisses Know-how, um erst mal zu diesem Dokument zu gelangen, und muss sich überhaupt dafür interessieren, das heißt, es greifen nicht alle darauf zu. Aber es ist nicht so, dass Historiker technisch privilegierten Zugang zu diesen Dokumenten hätten. Im Übrigen hat das in England beispielsweise dazu geführt, dass Archive immer mehr von Hobbygenealogen genutzt werden und weniger von Historikern. Das meine ich mit Demokratisierung: Jeder kann sehr viel einfacher auf Bestände zugreifen und an faktische Informationen gelangen. Was allerdings schon passiert, wie ich auch bei meiner Forschung zu Paris bemerkt habe, ist, dass die Archive eine Vorauswahl treffen und entscheiden, welche Dokumente es wert sind, digitalisiert zu werden. Und das ist natürlich eine Art Filter, welche Dokumente in den öffentlichen Raum gelangen und welche nicht, und hiermit sind nicht einmal Staatsgeheimnisse gemeint. So etwas ist natürlich auch Agenda bestimmend. Das ist das Eine, und das Andere, und da spielt OCR wieder eine Rolle, ist eine globale und sprachliche Frage. In meinem Fall haben die französischen Archive manchmal vietnamesische oder chinesische Dokumente gesammelt und dann französische Übersetzungen mitgeliefert, die von der französischen Polizei angefertigt wurden. Das heißt aber, noch bevor das Archiv jemals angelegt wurde, traf die französische Polizei eine Vorauswahl, welche chinesischen Dokumente es wert sind, ins Französische übersetzt zu werden und welche nicht. Die unübersetzten Dokumente sind dann auch nicht im Archiv gelandet. Und diese Vorauswahl setzt sich möglicherweise mit der Digitalisierung fort, wenn zum Beispiel vietnamesischsprachige oder chinesischsprachige Dokumente in französischen Archiven als letzte digitalisiert werden.

 


[1] Deutsche Forschungsgemeinschaft: Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR), in: Information für die Wissenschaft Nr. 25, 28. Mai 2014. [[zuletzt abgerufen am 08. 01. 2016]