KI-gestützte Rekonstruktion marginalisierter mobiler Gruppen

Semi-automatische Informationsextraktion aus frühneuzeitlichen Fremdenlisten

Erschließung und Erforschung der Fremdenlisten: Feld- und Texterkennung sowie Erprobung von Annotationskategorien mithilfe von Transkribus (Bild: Sarah Lentz)

Das seit Anfang 2025 durch die KI-Förderung der Universität Bremen geförderte Projekt verfolgt u.a. das Ziel, die Mobilitätserfahrungen bisher unzureichend erforschter Akteur:innen unterschiedlichen Standes, darunter z.B. Dienstbotinnen, Jüdinnen und Kauffrauen, erstmals sichtbar zu machen. Während kaum Quellen zu vielen dieser historischen Akteur:innen überliefert sind, ermöglichen die zwischen 1762 und 1802 in der Zeitung Regensburgisches Diarium (RD) veröffentlichten bisher nicht systematisch erforschten „Fremdenlisten“ einzigartige Einblicke in die Mobilitätsmuster dieser „kleinen Leute“. Denn im Gegensatz zu zeitgenössischen Fremdenlisten anderer Städte, die einzig hochrangige Reisende vermerkten und sich auf die Angaben Name, Beruf/Stand, Herkunfts- und Zielort sowie Unterkunft beschränkten, wurde hier die ganze Breite der mobilen Bevölkerung (inkl. zeitgenössischer Zuschreibungen wie „M##r“, „Jüdin“ oder „Zwerg“) sowie zusätzlich zu den genannten Kategorien auch deren Fortbewegungsmodus (zu Fuß, per Postkutsche oder auch Schlitten etc.) und Reisegruppengröße abgebildet. Aufgrund der hier vermittelten dichten Informationen sind die Listen folglich über die Mobilitätsforschung hinaus auch von hoher Relevanz für andere Forschungsfelder. Darüber hinaus profitieren die Digital Humanities von einem weiteren Ausloten der Potenziale und Limitationen generativer KI für NER, da gerade systematische Evaluationen an historischen Texten aktuell noch ein Desiderat bilden. Auf Basis der gewährten KI-Förderung der Universität Bremen wird daher in Kooperation mit dem Austrian Centre for Digital Humanities and Cultural Heritage ein semi-automatisches Informationsextraktionsverfahren erprobt , auf dessen Grundlage zukünftig eine öffentlich nutzbare Datenbank generiert werden soll (Laufzeit 2025, Fördersumme 20.000 Euro).

Generell wurde das Potential von Fremdenlisten in der Forschung bisher kaum genutzt. Jedoch hat die im Projekt als assoziierte Wissenschaftlerin tätige Forscherin Nina C. Rastinger (Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH)) in ihrem Pionierprojekt Visiting Vienna – Digital Approaches to the (Semi-)Automatic Analysis of the Arrival Lists in the Wien[n]erisches Diarium (1703–1725) beispielhaft gezeigt, dass sich solche Listen aufgrund ihrer Periodizität, ihres halbstrukturierten Formats und der hohen Dichte benannter Entitäten besonders gut für semi-automatische Informationsextraktionsverfahren eignen. Im Forschungsprojekt soll folglich in Kooperation mit dem renommierten ACDH-CH Rastingers Methodik[1] anhand der Fremdenlisten im RD getestet sowie weiter verfeinert und ausgebaut werden, indem ein für die komplexere Datenlage passendes Annotationsschema entwickelt wird. Neben Rastinger wird die Projektleiterin weiterhin durch drei studentische Hilfskräfte bei der Transformation der bilddigitalisierten Daten in maschinenlesbaren Volltext sowie bei der Durchführung des Annotationsprozesses unterstützt.

1. Maschinen-
lesbaren Volltext generieren

- RD = 1x wöchentlich inkl. ca. 2 Seiten Fremdenliste, alle 40 Bände als Bilddigitalisate vorliegend, Auswahl Datensatz: 1) alle 10 Jahre, 2) alle 5 Jahre, 3) ggf. alle Jahrgänge

- Transkription via Transkribus (KI-Tool zur Layout- und Texterkennung historischer Dokumente)

2. Named Entity Recognition (NER)

- Basierend auf Rastingers Pilotstudie: Annotation des Datensatzes mittels Large Language Model GPT-4 (OpenAI) = Freie Wahl der Entitätstypen und Spezialisierung ohne umfangreiches Trainingsmaterial, Optimierung durch Prompt Engineering (mit Promptify): One bzw. Few Shot-Ansatz mit annotierten Beispielen

3. Erprobung Open Source-Programme

- Nutzung von Open-Source-Tools wie Nodegoat und QGIS für die weitere Datensatzerforschung, u.a. zusammen mit Studierenden in entsprechenden Lehrveranstaltungen

4.Open Access
Archivierung

- Speicherung Datensatz inkl. Metadaten in öffentlichem Langzeitdepositorium (voraussichtlich ARCHE des ACDH-CH)

 


[1] Nina C. Rastinger: Re-Reading Lists in Historical Newspapers: Digital Insights into an Overlooked Text Type, CLARIN Annual Conference 2023 [https://ecp.ep.liu.se/index.php/clarin/article/view/1033] (15.11.2024).

Aktuelles

Im Mai 2025 wird das Projekt auf der internationalen Konferenz "NEWSPAPERS, MAGAZINES & AI MODELS: TRAINING AND (RE-)USE IN THE DIGITAL HUMANITIES" des Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) vertreten sein. Für mehr Informationen siehe hier.

 

Zum 1. April 2025 nehmen unsere drei studentischen Hilfskräfte Franziska Nobis, Anica Lindenau und Anna Lina Kassuba ihre Arbeit auf!

Projektleiterin

Dr. Sarah Lentz

mehr

Studentische Mitarbeiterinnen

Franziska Nobis Anna Lina Kassuba Anica Lindenau

Aktualisiert von: Sarah Lentz