DHDL24: Projektübersicht

A 3D-Positioning System for the Paintings of the Kucha Project (Erik Radisch)
A new Approach to Semi-Automated Annotations with Segment-Anything (Erik Radisch)
Ansätze einer Digitale Archäologie (Julian Laabs)
Archiv in Bewegung Eine wachsende Datenbank für die darstellenden Künste in der DDR (Philipp Sauer, Melanie Gruß, Caroline Helm, Uwe Kretschmer, Patrick Primavesi, Franziska Naether)
Buchkindheiten digital. Innovationspotenziale skalierbarer Bildanalyseverfahren für Wissenskulturen des Kinder- und Jugendbuchs im „langen 19. Jahrhundert“ (Manuel Burghardt, Janos Borst Graetz, Wiebke Helm, Sebastien Schmideler)
DetektIIIF (Leander Seige)
Digitale Vermittlungsarbeit am Beispiel der Opfer von Hirnforschung im Nationalsozialismus (Salina Grünwald, Oliver Mahrle)
Erfahrungen und Überlegungen zur Verwendung von LLMs zur automatisierten Datenextraktion von biografischen Informationen (Klaus Schmidt, Anke Silomon, Dirk Goldhahn, Franziska Naether, Peter Mühleder)
Forschungsdateninfrastruktur Historische Quellen (HisQu) (Bärbel Kröger, Christian Popp)
IDOHIST. Transparenz durch digitale Dokumentation – Von der Quelle über die Argumentation zur Rekonstruktion (Jonas Bruschke, Gesine Jahnke, Anne Klammt, Stefan Neubert, Michael Thoß, Markus Wacker, Francesca Weil)
Jacobi-Wörterbuch Online (Uwe Kretschmer, Oliver Koch, Lars Scheideler)
Machine-Learning-basierte Texterkennung arabographischer Texte – Herausforderungen und Best Practices (Daniel Kinitz)
Multispektral-Digitalisierung an der UB Leipzig (Olaf Mokansky, Leander Seige, Christoph Mackert)
On the Origins of Transparency: Conceptual Implications and Analytical Developments (Roberto Cruz Romero)
Publikationserfassung optimieren: Die UB Leipzig und das leuris-Team auf dem Weg zu validen Daten und effizienten Workflows (Wolfgang Reißmann, Stephan Wünsche, Stefan Mutke)
Regional- und Landeskunde als Schwerpunkt akademischer Lehre in den Digital Humanities (Martin Munke, Kay-Michael Würzner)
Researching Place-Names in Multiple Gazetteers (Francis Harvey, Eric Losang)
Sage mir, mit wem du umgehst, so sage ich dir, wer du bist! (Felix Helfer, Thomas Eckert, Uwe Kretschmer, Martin Prell)
Saxon Monophthongisation in Random Forests (Provisional Title) (Simon Oppermann, Beat Siebenhaar)
Topologie eines DH-Forschungsprojektes: Eine Kartierung des DIKUSA-Verbundprojekt der sächsischen außeruniversitären Forschungseinrichtungen (Dirk Goldhahn, Peter Mühleder, Franziska Naether)

A 3D-Positioning System for the Paintings of the Kucha Project

Erik Radisch (SAW Leipzig)

The Kucha region of Xinjiang boasts Buddhist mural complexes featuring remarkable wall paintings dating from approximately the 5th to 10th centuries. Evidence of a past Buddhist culture was first discovered in the early 20th century. Following the spread of this news, several international expeditions traveled to the area to document the murals’ actual state of preservation through photographs and reports. Some paintings were removed for research purposes and taken to the their respective national museums. Due to sales and political turbulence, the painting fragments are now are scattered all over the world, making it challenging to identify their individual murals of origin.
Our project’s primary objective is to establish a database-supported information system, in which the Buddhist painted representations of Kucha are successively documented by recording their current location and, if they have been removed from their context, their original location.
The original location in the mural is not only determined by assigning a wall. A coordinate system consisting of rhombuses or squares is set up for each wall. Each of these squares or rhombuses stands for a painting that could be found on this wall. This information is then visualized and makes it possible to link the paintings to their original place of origin in an interactive form. Users also have the option of identifying lost areas. An example image can be viewed here: https://cloud.saw-leipzig.de/s/nsBP3oLBwMt7H2e
In order to place the positions of the individual paintings even better in the spatial context, the coordinate system is also projected onto the corresponding walls in a 3D model in a next step. A first prototype can be viewed here: https://kuchatest.saw-leipzig.de/cave/73. The 3D-Model is also interactive.
This positioning of the paintings not only offers the possibility of locating them precisely in the mural, but also of understanding their spatial relationship with the other paintings in the mural. This kind of 3D-surface annotation with polygons might also be interesting for other projects as there are no proper tools for such 3D-surface annotations to my knowledge.

Website: https://kucha.saw-leipzig.de

A new Approach to Semi-Automated Annotations with Segment-Anything

Erik Radisch (SAW Leipzig)

Many projects involving archives and collections now use Digital Humanities methods to analyze images, not just document metadata. A common approach is pictorial annotation, where elements within an image are tagged using tools like Annotorious (https://recogito.github.io/annotorious/). This method helps non-experts recognize visual elements and ensures traceability for researchers. However, manual annotation, especially when using detailed polygons, is time-consuming.
To address this, semi-automated solutions are being explored. One promising method is using Regional Convolutional Neural Networks (RCNN) like Facebook AI’s Detectron 2. While RCNNs showed potential in identifying objects in images, the resulting segmentations were often too vague for precise annotations and required extensive training.
Recently, Facebook AI introduced „Segment Anything,“ a new neural network trained on over a billion masks and 11 million images. Unlike previous models, Segment Anything is „promptable,“ meaning it can adapt to new tasks „single shot“ without retraining. Users can guide the algorithm by adding positive or negative points to the image, significantly speeding up the annotation process. An online demo is available (https://segment-anything.com/demo), and an implementation for the Labelme tool has been created, though its offline nature limits collaboration (https://github.com/originlake/labelme-with-segment-anything).
This poster introduces an implementation of Segment Anything for Annotorious (you can find an example image here: https://cloud.saw-leipzig.de/s/4NFZxKtpAK4Jm2W), allowing integration with research data management systems. Users can mark regions of interest (green points) and non-interest (red points). However, the Annotorious version requires a server to run Segment Anything. Initial tests show promise, though issues like fuzziness and inaccurate contours remain, requiring post-processing for highly detailed annotations. Despite these challenges, for projects that don’t need exact precision, this implementation could be a useful semi-automated solution for image annotation. The poster will demonstrate the tool’s capabilities and discuss strategies for improving annotation accuracy.

Ansätze einer Digitale Archäologie

Julian Laabs (Universität Leipzig)

Das Poster präsentiert die Untersuchung der Sozioökologie Pergamons und seiner Umgebung. Das dafür erstellte sozioökologische Modell ermöglicht einen Einblick und die Bewertung der Selbstversorgung der Mikroregion durch die Simulation der regionalen Tragfähigkeit, auf Grundlage einer Vielzahl von Szenarien. Die Ergebnisse deuten darauf hin, dass Pergamon die Grenzen der Selbstversorgung erreicht hat, insbesondere bei einer großen Bevölkerung. Die vorgestellte Studie dient zugleich als Beispiel eines Ansatzes der Digitalen Archäologie, wie die archäologischer/historischer Narrativbildung durch den Einsatz integrativer, computergestützter Modellierungswerkzeuge unterstützt werden kann.

Archiv in Bewegung Eine wachsende Datenbank für die darstellenden Künste in der DDR

Philipp Sauer (SAW Leipzig), Melanie Gruß (Universität Leipzig), Caroline Helm (Universität Leipzig), Uwe Kretschmer (SAW Leipzig), Patrick Primavesi (Universität Leipzig), Franziska Naether (SAW Leipzig)

Das Tanzarchiv Leipzig, als ehemaliges Tanzarchiv der DDR, stellt eine der maßgeblichen Quellen zur Kulturgeschichte des Tanzes und tänzerischen Praxis in Ostdeutschland dar. Seit einem Jahr ist das hier vorgestellte Projekt damit beschäftigt, die technische Infrastruktur und ein geeignetes Datenmodell zur Erfassung der vielfältigen Bestände des Archivs zu schaffen, exemplarisch Material zu ausgewählten Inszenierungen einzuarbeiten und mit Erfahrungwissen aus Interviews mit Zeitzeug*innen anzureichern.
Zum gegenwärtigen Zeitpunkt umfasst die Datenbank Einträge zu etwa 350 Personen, 35 Inszenierungen und 70 Institutionen sowie weiteren Ereignissen, Orten und Rollen. Die in diesen Einträgen abgebildeten Informationen wurden aus 70 einzeln erfassten Quellenobjekten entnommen, die ebenfalls in der Datenbank erfasst sind.
Nutzer*innen wird so einerseits ermöglicht, die Bestände und Objekte des Tanzarchivs nach bestimmten Inhalten zu durchsuchen und deren Digitalisate zu betrachten, und andererseits, sich über die Biographien einzelner Akteur*innen, die Geschichte von Institutionen oder die Aufführungen bestimmter Produktionen zu informieren. Zu all diesen können auf Basis des entstehenden Wissensgraphen Einträge aggregiert werden, deren einzelne Teile jeweils auf die zugrunde liegenden Quellen verweisen und so in ihrer Provenienz nachvollzogen werden können.
Das Poster präsentiert das im ersten Projektjahr entstandene Datenmodell sowie Ausschnitte der Datenbank.

Website: https://werkd.saw-leipzig.de/projekte/kulturerbe-tanz/

Buchkindheiten digital. Innovationspotenziale skalierbarer Bildanalyseverfahren für Wissenskulturen des Kinder- und Jugendbuchs im „langen 19. Jahrhundert“

Manuel Burghardt (Universität Leipzig), Janos Borst-Graetz (Universität Leipzig), Wiebke Helm (Universität Leipzig), Sebastian Schmideler (Staatsbibliothek zu Berlin – Stiftung Preußischer Kulturbesitz)

Spielten Mädchen immer nur mit Puppen und Jungen nur mit Baukästen? Ließ man Seifenblasen in der Wohnstube oder eher im Freien in die Luft steigen? Und wer las wem an welchem Ort aus einem Bilderbuch vor? Auskunft über die Spiel- und Lesegewohnheiten von Mädchen und Jungen früherer Epochen geben u.a. die Illustrationen historischer Kinderbücher. Formen und Objekte des Spiels und des Lesens sind hier ebenso ersichtlich wie Vermittlungsweisen und Personenkonstellationen in Spiel-, Lese- und Lern-Szenen.
Das interdisziplinäre Forschungsprojekt „Buchkindheiten digital“ widmet sich diesen Gesichtspunkten anhand des Bildprogramms der in den Jahren 1801 bis 1914 entstandenen Kinderliteratur, deren Vielfalt sich im digitalen Korpus „Colibri – Corpus Libri et Liberi“ widerspiegelt. Diese umfangreiche und in ihrer Art einzigartige Sammlung enthält rund 15.000 Volldigitalisate von historischen Kinder- und Jugendbüchern des deutschsprachigen Raums, die bisher weder quantitativ noch qualitativ in die wissenschaftliche Analyse einbezogen wurde.
Im Projekt werden an Korpus „Colibri“ zur Erkennung von Objekten und Szenen Ansätze des Distant Viewing erprobt und evaluiert.
Mit der Erforschung und Analyse des Bildprogramms – hier von spezifischen Bildszenen von Kindheit und Jugend, die ästhetische, geschlechterspezifische Repräsentation von Lese- und Spielszenen einschließlich des Repertoires von Spielzeug sowie Lehr-Lern-Arrangements zeigen – sollen mit den Methoden der Digital Humanities anschlussfähige Erkenntnisse an die bisherige kulturgeschichtliche, bildungswissenschaftliche und die historische Lesesozialisationsforschung erzeugt werden und zu einer Neuordnung unseres Verständnisses des lesenden und spielenden Kindes führen. Damit ist zugleich auch eine Reorganisation der Wissenskultur zum Bild von Kindheit und Jugend des 19. Jahrhunderts verbunden.

DetektIIIF

Leander Seige (Universitätsbibliothek Leipzig)

DetektIIIF ist eine Browser-Extension, die es erleichtert, IIIF-kompatible Inhalte auf den Websiten von GLAM-Einrichtungen zu nutzen. DetektIIIF erkennt automatisch, wenn IIIF-kompatible Inhalte in einer Seite eingebunden sind und ermöglicht es, diese zu sammeln und gebündelt an IIIF-kompatible Webanwendungen weiterzuleiten. Seit Version 3 enthält DetektIIIF einen eingebetteten Mirador-Workspace und ist damit auf dem Wege zu einer serverlosen Arbeitsumgebung für die DH.

Website: https://seige.digital/en/detektiiif/

Digitale Vermittlungsarbeit am Beispiel der Opfer von Hirnforschung im Nationalsozialismus

Salina Grünwald (Leopoldina), Oliver Mahrle (Leopoldina)

Nachdem Hirnschnitte und andere Gewebeproben aus der Zeit des Nationalsozialismus in den Archiven der Max-Planck-Gesellschaft gefunden worden waren, beauftragte die MPG ein Expertengremium mit der Durchführung eines Forschungsprojektes, das die Herkunft der Proben und die Identität der Personen klären sollte, von denen sie stammen.
Die im MPG-geförderten Projekt “Hirnforschung an Instituten der Kaiser-Wilhelm-Gesellschaft im Kontext nationalsozialistischer Unrechtstaten: Hirnpräparate in Instituten der Max-Planck-Gesellschaft und die Identifizierung der Opfer” erhobenen Daten werden in eine MySQL-Datenbank eingepflegt. Dabei wird auf eine bereits bestehende Datenbank zurückgegriffen, die biografische Informationen zu Opfern unterschiedlicher unethischer medizinischer Forschung im Nationalsozialismus zusammengeführt hat.
Die Datenbank wird im Frühjahr 2025 online veröffentlicht. Da die Webseite nicht nur für Historiker:innen zugänglich sein wird, sondern auch einem interessierten fachfremden Publikum offensteht, geht es nun darum die Daten – die mehrheitlich aus Dokumenten der Zeit des Nationalsozialismus stammen – angemessen zu kontextualisieren.
Wir werden den Weg vom Originaldokument zum Datenbankeintrag darstellen und Fallstricke in diesem Prozess aufzeigen.
Datenkategorien werden möglichst verständlich erklärt und die scheinbare Faktizität, die durch eine Datenbankveröffentlichung erweckt werden kann, wird hinterfragt.
Über eine Landkarte mit Orten und Institutionen der Verbrechen schaffen wir einen Zugang zu den Inhalten, der Berührungspunkte mit der eigenen Lebensrealität ermöglicht.
Anhand einzelner Biografien werden die Menschen hinter den Profilen sichtbar gemacht.
Auf diese Weise werden wir voraussetzungsärmere Zugänge zu den komplexen Informationen in der Datenbank schaffen, ihre Nutzung erleichtern und Einzelschicksale exemplarisch sichtbar machen.

Erfahrungen und Überlegungen zur Verwendung von LLMs zur automatisierten Datenextraktion von biografischen Informationen

Klaus Schmidt (SAW Leipzig), Anke Silomon (SAW Leipzig), Dirk Goldhahn (SAW Leipzig), Franziska Naether (SAW Leipzig), Peter Mühleder (SAW Leipzig)

Im Rahmen des “Bausoldaten”-Projektes an der Sächsischen Akademie der Wissenschaften zu Leipzig wird der Einsatz von Large Language Models (LLMs) zur automatisierten Datenextraktion von beruflichen Lebensläufen aus Biogrammen in der Datenbank “Widerstand, Opposition und Kirche in der DDR” untersucht.
In den letzten Jahren wurde die Verwendung von LLMs zur automatisierten Datenextraktion in verschiedenen wissenschaftlichen Bereichen erprobt (siehe z.B. Peng et al. 2023, Wiest et al. 2024). Die Ergebnisse dieser Forschungen sind in der Regel vielversprechend und weisen auf das Potenzial hin, zeitintensive manuelle Prozesse zu automatisieren. In diesem Beitrag widmen wir uns der Frage, ob der Einsatz solcher Modelle zur Extraktion biografischer Informationen lohnend sein könnte.
Für unsere Untersuchung setzten wir llama.cpp als Inferenzsoftware ein, das von Haus aus eine breite Palette von Open-Source-Modellen unterstützt. In einem ersten Versuchsaufbau verglichen wir Modelle mit unter 10 Milliarden Parametern mit der kostenlosen Version von GPT-4o als Baseline. Die Modelle wurden angeleitet, biografische Daten mittels eines vordefinierten Schemas in ein strukturiertes JSON-Format zu überführen. Nach der Evaluation mithilfe eines Goldstandard-Datensatzes führten wir die Extraktion auf dem Gesamtdatensatz mit den Modellen von Google (Gemma) und Meta (Llama) durch. Mit den Ergebnissen beider Modelle sowie der Baseline führten wir Vergleichsstudien durch, um eine Perspektive auf die Genauigkeit, Effizienz und mögliche Biases in den unterschiedlichen Modellansätzen zu gewinnen.
In diesem Poster präsentieren wir zum einen die Resultate dieser Versuche, unsere forschungspraktischen Erkenntnisse mit dem Umgang von LLMs, aber wir reflektieren auch über die Frage, ob die ökologischen und sozialen Kosten, die LLMs verursachen, den potenziellen Nutzen rechtfertigen, insbesondere im Kontext geisteswissenschaftlicher Forschung im Sinne einer neuen Form der Methodenkritik in den Digital Humanities, welche auch die politischen und ökonomischen Dimensionen der eingesetzten KI-Systeme berücksichtigt (siehe Crawford 2021).

Bibliographie:
Crawford, Kate (2021), Atlas of AI – Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale Univserity Press.
Peng, Ruoling et al. (2023), “Embedding-based retrieval with LLM for effective agriculture information extracting from unstructred data”, arxiv, DOI: https://arxiv.org/abs/2308.03107.
Wiest, Isabella Catharina et al. (2024), LLM-AIx: An open source pipeline for Information Extraction from unstructured medical text based on privacy preserving Large Language Models”, medRxiv, DOI: https://doi.org/10.1101/2024.09.02.24312917.

Website: https://werkd.saw-leipzig.de/wokddr

Forschungsdateninfrastruktur Historische Quellen (HisQu)

Bärbel Kröger (Niedersächsische Akademie der Wissenschaften zu Göttingen), Christian Popp (Niedersächsische Akademie der Wissenschaften zu Göttingen)

Mit der Forschungsdateninfrastruktur Historische Quellen (HisQu) soll eine domänenspezifische Anwendung entwickelt werden, die eine ontologiebasierte tiefe semantische Erschließung von heterogenen und semistrukturierten Quellentexten (insbesondere Regesten) ermöglicht. HisQu wird für die freie Nutzung durch Forschungsgruppen, einzelne Wissenschaftler:innen und alle weiteren interessierten Nutzer:innen konzipiert und soll das digital gestützte kollaborative Arbeiten in der historischen Forschung wesentlich verbessern.
HisQu stellt Tools zur Verfügung, die alle Aspekte des Forschungsdatenzyklus abdecken: Von der Generierung der Daten über die Datenspeicherung und ihre Verarbeitung bis hin zur Datenanalyse. Durch den Einsatz von computerlinguistischen Verfahren (Maschinelles Lernen und Mustererkennung sowie domänenspezifische Grammatiken) werden die Texte semantisch erschlossen. Unter Rückgriff auf fachwissenschaftliche Vokabulare und Top-Level-Ontologien wird ein semantic-web-fähiges Datenmodell entwickelt, welches die Generierung eines Wissensgraphen ermöglicht.
Als Datenspeicher wird eine domänenspezifische Wikibase-Instanz evaluiert. Flexibel anpassbare Nutzerinterfaces erlauben die Bearbeitung und Erweiterung der Datenbestände sowie die Erschließung des Wissensgraphen durch individuell konfigurierbare Abfragen. Die Systemarchitektur gewährleistet die Nachvollziehbarkeit des Forschungsprozesses und der Entstehung der Daten sowie deren Nachnutzung.
Der Aufbau von HisQu erfolgt exemplarisch an einem für die spätmittelalterliche Kirchengeschichte zentralen Quellenkorpus, dem Repertorium Germanicum (RG), das bisher unzureichend digital erschlossen ist. Fachwissenschaftliche Fallstudien begleiten den Entwicklungsprozess und validieren die Praxistauglichkeit von HisQu.

Website: https://adw-goe.de/germania-sacra/hisqu/

IDOHIST. Transparenz durch digitale Dokumentation – Von der Quelle über die Argumentation zur Rekonstruktion

Jonas Bruschke (HTWD), Gesine Jahnke (HAIT), Dr. Anne Klammt (HAIT), Stefan Neubert (HTWD), Michael Thoß (HAIT), Markus Wacker (HTWD), Francesca Weil (HAIT)

Bei IDOHIST handelt es sich um ein vom SMWK gefördertes Kooperationsprojekt zwischen dem Lehrstuhl für Computergrafik der HTW Dresden und dem Hannah-Arendt-Institut für Totalitarismusforschung zur Schaffung einer digitalen Infrastruktur für die Geschichtswissenschaft zur digitalen, anschlussfähigen Dokumentation historischer Argumentationen, ihrer Genese (Paradaten) und ihren inhärenten Unsicherheiten in raumbezogenen Visualisierungen. Dabei sollen auch alternative oder verworfene Lösungsansätze mit einbezogen werden. Am Fallbeispiel der kartografischen Visualisierung der Genese der Präsenz der nationalsozialistischen Herrschaft auf dem Stadtgebiet Dresdens zwischen 1925 und 1945 soll für alle Orte mittels eines Dreiklangs aus Quelle – Argumentation – Rekonstruktion die Entscheidungsfindung für die jeweilige Verortung dokumentiert und etwaige Unsicherheiten geografischer, zeitlicher oder inhaltlicher Natur beurteilt, transparent gemacht und auf einem historischen Stadtplan visualisiert werden.
Die im Projekt gemeinsam neu zu schaffende Infrastruktur IDOHIST soll eine neue Form des digitalen Wissenstransfers ermöglichen, bei dem die transparente Teilhabe von Wissenschaft und Gesellschaft an Ergebnissen und deren Entstehung in der Geschichtswissenschaft im Mittelpunkt steht.

Website: https://hait.tu-dresden.de/ext/forschung/forschungsprojekt-8200/

Jacobi-Wörterbuch Online

Uwe Kretschmer (Sächsische Akademie der Wissenschaften zu Leipzig), Oliver Koch (Sächsische Akademie der Wissenschaften zu Leipzig), Lars Scheideler (Sächsische Akademie der Wissenschaften zu Leipzig)

Das Jacobi-Wörterbuch Online, herausgegeben von Birgit Sandkaulen, Stefan Schick und Oliver Koch, erschließt das Denken Jacobis anhand der ihm eigentümlichen Begriffsverwendung im Kontext der philosophischen und politischen Auseinandersetzungen seiner Zeit. Die Erarbeitung der ~400 Lemmata durch ~60 internationale Autorinnen und Autoren im Zeitraum 2019–2027 erfolgt im Rahmen des Akademienvorhabens „Friedrich Heinrich Jacobi: Briefwechsel. Text – Kommentar – Wörterbuch Online“ an der Sächsischen Akademie der Wissenschaften zu Leipzig. Das Wörterbuch ist seit Februar 2023 online und wird durch die regelmäßige Veröffentlichung weiterer Artikel sukzessive ergänzt. Nach dem achten Release vom 24. Oktober 2024 umfasst es derzeit 131 Artikel von 41 Autorinnen und Autoren.
Das Poster adressiert die technischen Aspekte, Module und Zusammenhänge des entwickelten Redaktionstools, Publikations-Workflows und der Online-Präsentation und gibt somit einen Überblick über eingesetzte Open Source Software, Technologien und Standards, angefangen bei der Transformation der in DOCX eingereichten Artikel nach TEI-XML und deren weiterer Bearbeitung und umfangreicher Annotation im Redaktionstool, über Literatur- und Normdatenverwaltung, das Veröffentlichen und Aktualisieren von Artikeln bis hin zu deren Präsentation.
Bei dem Redaktionstool handelt es sich um eine Anpassung des oXygen XML Author-Frameworks, wodurch die Bearbeitung der XML-Daten ohne XML-Kenntnisse ermöglicht wird. Zahlreiche Kontrollansichten zu den Artikeln, wie beispielsweise die Leseansicht, in der alle Auszeichnungen und Hervorhebungen ausgeblendet werden, oder die Zitationsliste unterstützen dabei die inhaltliche Arbeit der Redaktion.

Machine-Learning-basierte Texterkennung arabographischer Texte – Herausforderungen und Best Practices

Daniel Kinitz (Sächsische Akademie der Wissenschaften)

Die automatische Texterkennung arabischer Schrift liefert erst seit der freien Verfügbarkeit von Machine-Learning-basierten Anwendungen zufriedenstellende Ergebnisse. Dennoch gibt es eine Reihe von Herausforderungen, die im produktiven Einsatz zu bewältigen sind. Der Vortrag stellt Herausforderungen und Best Practices aus dem Projekt „Bibliotheca Arabica“ vor, in dem die Texterkennung von gedruckten arabischen und persischen Quellen Teil des Arbeitsprozesses ist.

Website: https://www.saw-leipzig.de/bibliotheca-arabica

Multispektral-Digitalisierung an der UB Leipzig

Olaf Mokansky (UB Leipzig), Leander Seige (UB Leipzig), Christoph Mackert (UB Leipzig)

Mit der Beschaffung eines Systems für Multispektralfotografie im Jahr 2022 begann an der Universitätsbibliothek Leipzig eine neue Ära der Digitalisierung des im Haus bewahrten Kulturerbes. Die Möglichkeit, historische Bestände nun auch mit Licht jenseits des für den Menschen sichtbaren Spektrums betrachten zu können, eröffnet die Möglichkeit, den Objekten Informationen zu entlocken, die dem menschlichen Auge bisher verwehrt blieben. So gelang bisher beispielsweise die Sichtbarmachung eines getilgten griechischen Textes aus dem 7. Jh. im Codex graecus 2, enthaltend einen unikal überlieferten Grammatik-Traktat.

Website: https://blog.ub.uni-leipzig.de/multispektralaufnahmen-in-der-ubl/

On the Origins of Transparency: Conceptual Implications and Analytical Developments

Roberto Cruz Romero (GSGAS – Universität Leipzig)

Concepts arise under specific conditions and develop over time given particular contexts. Conceptual history represents more than just a plain archaeology of textual data, as it encompasses continuous contestation of the sources, moments, and conditions encompassing the ideas. In the field of democratic studies, and in particular regarding democratic governance, the concepts making up the foundational weave of political thought are, by default, subject to (re-)interpretation, (re-)adaption, and (re-)assimilation. One of such concepts is transparency. Transparency thus has become, beyond any empirical or theoretical nuance, a narrative. The narrative of transparency is then an overarching discourse of the neo-liberal script that is ever-present in local and world politics and policymaking. Traditional archival approaches have helped to identify such processes and problematise them in relation to a broader tradition of governance theories and frameworks.
The goal of this project is to offer an overview of the conceptual history of transparency by showing first, from a quantitative, bibliographic approach, the mentions and appearances of terms in co-occurrence with other concepts in a long timespan. Secondly, complemented by computer-assisted classification of the documents, a more in-depth observation of the identified bibliographic trends. These approaches allow to characterise trends around the epistemic perspectives of transparency that relate to elements such as disciplinary classification and publication details.
From this methodological perspective, the project highlights the use of digital tools in order to tackle and dissect theoretical problems in conceptual histories, both as a complementary analytical tool and as an object itself. The contribution to, and motivation from, the digital humanities is based on the use of large bibliographic datasets, algorithmic functions, and dynamic visualisations. Similarly, the project offers insights into possible research avenues focusing on specific spaces, theoretical or empirical, as well as on ideas and relationships on various complexity levels.

Publikationserfassung optimieren: Die UB Leipzig und das leuris-Team auf dem Weg zu validen Daten und effizienten Workflows

Dr. Wolfgang Reißmann (Universität Leipzig, Universitätsbibliothek), Dr. Stephan Wünsche (Universität Leipzig, Universitätsbibliothek), Dr. Stefan Mutke (Universität Leipzig, Dezernat für Forschung und Transfer)

Valide Daten zu wissenschaftlichen Publikationen werden immer wichtiger. Publikationen sind nicht nur Indikatoren für Forschungserfolge, sondern verursachen auch Kosten, die zu berücksichtigen sind bei der Planung von Finanzbudgets und der Einwerbung von Drittmitteln. Das gilt auf der Mikroebene (Wissenschaftler:innen, Forschungsgruppen) genauso wie auf der Meso- (Institute, Fakultäten) und Makroebene (Universitäten, Bundesländer, Staaten, Disziplinen im Vergleich). Eine Voraussetzung dafür ist die möglichst vollständige und effiziente Erfassung der an Universitäten und Forschungseinrichtungen entstehenden Publikationen.
An der Universität Leipzig liegt die Publikationserfassung in der Verantwortung der Universitätsbibliothek und findet in enger Zusammenarbeit mit leuris statt, dem Forschungsinformationssystem der Universität. Die Akteure arbeiten daran, die Publikationserfassung zu verbessern und zu harmonisieren. Zum einen wurden und werden dafür die Basis-Metadaten verfeinert (z. B. durch zusätzliche Unterscheidung von Open Access und Restricted Access oder nach Finanzierungsart), was eine differenziertere Einschätzung der Publikationsleistung ermöglicht. Zum anderen soll die Publikationserfassung stärker automatisiert werden und der Datenaustausch mit Drittsystemen vereinfacht. Flankiert werden die infrastrukturellen Maßnahmen durch umfassende Beratungs- und Informationsangebote für Forschende an der Universität.
Die beispielhaft skizzierten Aktivitäten zielen auf sämtliche Disziplinen. In weiteren Schritten soll die Sensibilität für fachspezifische Publikationsstandards erhöht werden. Ein verstärkter Austausch ist dabei besonders mit den Humanities geboten. Anders als in den Natur- und Technikwissenschaften sind Erfolgs- und Reputationskriterien für wissenschaftliches Publizieren hier weniger eindeutig und standardisiert. Das Open Science Office möchte den Digital Humanities Day nutzen, um mit Akteur:innen der DH-Bewegung über angemessene Daten-Workflows in der Erfassung geisteswissenschaftlicher Publikationen ins Gespräch zu kommen und das Potential der bibliografischen Daten für Fragestellungen der Digital Humanities auszuloten.

Website: https://www.ub.uni-leipzig.de/open-science/; https://leuris.uni-leipzig.de/

Regional- und Landeskunde als Schwerpunkt akademischer Lehre in den Digital Humanities

Martin Munke (Sächsische Landesbibliothek – Staats- und Universitätsbibliothek), Kay-Michael Würzner ((Sächsische Landesbibliothek – Staats- und Universitätsbibliothek)

Seit dem Wintersemester 2022/23 wird an der Technischen Universität Dresden ein Masterstudiengang Digital Humanities (DH) angeboten. Er richtet sich an Studierende aus den Geistes- und Sozialwissenschaften, die ihre fachliche Grundlagenausbildung im Bachelor mit informationstechnischen Kompetenzen ergänzen und in stark praxisorientierten Anwendungsbereichen weiterentwickeln möchten. Einer einheitlichen Vermittlung informatischer Basisfertigkeiten folgt eine Spezialisierung in den Wahlpflichtbereichen „Gesellschaft und Geschichte“, „Kunst und Bild“, „Schule und Bildung“ oder „Sprache und Literatur“. Ergänzt werden diese durch die Behandlung von Querschnittsthemen wie Daten, Recht und Ethik. Die verschiedenen Lehrveranstaltungen nutzen intensiv die Möglichkeiten
digital gestützter, kompetenzorientierter Lehre.
Maßgeblich an der Konzeption des Studienganges beteiligt war die Sächsische Landesbibliothek – Staats- und Universitätsbibliothek (SLUB). Sie ist eine von fünf Partnereinrichtungen, die eine enge praktische Rückbindung der Studieninhalte sicherstellen, und ist im kompletten Studienablauf präsent: Dem Beitrag zur Ringvorlesung mit Einblicken in die Verbindung Bibliothek und DH im ersten Semester folgt das Seminar Datenkompetenz für DH, in dem es zentral um die Erschließung, Anreicherung und Analyse digitaler Objekte geht, im zweiten und die Durchführung von projektorientierten Praktika im dritten. Bearbeitet werden hier Bestände der SLUB – die gerade im Fall von Sonderbeständen einen regional- bzw. landeskundlichen Schwerpunkt aufweisen – auf verschiedenen Stufen des Datenlebenszyklus’: Normdatenerstellung, Datenanreicherung, -analyse und -visualisierung inkl. begleitender Wissenschaftskommunikation. Die Co-Betreuung von Masterarbeiten durch SLUB-Mitarbeitende erlaubt es den Studierenden, ihre Praktikumsprojekte wissenschaftlich auszuarbeiten.
Diese Aktivitäten sind eingebunden in zwei Profillinien der SLUB: Einerseits der Einsatz und die Unterstützung offener Forschungsinfrastrukturen, -werkzeuge und -datenbasen. Andererseits die Dissemination regional orientierter Bestände sowie die Beforschung landeskundlicher Fragestellungen v.a. im Bereich der Geschichts- und der historischen Sprach- und Literaturwissenschaften samt ihrer Nachbardisziplinen. Das curriculare Engagement bedient somit synergetisch die Aufgaben der SLUB als Universitäts- und Landesbibliothek. Auf dem Poster stellen wir diese Verknüpfung anhand konkreter Beispiele aus dem Studiengang vor und reflektieren den formulierten Anspruch vor dem Hintergrund bisheriger Ergebnisse.

Researching Place-Names in Multiple Gazetteers

Francis Harvey (IfL), Eric Losang (IfL)

As the uses of maps change, egocentric usage turns maps more and more into interfaces (Schiewe, 2022). Toponyms, or place-names play and important role in facilitating how people now use maps. We could say it this way: having better connections between toponyms and maps helps the use of maps, and maybe helps efforts to make the world a better place. Sometimes, that might mean letting omissions and errors be, but other times, knowing more about differences in place names can be very important. This is an important motivation behind work on this digital gazetteer project (Doroshenko et al, 2023), which we now continue through research to improve the usability of online gazetteers. In the presentation we describe the over-arching concepts, the existing Gazetteer application and conclude with a presentation of our on-going research on using task-orientated usability engineering to develop a better understanding of diverse research tasks using gazetteers including enhancements to the user interface and creating multiple interfaces orientated to different tasks. While the improvement may not lead to better places necessarily, but we believe at least to a better map interface for interdisciplinary research working with toponyms.

Website: https://gazetteers.net/

Sage mir, mit wem du umgehst, so sage ich dir, wer du bist!

Felix Helfer (SAW Leipzig), Thomas Eckart (SAW Leipzig), Uwe Kretscher (SAW Leipzig), Martin Prell (SAW Leipzig)

Entity Linking, also die Verlinkung von Named Entities mit passenden Einträgen in einer Wissensbasis, stellt eine wertvolle, aber gleichzeitig sehr aufwendige Anreicherung von Textdaten dar. Unser Poster bespricht laufende und geplante Experimente zu automatischem Entity Linking auf den digitalisierten Texten des Propyläen-Projekts des Goethe- und Schiller-Archivs. In den Digitalisaten soll eine möglichst umfassende Zahl von Personen- und Ortsnennungen mit Einträgen der Stiftungsnormdatenbank so:fie verbunden werden, bestenfalls durch (semi-)automatische Verfahren. Das Poster bespricht zunächst die verschiedenen Teilprobleme des Entity Linking (Named Entity Recognition, Kandidatensuche und Kandidaten-Disambiguierung) und unsere jeweiligen Lösungsansätze dafür. Im Fokus steht dabei insbesondere die Kandidaten-Disambiguierung anhand von vorberechneten „Entity-Embeddings“: Embedding-Repräsentationen von Kontext-Informationen für die Entitäten der für die Daten relevanten Wissensbasis, die via Distanzmetriken mit einem Eingabe-Embedding verglichen werden können.
Im Kontext dieser Experimente werden mögliche Forschungsfragen zur Diskussion gestellt: so sollen die Auswirkungen unterschiedlicher Kontextfenster für die Embeddings erprobt werden, sowie die Nutzung unterschiedlicher Wissensbasen (die Stiftungsnormdatenbank so:fie, sowie die Gemeinsame Normdatei der Deutschen Nationalbibliothek). Weiterhin werden Möglichkeiten diskutiert, familiärrelationale Nennungen („mein Großvater“) aufzulösen und Kontexte der Entitäten-Embeddings mit Informationen von Familienmitgliedern zu erweitern.
Zudem werden ausgewählte Herausforderungen des Tasks vorgestellt, allen voran die unzureichende Anzahl annotierter Daten und bestehender Werkzeuge für die deutsche Sprache. Dies erschwert insbesondere Training, Evaluation und Vergleiche von neuen Ansätzen. Auch beleuchtet wird ein möglicher Umgang mit potenziell unvollständigen oder imperfekten automatisch gesetzten Labeln innerhalb eines DH-Projekts – welche Fragen sollte sich ein Projekt initial stellen, wenn es die eigenen Daten entsprechend anreichern möchte?
Das Poster gibt einen Einblick in das Aufgabenfeld des automatischen Entity Linkings, zu möglichen Verfahren und deren Fragestellungen, sowie praktischen Anwendungen in geisteswissenschaftlichen Projekten.

Saxon Monophthongisation in Random Forests (Provisional Title)

Simon Oppermann und Beat Siebenhaar (Institut für Germanistik, U Leipzig)

In East Central German, there’s an opposition in the reflexes of Middle High German ei, ou, öu: In Standard German, these diphthongs are shifted to [aɪ̯ , aʊ̯ , ɔɪ̯ ] whereas in the Saxon dialects they’ve been monophthongised to [eː, oː, eː] respectively. However, dialectal monophthongs are increasingly replaced by standard diphthongs. This paper uses publicly available data from non-professional speakers recorded over the past 20 years to examine (supposed) lifespan variation in phthong use. Combatting this plethora of data by auditory categorisation alone is not feasible. Thus, a procedure to automate the distinction between mono-and diphthongs for larger datasets is proposed: Relevant segments are force-aligned and formant tracks are calculated automatically. Their DCT coefficients and temporal parameters are then used to train multiple random forests. With a classification accuracy of over 95% this scalable model promises sufficiently accurate results for the analysis of lifespan change in phthong realisations. We will present the procedure and some results of the following analyses.
The project belongs to the field of DH because, on the one hand, it examines natural language data from (specific) everyday situations which, on the other hand, cannot be analysed manually or auditorily due to the sheer amount of data. The development of an RF model with a limited manually prepared data set replaces human classification and is therefore a classic DH approach. However, the interpretation of the results generated in this way then leads back to the human tasks.

Website: https://home.uni-leipzig.de/siebenh/projekt/ival/index.html

Topologie eines DH-Forschungsprojektes: Eine Kartierung des DIKUSA-Verbundprojekt der sächsischen außeruniversitären Forschungseinrichtungen

Dirk Goldhahn (Sächsische Akademie der Wissenschaften zu Leipzig), Peter Mühleder (Sächsische Akademie der Wissenschaften zu Leipzig), Franziska Naether (Sächsische Akademie der Wissenschaften zu Leipzig)

Das Verbundprojekt „DIKUSA“ – kurz für „Vernetzung digitaler Kulturdaten in Sachsen – Aufbau einer technischen Infrastruktur für die Forschung zu Mobilität, Migration und Transformation von Orten, Personen und Artefakten (in zeitlicher und räumlicher Perspektive)“ – ist ein Vorhaben, in dem die sechs außeruniversitären geisteswissenschaftlichen Forschungsinstitute in Sachsen gemeinsam mit der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek (SLUB) vertreten sind. Den Verbund koordiniert das KompetenzwerkD an der Sächsischen Akademie der Wissenschaften zu Leipzig (SAW), dem gemeinsamen DH-Labor der sechs Forschungseinrichtungen (siehe Goldhahn et al. 2023).
Inhaltlich werden im Verbundprojekt sechs historische Forschungsprojekte durchgeführt, die ein breites Spektrum an Themen abbilden (Migrationsgeschichte, Wissenschaftsgeschichte, Kunstgeschichte, Wirtschaftsgeschichte, sorbische Kulturgeschichte, Ortsnamenforschung), mit dem Ziel, die daraus entstehenden Forschungsdaten als verknüpfte Wissensgraphen über eine gemeinsame Infrastruktur zugänglich zu machen.
Die Planung und Durchführung eines derart großen, komplexen Projekts stellte (und stellt) das Team des KompetenzwerkD vor zahlreiche Herausforderungen, sowohl methodischer, technischer als auch administrativer Natur. Dieses Poster stellt den Versuch einer umfangreichen Reflexion dar. Im Sinne einer „kritischen Kartographie“ (Allen/Queen 2015) entsteht mit diesem Poster eine topologische Karte des DIKUSA-Projekts, die anhand von vier Achsen (institutioneller Rahmen, Finanzierung, Infrastruktur, wissenschaftlicher Erkenntnisgewinn) die Projektarbeit und deren Einbettungen in weitere Kontexte nachzeichnet, wodurch auch Einblicke in die Alltagsarbeit, z. B. bei der Antragstellung, Finanzierung, Softwareentwicklung und den Forschungsmethoden, gegeben werden.
Damit soll es den Betrachter:innen der Karte möglich sein, verschiedene Zusammenhänge zwischen geisteswissenschaftlicher Forschung, politischen Systemen/Rahmenbedingungen und technischen Entwicklungen erkunden zu können. Diese vielschichtigen Themen und Herausforderungen eröffnen mehrere Perspektiven, die sich im Rahmen eines digitalen Verbundprojekts der historisch arbeitenden Geisteswissenschaften wie „DIKUSA“ ergeben.

Bibliographie:
Allen, Tania und Sara Queen (2015), „Beyond the Map: Unpacking Critical Cartography in the Digital Humanities“, Visible Language. The Journal of visual communication research 49.3, 79-98.
Goldhahn, Dirk et al. (2023): „There is no ‚I‘ in ‚Infrastructure‘: Creating a shared data-centric DH Infrastructure for Cultural Heritage Research in Saxony/Germany“, in: ADHO Annual Digital Humanities Conference 2023: Collaboration as Opportunity, Graz 2023, DOI: 10.5281/zenodo.8107515.

Website: https://dikusa.saw-leipzig.de/