Logo der Bayerischen Akademie der Wissenschaften

Cuneiform Artefacts of Iraq in Context (CAIC) - Keilschriftartefakte Mesopotamiens

Menu

Von der Tontafel zum Datensatz

Enrique Jiménez und Fabian Simonjetz

CAIC verbindet das Altertum nahtlos mit dem cyber space. Das Projekt nutzt für die Bearbeitung einiger der ältesten Textzeugnissen der Menschheit nämlich neueste Technologien und arbeitet dabei mit führenden digitalen Keilschriftinitiativen in aller Welt zusammen. Gemeinsam haben wir ein ehrgeiziges Ziel: eine universelle, modulare Plattform zur Katalogisierung, Dokumentation und Edition von Keilschrifttexten zu etablieren, die die vorhandenen Tools und Korpora zusammenführt und um wesentliche neue Funktionen ergänzt.

Bestehendes verbinden und verbessern

Die Welt der digitalen Keilschriftstudien ist bisher ein Archipel von vielen Inseln und Inselchen, die die CAIC-Plattform zu einer Landmasse zusammenführen soll. Unser Ziel ist es, einerseits mit allen bestehenden internationalen Großprojekten der digitalen Altorientalistik wie dem französischen Archibab, dem spanischen BDTNS und den internationalen Initiativen CDLI und Oracc zusammenzuarbeiten und andererseits zur Interoperabilität all dieser insularen Initiativen beizutragen. Ganz wesentlich ist hierfür das Leibniz-Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften, das auf seiner enorm leistungsstarken Server-Infrastruktur unsere Plattform und alle Forschungsdaten beherbergt. Forscher weltweit werden die Möglichkeit erhalten, Unterprojekte in CAIC zu erstellen und von allen Funktionen des Systems zu profitieren. So wollen wir nicht nur die Vernetzung innerhalb der Altorientalistik, sondern auch die interdisziplinäre Zusammenarbeit voranbringen.

Komplexe Daten, strukturiertes Format

Das CAIC-Team fertigt anhand verbindlicher Transliterationsregeln Umschriften von den Keilschrifttexten an und erweitert sie um weitere Informationen. Denn für die Dokumentation der Dokumente reicht es nicht aus, nur den “Text an sich” zu speichern. Weil die dreidimensionalen Tafeln ja auf mehreren Seiten beschriftet sind, sind Angaben zu Layout und Zeichenverteilung wichtig. Wir kodieren auch Daten wie Fundort, Epoche, Sprache, außerdem linguistische Annotationen und Verweise auf zugehörige Bruchstücke. Natürlich übersetzt das CAIC-Team die mühsam transliterierten Texte auch vollständig und kommentiert diese philologisch und historisch.

All dies wird in einem komplexen Datenformat gespeichert. Denn Daten sind nur dann sinnvoll für digitale Forschungen nutzbar, wenn sie in einer Form gespeichert sind, die es erlaubt, sie zu durchsuchen, zu sortieren und zu filtern. Wenn die Daten in die Datenbank überführt werden, erhält jedes Stück eine eindeutige ID und einen Eintrag, der die Bearbeitung, linguistische Informationen (z.B. Morphologie), Meta-Informationen (z.B. Fundort, Datierung, archivalischer Kontext), Fotos und statistische Daten enthält. Dafür wird Java Script Object Notation (JSON) verwendet, ein strukturiertes Datenformat, das mit Schlüssel-Wert-Paaren arbeitet. Die Schlüssel sind festgelegte Bezeichnungen wie “Periode” oder “Transliteration”, und die Werte sind Zahlen für Datumsangaben, zeitliche Kategorien wie “altbabylonisch” oder auch komplexere Einträge wie bibliografische Referenzen. Die Herausforderung besteht darin, Schlüssel und Werte so festzulegen, dass möglichst alle Eigenschaften darstellbar sind, und das abstrakte Datenmodell muss stetig angepasst und erweitert werden. Ein Vorteil von JSON ist die leichte Konvertierung in andere Formate, wie etwa TEI P5 XML. So kann jeder Nutzer das Material für eigene Zwecke nutzen. Backups der Datenbank werden mehrmals täglich auf dem LRZ-Server gespeichert, sodass Datenverlust vorgebeugt ist.

Lösungen für ein stetig wachsendes Textkorpus

Das Korpus der Keilschriftsprachen (in der Hauptsache Sumerisch und Akkadisch) wächst jedes Jahr um viele tausend Wörter an. Wir müssen Werkzeuge schaffen, die diesem Wachstum Rechnung tragen. Schon jetzt ermöglicht die CAIC-Plattform für akkadische Texte eine Lemmatisierung, bei der jedes Wort eines Textes mit seiner Wörterbuchform verknüpft wird. Die so mögliche Erstellung einer dynamischen Konkordanz ist für ein noch immer rasch wachsendes Sprachkorpus am besten geeignet. Ein zentrales Ziel der ersten Projektphase ist die Erarbeitung der Lemmatisierung für sumerische Texte, die besonders Walther Sallaberger momentan beschäftigt; er kann hierfür auf seine langjährige Erfahrung mit einem sumerischen Glossar aufbauen.

Lemmatisierung erlaubt die automatische Generierung von Glossaren und diese können etwa mit Material zur Etymologie oder auch thematischen Sammlungen verlinkt werden. Besonders wichtig wird uns die Verknüpfung zu den Online-Einträgen des direkten Vorgängerprojekts an der BAdW, dem Reallexikon der Assyriologie und Vorderasiatischen Archäologie.

Von der Landkarte zur Tontafel zur Edition

Unsere Plattform wird für jede Tontafel nicht nur die von CAIC generierten Fotografien und Editionen bieten, sondern sie auch in ihrem Fundkontext visualisieren. Das trägt der Vielfalt an gut dokumentieren Provenienzen Rechnung, die die Sammlungen des Irak-Museums auszeichnet. Dafür bauen wir auf den von Karen Radner und Jamie Novotny mit der IT-Gruppe Geisteswissenschaften an der LMU entwickelte Visualisierungstools Ancient Records of Middle Eastern Polities (ARMEP) auf, das es ermöglicht, Keilschrifttexte von einer Kartenoberfläche aus abzufragen. Die Nutzer werden in der Lage sein, virtuell in jeden irakischen Fundort zu reisen und die dort gefundenen Dokumente in ihrer Zeitstellung und ihrem Archivzusammenhang zu konsultieren. So wird man in der Stadt Uruk sehen können, in welchen Bibliotheken Manuskripte der Abenteuer ihres legendären Königs Gilgamesch aufbewahrt wurden. Ein Mausklick führt dann zur Übersetzung und wer will, kann sofort auch auf die gesamte Edition zugreifen.

Tim Berners-Lee, der Erfinder des World Wide Web, hat gesagt: “Data is a precious thing and will last longer than the systems themselves.” Das trifft auch auf unsere Plattform zu, die irgendwann veraltet sein wird. Aber dank ihrer überlegten und offenen Datenstruktur werden die Editionen und die sonstigen Informationen, die wir mit den beschriebenen Werkzeugen generieren, die Wissenschaft und die allgemeine Kenntnis der reichen Textschätze des alten Iraks dauerhaft prägen. Denn CAIC wendet sich mit seiner Plattform und seinen Daten bewusst nicht nur an Fachleute, sondern auch an die breite Öffentlichkeit.
 

Eine paläografische Revolution

Ein bahnbrechendes Werkzeug wurde im Rahmen des von der Alexander von Humboldt-Stiftung finanzierten und von Enrique Jiménez geleiteten Projekts electronic Babylonian Literature (eBL) entwickelt, das die direkte Verknüpfung der Fotos mit den Umschriften der dargestellten Tontafeln ermöglicht, und zwar Zeichen für Zeichen.

Dieses Tool ist zentral für die CAIC-Plattform. Neu ist nun, dass alle generierten Daten direkt in die dynamisch wachsende Zeichenliste des Projekts einfließen, die so die Formen jedes Zeichens quer durch die Jahrtausende der Verwendung der Keilschrift dokumentiert. Dass Tontafeln anhand der Zeichenform datiert werden können (“Paläografie”), ist seit langem bekannt, aber bisher fehlte ein umfassendes Repertoire dieser Formen, was die Forschung stark behinderte. CAIC wird das ändern. Bei der Abfrage der Zeichenformen wird immer auch direkt Zugang zu sämtlichen Kontextinformationen der Tafeln im Irak-Museum geliefert. Ohne Übertreibung kann man deshalb sagen, dass dies die Keilschriftforschung revolutionieren wird.

Die Daten werden ebenso verwendet, um künstliche Intelligenz darin zu trainieren, Zeichen auf Fotos zu erkennen. Eines Tages wird die KI auch ganze Tontafeln lesen können. Nachdem es weltweit viel zu wenige Menschen gibt, die die Keilschrift lesen können, wird das niemandem Arbeit wegnehmen, sondern vielmehr ein ernstes strukturelles Problem lösen, das dazu geführt hat, dass viel zu viel Material über Jahrzehnte unbearbeitet geblieben ist.