nothing.png
Aktuell

Interdisziplinäre Konferenz vom 8.-10. Oktober 2015 in Freiburg
eHumanities: Nutzen für die historischen Philologien

Prof. Dr. David J. Birnbaum
(Department of Slavic Languages and Literatures, University of Pittsburgh)
Dr. Hanne Martine Eckhoff
(Department of Language and Linguistics, University of Tromsø)
Machine-assisted normalization of the Old Church Slavonic Codex Suprasliensis

The new UNESCO-sponsored digital edition of the Old Church Slavonic Codex Suprasliensis currently provides diplomatic transcriptions of all texts in the manuscripts, along with interlinear Greek correspondences and new, high-quality photographs contributed by the repositories. The edition currently fails to fulfill one goal of the project: to produce a normalized reading view of the texts, converted to canonic Old Church Slavonic, with variation harmonized, orthography standardized, abbreviations resolved, superscription pulled back into line, proper nouns capitalized, etc. Our contribution describes a machine-assisted method for performing that normalization.

Dr. Stylianos Chronopoulos
(Klassische Philologie, Albert-Ludwigs-Universität Freiburg)
Pollux’ WordNet: Zu einer digitalen Edition eines griechischen Thesaurus des 2. Jh. n. Chr.

Das Onomastikon des Pollux ist ein griechischer Thesaurus, der im 2. Jh. n. Chr. verfasst wurde. In insgesamt zehn Büchern (ca. 120.000 Wörter) werden die Wortfelder verschiedener Begriffe gesammelt. Pollux ordnet die Begriffe zwar nicht in ein logisches System ein (Makrostruktur), versucht jedoch, die meisten Wortfelder hierarchisch zu strukturieren (Mikrostruktur). Die Wörterlisten sind in einen fließenden Text eingebettet, und die Struktur wird durch die Syntax des Textes beeinflusst. Eine digitale Edition des Onomastikon soll die Mikrostruktur der Wortfelder darstellen. Zu diesem Zweck wende ich die von WordNet verwendete Ontologie auf das Material des Onomastikon an. In meiner Präsentation stelle ich fünf Beispiele dieser Anwendung vor und diskutiere speziell die folgenden Probleme, die dadurch entstehen:

  1. Umgang mit Lücken, sowohl mit fehlenden Strukturierungsangaben als auch mit «fehlenden» Wörtern z. B. in Paaren von Antonymen;
  2. Umgang mit Derivationsangaben;
  3. Definition der «category-», «region-» und «usage-» pointers, so dass sie der durch das Onomastikon selbst entstehenden Ontologie entsprechen;
  4. Umgang mit Inkonsequenzen im Onomastikon.

Ziel dieser Arbeit ist es, sowohl das Material des Onomastikon für eine gattungsgerechte digitale Edition vorzubereiten, als auch einige seiner besonderen Merkmale zu bestimmen und zu präsentieren.

Prof. Dr. Ralph Cleminson
(Winchester, England)
Encoding Text and Encoding Texts: some Reflections on Theory and Practice

Slavists have now been producing and using digital text for twenty years or more, so that it is appropriate to take stock of what has been achieved and consider what might come next. The notion of encoded text – text as a string of digital characters – is becoming increasingly familiar, as are the possibilities that it offers for the manipulation, extrapolation and analysis of the information that it represents, whether this information is contained within the string of characters themselves, implicit within them (and therefore requiring to be made explicit before processing) or metadata associated with them. For the mediævalist, digital text is dependent on physically existing text – normally, a manuscript. (Though in practice it has tended to be dependent on printed editions of manuscripts.) But a manuscript is not a text. To produce not simply digital text, but a digital text, or a digital edition, we need to take into account both the possibilities offered by the computer and recent developments in the theory of textual criticism: whether a text is a purely abstract entity realised in manuscript, print or digital form, or whether on the contrary it is the totality of all those realisations. The computer allows us to digitise different realisations in parallel, and, increasingly, to analyse them together; there are, however, practical limitations. Moreover, the aims of criticism must take into account the cultural function of the text – both the “ideal” and its particular realisations. This should be reflected both in the information selected for encoding and it the use made of it.

Thomas Efer, M. Sc.
(Abteilung für Automatische Sprachverarbeitung, Universität Leipzig)
Zur Nutzung von Graphdatenbanken bei der Analyse historischer Korpora

Die derzeit weltweit betriebenen massiven Digitalisierungsinitiativen bieten Zugang zu einer Fülle von historischen Textquellen, welche hinsichtlich der Breite des abgedeckten Stoffes, aber auch bezüglich der erreichbaren Erschließungstiefe neue Maßstäbe setzen. Bei der Aufbereitung und Analyse dieser Korpora zeigen sich zunehmend die Grenzen der Textmodellierung in XML als einfacher Hierarchie von Elementen, wenn immer komplexere und spezialisierte Textannotationen, Normalisierungen, Verweise und alternative Inhaltsströme in digitalen Werkzeugen berücksichtigt und adäquat modelliert werden müssen. Gleichzeitig mit den wachsenden Quellenrepositorien werden computergestützte statistische Verfahren zur Informationsextraktion in den textzentrierten digitalen Geisteswissenschaften immer wichtiger. Text Mining ermöglicht es, fundierte Aussagen zu Mustern und Zusammenhängen über Einzeltexte hinweg zu treffen. Neben dieser typischen Anwendung im «distant reading» liefern diese Verfahren auch Einstiegspunkte zum Durchgriff auf einzelne, im Überblick als interessant befundene Autoren, Dokumente, Textstellen und Vokabeln. Diese können in explorativer Vorgehensweise in ihren jeweiligen Kontexten genauer untersucht werden, wobei typischerweise «Subkorpora» zur thematischen, geo-temporalen oder stichprobenartigen Eingrenzung angelegt werden. Da sich viele Text-Mining-Verfahren auf korpusweit vorberechnete Statistiken stützen, müssen diese zunächst aufwändig errechnet werden, bevor die eingeschränkte Datenbasis weiter exploriert werden kann. Im Vortrag wird erläutert, wie Graphdatenbanken genutzt werden können, um Dokumentsammlungen mit all Ihren vielschichtigen Aspekten (Metadaten, Strukturinformationen, Textpassagen, etc.) in einer flexiblen Form abzubilden, die es u. a. ermöglicht, ausgewählte Text-Mining-Verfahren verschiedener Komplexitätsgrade ohne Vorberechnungsaufwände anzuwenden. Es wird ein Datenmodell und eine Anwendung vorgestellt, die Textelemente bis hin zur Ebene einzelner laufender Wortformen (Token) als Knoten in einem Graphen abbildet. Dabei werden Arbeiten aus dem BMBF-geförderten Projekt eXChange vorgestellt, sowie darüber hinausgehende Anwendungsfälle skizziert, um den Nutzen für die Analyse historischer Texte zu verdeutlichen, etwa die nicht-invasive und feingliedrige Normalisierung von Orthographie, die Möglichkeit zum Anschluss lexikalischer Ressourcen oder eine über einzelne Keywords und grammatikalische Formen hinausgehende Konzeptsuche.

Prof. Dr. Stefan Engelberg
(Institut für deutsche Sprache / Germanistische Linguistik, Universität Mannheim)
Internetlexikographie und die Dynamik des Lexikons

Die Vorstellungen vom Lexikon als einem weitgehend stabilen Repositorium von weitgehend stabilen Ein- und Mehrworteinheiten entsprechen aufgrund detaillierter Analysen großer Textkorpora in vielerlei Hinsicht nicht mehr unserem linguistischen Kenntnisstand:

  1. Der über Korpora zu ermittelnde Lexembestand ist extrem groß und unterliegt einer erheblichen zum Teil tagesaktuellen Fluktuation durch Entlehnung, Wortbildung, Register- und Bedeutungsverschiebungen.
  2. Die für die Wortschatzgröße hauptverantwortliche Kompositabildung zeigt idiosynkratische Produktivitätseffekte, die sich an kleinräumigen semantischen Kompositionsmustern orientieren.
  3. Die Grenze zwischen lexikalischen und grammatischen Phänomenen ist im Bereich usualisierter Syntagmen und semiabstrakter syntagmatischer Muster fließend.
  4. Feste Wortverbindungen zeigen fast durchgehend ein erhebliches Maß an interner lexikalischer Varianz.

Diese Phänomene legen das Konzept eines dynamischen Lexikons nahe, das wiederum nach Entsprechungen in der Lexikographie sucht, die sich allerdings mit der Darstellung dynamischer Aspekte traditionell schwer tut. Der Vortrag wird zeigen, wie die Internetlexikographie versucht, über Neuerungen in den Bereichen Zugriffsstrukturen, Datenvernetzung und Visualisierungen auf die skizzierten lexikontheoretischen Entwicklungen zu reagieren.

Dr. Evgenii Filimonov
(Slavisches Seminar, Albert-Ludwigs-Universität Freiburg)
Griechisch-slavische Asymmetrien in Syntax und Lexik

Es gibt mindestens zwei Typen der Asymmetrie zwischen dem Original und der Übersetzung. In den meisten Fällen handelt es sich um eine freie oder unpräzise Übersetzung eines griechischen Wortes durch ein slavisches Wort. Weitere Fälle treten auf, wenn ein Wort des Originals durch mehrere slavische Wörter (oder umgekehrt) übersetzt wird. Dies bezeichnen wir als Kollokation. Im Vortrag werden Typen von Kollokationen in unterschiedlichen Glossaren und die Prinzipien, die hinter deren Präsentation stehen, analysiert. Es werden auch solche Fälle von Asymmetrie betrachtet, in denen Unterschiede in der syntaktischen Struktur zwischen dem Original und der Übersetzung bestehen.

Dr. Jürgen Fuchsbauer
(Institut für Slavistik, Universität Regensburg / Institut für Slawistik, Universität Wien)
Paralleling Different Versions of Slavic Texts: Philological Preparations for an Online Edition of the Church Slavonic and Balkan Slavic Lives of Paraskeva of Epibatai

Paraskeva of Epibatai, a Greek ascetic of the 10th century, was one of the most revered saints in the Second Bulgarian Empire and beyond. Several accounts of her life exist, some of them written in the Church Slavonic literary language, others in the highly vernacular Balkan Slavic of the 17th, 18th, and early 19th centuries. Aligned with one another these texts form an ideal basis for an annotated digital corpus visualising diachronic development from Church Slavonic to early modern Bulgarian and Macedonian. Such a collection is planned by a group of researchers around Barbara Sonnenhauser from the University of Zurich. The single lives of Paraskeva are, however, fairly heterogeneous in respect not only of their language level, but also of their structure and contents. In order to establish maximum comparability between them, some preparatory work, which belongs rather to the realm of philology than to that of linguistics, is necessary. In my paper I shall give an account of the philological groundwork indispensable for a sound online presentation of parallel texts with a highly complicated tradition such as the different lives of Paraskeva.

Christine Grillborzer, M. A.
(Slavisches Seminar, Albert-Ludwigs-Universität Freiburg)
Die Annotation von Nullen

Der Vortrag ist der Problematik der automatischen Annotation der sogenannten syntaktischen Nullen im Russischen gewidmet. Die Studie ist auf einen besonderen Typ der Nullargumente, die sogenannten Dativnullsubjekte fokussiert. In dem syntaktisch analysierten Teil des russischen Nationalkorpus sind unter anderem die syntaktischen Beziehungen der Aktanten zu ihren Prädikaten annotiert. So steht ein Teil der Argumente in einer nominativsubjektischen (1) und ein Teil der Argumente in einer dativsubjektischen (2) Relation zum Prädikat. Vergleicht man die Frequenz beider Relationsarten, ergibt sich ein Verhältnis von 1 : 115 (dat.-sub. : nom.-sub.). Wenn man hier jedoch berücksichtigt, dass nur die overt realisierten Argumente annotiert und somit bei der Zählung erfasst wurden und die Frequenz der covert realisierten Dativsubjekte in manchen Dativsubjektkonstruktionen bei über 90% liegt, ist eine deutliche Änderung dieses Verteilungsverhältnisses zu erwarten.

Dass es von Bedeutung ist, auch syntaktisch Nichtpräsentes zu annotieren, wird deutlich, wenn man versucht, den Verlauf der Vorkommenshäufigkeiten der sogenannten Dativsubjektkonstruktionen (2) in Relation zu den Vorkommenshäufigkeiten der Konstruktionen mit dem kanonischen Subjekt (1) vom Alt- zum Gegenwartsrussischen zu setzen. Denn während die Zahl der overt realisierten Nominativsubjekte im Laufe der Geschichte steigt, sinkt die Zahl der overt realisierten Dativsubjekte in bestimmten Konstruktionstypen drastisch. Im letzten Teil des Vortrags werden daher Möglichkeiten diskutiert, die Annotation der (Dativ-‍)Nullsubjekte zu automatisieren: (1) (2) Konstruktionen, in denen der erste Aktant im Dativ realisiert wird und zwar im unmarkierten Satz. Im Gegenwartsrussischen können folgende Typen von Dativsubjektkonstruktionen unterschieden werden:

  1. Konstruktionen, in denen das finite Prädikat mit dem Nominativargument kongruiert.
  2. Konstruktionen, in denen der erste Aktant im Dativ realisiert wird und zwar im unmarkierten Satz. Im Gegenwartsrussischen können folgende Typen von Dativsubjektkonstruktionen unterschieden werden:
    • 1. Freier Infinitiv: DS – ∅/bylo/budet – Infinitiv mit seinen Argumenten ist/war/wird
    • 2. Semi-passivische Konstruktion: DS – (qualitatives Adverb)/Verneinung – intransitives Verb [3P.SG.REFL]
    • 3. Dativexperiencer-Konstruktionen: DS – Verb/Zustandsadverb - ∅ / Akkusativkomplement / Nominativsubjekt / Nebensatz / Infinitiv
    • 4. Konstruktionen mit dem Modalauxiliar DS – Modalauxiliar – Infinitiv mit seinen Argumenten.

Prof. Dr. Alexander Mehler
(Digital Humanities und Texttechnologie, Goethe-Universität Frankfurt am Main)
Wikidition: Automatic Lexiconization and Linkification of Text Corpora

This talk introduces a new text technology, called Wikidition, which automatically generates large scale editions of corpora of natural language texts. Wikidition combines a wide range of text mining tools for automatically linking lexical, sentential and textual units. This includes the extraction of corpus-specific lexica down to the level of syntactic words and their grammatical categories. To this end, we introduce a novel measure of text reuse and exemplify Wikidition by means of the capitularies, that is, a corpus of Medieval Latin texts.

Prof. Dr. Anissava Miltenova
(Institute for Literature, Bulgarian Academy of Sciences)
Rethinking Old Church Slavonic Digital Library by Ontologies: the Scripta Bulgarica Project

The aim of the Scripta Bulgarica project is to make a collection of digitized materials concerning the Old Church Slavonic written heritage easily accessible and applicable in research and educational programs (for bachelor’s, master’s and PhD students, for teachers and lecturers, for research teams in the field of cultural studies and education). This aim is accomplished by designing and building up an internet aggregator the architecture of which will unify a system of electronic libraries and resources for an effective, efficacious and user-friendly knowledge exchange in the field of the medieval studies. A core scenario for detailed specifications of the architecture is its ontology of terms. The hub of the system is the storage for metadata describing all possible resources. The metadata and the resources in this storage will be extracted from extant sources: the Repertorium of Old Bulgarian Literature and Letters, the electronic edition of the Codex Suprasliensis, electronic libraries collecting written heritage, and other appropriate resources. Another aim of the project is creation of a model for interactive communication in order to allow users to add their own resources and to create their own metadata on certain resources.

Dr. Susanne Mocken
(Rechenzentrum der Albert-Ludwigs-Universität Freiburg)
Wie unifiziert man Diversität?
Über die Erstellung eines digitalen kirchenslavisch-griechischen Meta-Glossars


Eines der Ziele des BMBF-geförderten Projekts SlaVaComp ist es, 17 kirchenslavisch-griechische bzw. griechisch-kirchslavische Glossare in einer Datenbank zusammenzufassen und als Meta-Glossar in Form einer Webanwendung der Öffentlichkeit zur Verfügung zu stellen. Obwohl das Material bereits digital vorliegt und man beim Entwurf der zukünftigen Dokumentstruktur auf den Standard der Text Encoding Initiative (TEI) zurückgreifen kann, ist der Weg von der digitalen Vorlage für das gedruckte Glossar bis zur interaktiven Datenbankanwendung weit. Die strukturelle Heterogenität der einzelnen Glossare sowie deren graphische und lexikalische Variabilität werfen etliche philologische sowie technische Fragen auf, die im Rahmen des Vortrags diskutiert werden sollen.

Prof. Dr. Aleksandr Moldovan
(Institut für russische Sprache der Russischen Akademie der Wissenschaften zu Moskau)
Dokumentation linguistischer Quellen

Bei der Dokumentation linguistischer Quellen geht es darum, die in den Texten enthaltenen sprachlichen Informationen aufzuzeigen, festzuhalten und für die weitere Verwendung in geeigneter Weise aufzubereiten. Die gegenwärtig stattfindende Dokumentation der slavischen Textüberlieferung erfolgt unter Einsatz korpuslinguistischer Methoden. Damit standardisierte Programme für deren Bearbeitung und Suche entstehen können, müssen alle Texte im digitalen Format vorliegen. Texte, die in modernen slavischen Sprachen verfasst wurden, liegen bereits digital vor. Die linguistische Darstellung altslavischer Texte unterscheidet sich von der Dokumentation zeitgenössischer Texte jedoch durch folgende spezifische Eigenschaften: die linguistische Relevanz der graphisch-orthographisch Besonderheiten des jeweiligen Textes, regionale und diachrone Varianten in Orthographie und Sprache, die Gleichheit und Verschiedenheit des Textes in seinen Abschriften, usw.. Die automatische Erkennung grammatikalischer Wortformen, wie sie für die Analyse eines modernen Texts bereits recht einfach durchzuführen ist, bedeutet für altslavische Quellen die Verkettung zahlreicher linguistischer Aufgaben und ist aktuell nicht zufriedenstellend durchführbar. Am erfolgreichsten ist die grammatische Auszeichnung der Wortformen in altslavischen Texten bei der Verwendung eines halbautomatischen Systems, das mustergültige Vorschläge für die manuelle Weiterverarbeitung anbietet. Ein weiteres Problemfeld stellt die metatextliche Auszeichnung der schriftlichen Denkmäler dar, vor allem, was deren Datierung und taxonomische Charakterisierung angeht. Die Taxonomie der altrussischen Texte ist bislang kaum untersucht worden. Der terminologische Apparat für die Bezeichnungen der Textgattungen bzw. Textsorten ist nicht einheitlich, obwohl der Texttyp für die Einordnung eines bestimmten Textes in die festgelegte sprachliche Tradition von Relevanz ist. Viel plausibler wäre es daher, die Texte des altrussischen Korpus nicht nach Gattungen, sondern nach funktionalen Ebenen zu klassifizieren. Gerade das funktionale Kriterium wird wahrscheinlich auch zukünftig die sprachlichen Parameter vorgeben, welche maßgeblich für bestimmte Texttypen in unterschiedlichen Epochen sind.

Prof. Dr. Achim Rabus
(Slavistische Sprachwissenschaft, Friedrich-Schiller-Universität Jena)
Multiple Use of Data and Code: Current Developments in Slavic Corpus Linguistics

The paper is devoted to recent Slavic corpus-linguistic projects the author is (or has been) involved in, both syn- and diachronic. Using the example of the VMČ Corpus and the Corpus of Spoken Rusyn, ways of efficiently preparing or recycling one’s linguistic data for digital (re-)use are demonstrated. Furthermore, a powerful, free corpus manager and an easily expandable and modifiable open-source graphical user interface are presented. Finally, the capabilities of the corpora are shown by searching for selected linguistic features.

Prof. Dr. Lora Taseva
(Paläoslavistik, Institut für Balkanistik, Bulgarische Akademie der Wissenschaften, Sofia)
Mehrfachübersetzungen als Forschungsobjekt der philologischen Mediävistik und Herausforderung für die Computerlinguistik

Mit Mehrfachübersetzungen aus dem Griechischen als spezifischem Phänomen des slavischen Mittelalters beschäftigen sich Paläoslavisten schon seit langer Zeit, jedoch ist ihr Forschungspotenzial noch lange nicht ausgeschöpft. Im Vortrag werden die methodologischen Vorzüge der vergleichenden Untersuchung verschiedener Übersetzungen ein- und desselben byzantinischen Textes dargestellt, um die Grundprinzipien und die Technik der Übersetzung darzustellen. Der Schwerpunkt liegt dabei auf der Lexik sowie auf der Wortbildung. Auf der Grundlage einer nach traditionellen Verfahren erstellten Konkordanz dreier selbständiger Übersetzungen (Synaxarien zum Triodion und Pentekostarion von Nikephoros Kallistos Xanthopoulos) werden einige Möglichkeiten für einen weiteren Erkenntnisgewinn aufgezeigt, die solche Datensammlungen eröffnen ― sowohl durch die Konkordanzen selbst, als auch im Zusammenspiel mit vorhandenen Wortindices anderer übersetzter Denkmäler. Ziel ist es, die Aufmerksamkeit der Computerlinguistik auf dieses bisher unbearbeitete Gebiet der zweisprachigen textgebundenen Lexikographie zu lenken.

Prof. (em.) Dr. Manfred Thaller
(Historisch-kulturwissenschaftliche Informationsverarbeitung, Universität zu Köln)
Digital Humanities, Big Data und die «kleinen» Philologien

Die Anwendung moderner Informationstechnologien, zur Zeit gerne unter dem Modebegriff der ‘Digital Humanities’ subsummiert, entwickelt sich derzeit in viele Richtungen. Eine der sichtbarsten ist die zunehmende Anwendung dieser Technologien auf die Philologien, insbesondere auch auf eher den Literatur- als den Sprachwissenschaften zuzuordnende Fragestellungen und Interessen. Selbstverständlich sind dabei viele Projekte der Germanistik oder ähnlicher «Großphilologien» zu nennen. Was zunächst plausibel scheint, ist eines der aktuellsten Schlagworte ja das der «Big Data» – und die bloße Vorstellung eine Analyse­mög­lich­keit auf die gesamte Überlieferung einer Sprache anzuwenden, rechtfertigt das Attribut «groß» auf alle Fälle. Wichtiger für die Struktur der Forschung insgesamt ist aber, dass durch diese Techniken Möglichkeiten auch für die «kleineren» Philologien zugänglich werden, die denen der «großen» nicht nachstehen, ungleich den bisher sehr unterschiedlich entwickelten klassischen Infrastrukturen der einzelnen Fächer. Wobei die «Größe» der Fächer natürlich die Intensität ihrer institutionellen Verankerung beschreibt, keineswegs ihrer oder der untersuchten Sprachen Bedeutung: Die Vorstellung der Analyse der gesamten Überlieferung einer an den deutschen Universitäten «klein» institutionalisierten Sprache macht dies deutlich. Was auch dadurch nicht geändert wird, dass nicht jede Überlieferung auf Textbestände von Millionen Seiten zugreifen kann – dass die beschriebenen Trends gerne im Zusammenhang mit den Sprachen der klassischen Antike diskutiert werden, ist erhellend. Diese Entwicklungen ermöglichen eine größere Sichtbarkeit der weniger stark institutionell verankerten Fächer nach außen und erweitern ihre didaktischen Möglichkeiten. Das darf aber nicht darüber hinwegtäuschen, dass die Rechtfertigung der digitalen Methoden in ihrem analytischen Nutzwert für die Forschung liegt – und keinesfalls nur in der Vermittlung derer Ergebnisse.