DFG Parallel Texs
Algorithmic corpus-based approaches to typological comparison
DFG Project (2011-2014) in cooperation with Prof. Dr. Uwe Quasthoff (University of Leipzig)
There is an extensive body of research available that uses corpora to investigate the structure of individual languages. However, there are not many studies on quantitative, corpus-based investigations of a world-wide typological nature. This project will develop quantitative corpus-based methods for large-scale linguistic comparison. To reach this goal, we propose that it suffices to obtain a good approximation of the structure of each individual language using the same algorithmic procedures for all languages alike. The goals of this project are threefold. First, we will prepare corpora of lesser-studied languages for typological comparisons. Because of the limited amount of research on these languages, these corpora will mainly be unannotated corpora. To be able to investigate unannotated corpora, we will also prepare a smaller amount of parallel corpora as a starting point for the automatic analysis. Second, this project will use existing algorithms and develop new algorithms to add (approximate) linguistic annotations and extract relevant statistics from the corpora, allowing for the automatic assessment of typological parameters. Finally, the main intrinsic goal of this project is to investigate how much linguistic knowledge of a language is needed to establish a particular typological parameter.
Deutsche Zusammenfassung
Es gibt eine Vielzahl von Forschungsarbeiten, in denen linguistische Korpora verwendet werden, um die Strukturen einzelner Sprachen zu untersuchen; dagegen gibt es nur sehr wenige Studien, in denen linguistische Strukturen sprachübergreifend auf korpuslinguistischer Grundlage untersucht werden. Dieses Projekt widmet sich der Entwicklung quantitativer und korpusbasierter Methoden zur Analyse sprachlicher Strukturen aus typologischer bzw. sprachvergleichender Perspektive. Dabei gehen wir davon aus, dass sich eine gute Annäherung an die Strukturen einzelner Sprachen mit Hilfe von generellen algorithmischen Verfahren erreichen lässt. Die Ziele des Projekts lassen sich in drei Punkten zusammenfassen: Erstens werden wir Korpora zu wenig erforschten Sprachen mit computerlinguistischen Verfahren so weit aufarbeiten, dass sie für einen typologischen Sprachvergleich zur Verfügung stehen. Da die so aufgearbeiteten Korpora nicht annotiert sind, werden wir ergänzend mit parallelen Korpora arbeiten, die für uns einen Ausgangspunkt bilden, um die nicht-annotierten Korpora mit automatischen Verfahren zu untersuchen. Zweitens wird dieses Projekt bestehende Algorithmen benutzen und neue Algorithmen entwickeln, um die von uns erstellten Korpora zu annotieren und um einschlägige Statistiken für die automatische Bestimmung typologischer Parameter aus den Korpora zu extrahieren. Schließlich soll untersucht werden, wie viel sprachliches Wissen zu einzelnen Sprachen erforderlich ist, um einen typologischen Parameter zu bestimmen.