Ausbau der computerlesbaren Textkorpora der nieder- und obersorbischen Schriftsprache (BZ/CB) (einschließlich des Moduls „Referenzkorpora“, teilweise drittmittelfinanziert)

Der Aufbau umfangreicher und qualitativ hochwertiger digitaler Textkorpora für beide sorbische Schriftsprachen ist für sprachwissenschaftliche und darüber hinausgehende textbasierte Forschungen von grundlegender Bedeutung. Für das Niedersorbische gilt dies in besonderem Maße, da die Möglichkeit der Arbeit mit muttersprachlichen Informanten schon jetzt stark eingeschränkt ist. Auch im Hinblick auf das in Vorbereitung befindliche historisch-dokumentierende Wörterbuch des Niedersorbischen stellt das Korpus die wichtigste Grundlage dar. Der quantitative Ausbau des ns. Korpus konnte in den letzten Jahren durch drittmittelfinanzierte externe Textdigitalisierungen stark vorangetrieben werden. Mittelfristiges Ziel ist hier ein historisches Vollkorpus. Beide Korpora, das nieder- wie das obersorbische, bedürfen nicht nur des weiteren quantitativen Ausbaus, sondern vor allem auch einer kontinuierlichen qualitativen Aufwertung. Dies war bisher wegen Ressourcenmangels nur in äußerst begrenztem Maße möglich.
Seit Dezember 2010 konnte zunächst ein Großteil des niedersorbischen Korpus in Kooperation mit dem Institut für das Tschechische Nationalkorpus (ÚČNK) auch im Internet verfügbar gemacht werden. Es ist zusätzlich über das Portal niedersorbisch.de zugänglich. Im März 2013 wurde schließlich das obersorbische Korpus auf gleiche Weise über das Portal des ÚČNK öffentlich bereitgestellt.

Projektleitung: Fabian Kaulfürst
Projektbeteiligte: Marcin Szczepański, Thomas Menzel