Informacije wo hornjoserbskim tekstowym korpusu
Hornjoserbski tekstowy korpus je zběrka hornjoserbskich tekstow za korpusowe rešerše, wón ma w prěnim rjedźe słužić za linguistiske přepytowanja, móže pak tež za stawiznarjow, wjesnych chronistow a druhich zajimcow wužitny być.
Hornjoserbski tekstowy korpus wobsahuje publicistiske, beletristiske, nabožne a wědomostne teksty něhdźe wot połojcy 19. lětstotka hač do přitomnosće, zapřijaty je tež rjad słownikow. Wón ma tuchwilu někak 44 milionow tokenow (běžnych słownych formow). Digitalna zběrka tekstow je nastała w zhromadnym dźěle rěčespytneho wotrjada Serbskeho instituta a Serbskeje centralneje biblioteki. Najwjetši podźěl matej w hornjoserbskim tekstowym korpusu publicistika (57 %) a beletristika (23 %). Wjac hač połojca tekstow pochadźa z najmłódšeho časa po politiskim přewróće 1989/1990 (54 %). Dźakowano zrěčenju z Ludowym nakładnistwom Domowina a Rěčnym centrumom WITAJ smy móhli wobšěrnu zběrku aktualnych tekstow za rešeršowanje spřistupnić. Při wužiwanju korpusa maja so tuž awtorske prawa wobkedźbować.
Dźěl tekstow předleži w historiskim prawopisu (hlej prawopisne warianty ). To potrjechi w zasadźe poměrnje mały dźěl tekstow z 19. lětstotka, pisanje kh za dźensniše ch na spočatku morfemow a mjechke ŕ pak namakatej so tež hišće w tekstach nastatych do lěta 1945. Teksty su so z wulkeho dźěla z programami za OCR začitali a njejsu falowaceho personala dla dokorigowane, tohodla dyrbi so zdźěla ze zmylkami ličić. W Hornjoserbskim tekstowym korpusu móže so z pomocu regularnych wurazow pytać.