Hornjoserbski tekstowy korpus

Alternatiwne přistupy a wuwiće korpusoweho pytanja

Z techniskej podpěru Ústava Českého národního korpusa Praskeje Karloweje uniwersity pod titlom HOTKO wozjewjenu zběrku tekstow namakaće na stronje www.korpus.cz.

Delnjoserbski tekstowy korpus je na dolnoserbski.de přistupny.

Etapy wuwića korpusoweho pytanja

2025-10-20
  • Aktualizacija zakładneje korpusoweje software „IMS Open Corpus Workbench“ (CWB) na wersiju 3.5 a z tym na dospołne zmóžnjenje UTF-8 („multibyte-safe“).
    Rozłoženje
    • Dotal wužiwana wersija CWB 3.0 je dopušćała korpusowe daty, kiž su kodowane po standardźe UTF-8, je je wšak we formaće 8859-1 (Latin-1) składowała.
    • Potajkim je so kóžde znamješko, kotrež w kodowanju UTF-8 wobsteji z wjace bytow, składowało hač zestajane z wjacorych dźělnych znamješkow.
    • Tute wašnje składowanja wjedźeše k njewočakowanemu zadźerženju we wěstych pytanskich scenarijach z regularnymi wurazami abo z přetworjenjom wulko- a małopisanjom, hdyž běchu potrjechene hornje znamješka.
    • Pytanje z regularnym wurazom witaj.e njemóžeše namakać „witajće“, pytanje witaj..e je to wšak móhło. Tež pytanje z rjadownjemi znamješkow ([cčć]) je dysfunkcionelne wuslědki přinjesło.
    • Runje tak njeje pytanje łužica móhło namakać „Łužica“.
    • Wšitke naprašowanja měli nětko prawje fungować.
  • Pytanska syntaksa je nětk standardnje nastajena na „Regularny wuraz“ město nastajenja na „Komfortne pytanje“.
  • Interpunkciske tokeny we wuslědkach so nětko ignoruja, hdyž je pytanska syntaksa nastajena na „Komfortne pytanje“ abo „Regularny wuraz“.
    Rozłoženje
    • Pytanje za tón kiž namaka něnto jako wuslědki z „tón kiž“, tak tež z „tón, kiž“.
    • Dotal dyrbjachu interpunkciske znamješka eksplicitnje podate być. Za to bě trěbne naprašowanje tón , kiž, štož je nětko tež hišće móžno.
    • Naprašowanje tón, kiž njeje přinjesło a dale njepřinošuje žane wuslědki.
2024-10-08
Wozjewjenje přez menijowe zapřijeće noweho hornjoserbskeho pytanja ze slědowacymi dźělnymi korpusami:
2024-09-30
Přidawa so nowa, z čitanskim přistupom paralelizowana wersija dźělneho korpusa Zhromadźene spisy Handrija Zejlerja. Wužiwanje tłóčatka pola wuslědkow pytanja wjedźe nětko ke korektnemu tekstowemu městnu.
2024-09-25
Dźělny korpus Najnowše hornjoserbske pismowstwo z lět 2019–2021 so přidawa.
2023-12-13
Zhromadźene spisy Handrija Zejlerja so přidawaja jako dalši dźělny korpus.
2023-11-07
Hornjoserbski referencny korpus dźe online jako prěni dźělny korpus noweho hornjoserbskeho korpusowego pytanja.