Alternatiwne přistupy a wuwiće korpusoweho pytanja
Z techniskej podpěru Ústava Českého národního korpusa Praskeje Karloweje uniwersity pod titlom HOTKO wozjewjenu zběrku tekstow namakaće na stronje www.korpus.cz.
Delnjoserbski tekstowy korpus je na dolnoserbski.de přistupny.
Etapy wuwića korpusoweho pytanja
- 2025-10-20
-
-
Aktualizacija zakładneje korpusoweje software „IMS Open Corpus Workbench“ (CWB) na wersiju 3.5 a z tym na dospołne zmóžnjenje UTF-8 („multibyte-safe“).
Rozłoženje
- Dotal wužiwana wersija CWB 3.0 je dopušćała korpusowe daty, kiž su kodowane po standardźe UTF-8, je je wšak we formaće 8859-1 (Latin-1) składowała.
- Potajkim je so kóžde znamješko, kotrež w kodowanju UTF-8 wobsteji z wjace bytow, składowało hač zestajane z wjacorych dźělnych znamješkow.
- Tute wašnje składowanja wjedźeše k njewočakowanemu zadźerženju we wěstych pytanskich scenarijach z regularnymi wurazami abo z přetworjenjom wulko- a małopisanjom, hdyž běchu potrjechene hornje znamješka.
-
Pytanje z regularnym wurazom
witaj.enjemóžeše namakać „witajće“, pytanjewitaj..eje to wšak móhło. Tež pytanje z rjadownjemi znamješkow ([cčć]) je dysfunkcionelne wuslědki přinjesło. -
Runje tak njeje pytanje
łužicamóhło namakać „Łužica“. - Wšitke naprašowanja měli nětko prawje fungować.
- Pytanska syntaksa je nětk standardnje nastajena na „Regularny wuraz“ město nastajenja na „Komfortne pytanje“.
-
Interpunkciske tokeny we wuslědkach so nětko ignoruja, hdyž je pytanska syntaksa nastajena na „Komfortne pytanje“ abo „Regularny wuraz“.
Rozłoženje
-
Pytanje za
tón kižnamaka něnto jako wuslědki z „tón kiž“, tak tež z „tón, kiž“. -
Dotal dyrbjachu interpunkciske znamješka eksplicitnje podate być. Za to bě trěbne naprašowanje
tón , kiž, štož je nětko tež hišće móžno. -
Naprašowanje
tón, kižnjeje přinjesło a dale njepřinošuje žane wuslědki.
-
Pytanje za
-
Aktualizacija zakładneje korpusoweje software „IMS Open Corpus Workbench“ (CWB) na wersiju 3.5 a z tym na dospołne zmóžnjenje UTF-8 („multibyte-safe“).
- 2024-10-08
-
Wozjewjenje přez menijowe zapřijeće noweho hornjoserbskeho pytanja ze slědowacymi dźělnymi korpusami:
- Najnowše hornjoserbske pismowstwo z třomi subkorpusami za lěta 2019 hač 2021
- Zhromadźene spisy Handrija Zejlerja
- Hornjoserbski referencny korpus
- 2024-09-30
- Přidawa so nowa, z čitanskim přistupom paralelizowana wersija dźělneho korpusa Zhromadźene spisy Handrija Zejlerja. Wužiwanje tłóčatka pola wuslědkow pytanja wjedźe nětko ke korektnemu tekstowemu městnu.
- 2024-09-25
- Dźělny korpus Najnowše hornjoserbske pismowstwo z lět 2019–2021 so přidawa.
- 2023-12-13
- Zhromadźene spisy Handrija Zejlerja so přidawaja jako dalši dźělny korpus.
- 2023-11-07
- Hornjoserbski referencny korpus dźe online jako prěni dźělny korpus noweho hornjoserbskeho korpusowego pytanja.