Alternative Zugänge und Entwicklung der Korpussuche
Die mit technischer Unterstützung des Instituts für das Tschechische Nationalkorpus der Prager Karls-Universität unter dem Namen HOTKO veröffentlichte Textsammlung finden Sie auf der Seite www.korpus.cz.
Zugang zum niedersorbischen Textkorpus erhalten Sie auf niedersorbisch.de.
Entwicklung der Korpussuche
- 2025-10-20
-
-
Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
Erläuterung
- Die bisherige verwendete CWB-Version 3.0 hat zwar UTF-8-kodierte Korpusdaten zugelassen, diese aber intern als ISO 8859-1 (Latin-1) kodiert abgelegt.
- Somit wurde jedes Zeichen, das in der UTF-8-Kodierung aus mehr als einem Byte besteht, als mehrere Teilzeichen abgespeichert.
- Diese Form der Speicherung führte in bestimmten Suchszenarien zu unerwartetem Verhalten bei manchen regulären Ausdrücken oder bei der Konvertierung von Groß- und Kleinschreibung, sobald obige Zeichen betroffen waren.
-
So konnte eine Anfrage mit regulären Ausdrücken wie
witaj.enicht „witajće“ finden, die Anfragewitaj..ekonnte das jedoch. Auch Anfragen mit Zeichenklassen ([cčć]) brachten disfunktionale Ergebnisse hervor. -
Ebenso konnte eine Anfrage wie
łužicanicht „Łužica“ finden. - Alle Anfragen sollten nunmehr wie erwartet funktionieren.
- Die Anfragesyntax ist jetzt standardmäßig auf „Regulärer Ausdruck“ statt auf „Komfortsuche“ gestellt.
-
Interpunktionstokens werden in den Ergebnissen der Anfragesyntaxen „Komfortsuche“ und „Regulärer Ausdruck“ jetzt ignoriert.
Erläuterung
-
Eine Suche nach
tón kižfindet somit jetzt sowohl Ergebnisse wie „tón kiž“ als auch „tón, kiž“. -
Bisher mussten Satzzeichen explizit angegeben werden. Dafür war eine Anfrage wie
tón , kižnötig. Diese ist auch jetzt noch möglich. -
Die Anfrage
tón, kižbrachte und bringt weiterhin keinerlei Ergebnisse hervor.
-
Eine Suche nach
-
Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
- 2024-10-08
-
Veröffentlichung durch Menü-Einbindung der neuen obersorbischen Korpussuche mit folgenden Teilkorpora:
- Neuestes obersorbisches Schrifttum mit drei Subkorpora für die Jahre 2019 bis 2021
- Gesammelte Werke Handrij Zejlers
- Obersorbisches Referenzkorpus
- 2024-09-30
- Eine neue, mit dem Lesezugang parallelisierte Version des Teilkorpus Gesammelte Werke Handrij Zejlers wird hinzugefügt. Die Benutzung der Schaltfläche bei den Suchergebnissen führt jetzt zur korrekten Textstelle.
- 2024-09-25
- Das Teilkorpus Neuestes obersorbisches Schrifttum aus den Jahren 2019–2021 wird hinzugefügt.
- 2023-12-13
- Gesammelte Werke Handrij Zejlers werden als weiteres Teilkorpus hinzugefügt.
- 2023-11-07
- Das Obersorbisches Referenzkorpus geht als erstes Teilkorpus der neuen obersorbischen Korpussuche online.