Alternative Zugänge und Entwicklung der Korpussuche

Die mit technischer Unterstützung des Instituts für das Tschechische Nationalkorpus der Prager Karls-Universität unter dem Namen HOTKO veröffentlichte Textsammlung finden Sie auf der Seite www.korpus.cz.

Zugang zum niedersorbischen Textkorpus erhalten Sie auf niedersorbisch.de.

Entwicklung der Korpussuche

2026-04-13

Das Teilkorpus Vier Jahrzehnte Nowa doba und Serbske Nowiny wird hinzugefügt.

2025-10-20

Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
Erläuterung
- Die bisherige verwendete CWB-Version 3.0 hat zwar UTF-8-kodierte Korpusdaten zugelassen, diese aber intern als ISO 8859-1 (Latin-1) kodiert abgelegt.
- Somit wurde jedes Zeichen, das in der UTF-8-Kodierung aus mehr als einem Byte besteht, als mehrere Teilzeichen abgespeichert.
- Diese Form der Speicherung führte in bestimmten Suchszenarien zu unerwartetem Verhalten bei manchen regulären Ausdrücken oder bei der Konvertierung von Groß- und Kleinschreibung, sobald obige Zeichen betroffen waren.
- So konnte eine Anfrage mit regulären Ausdrücken wie witaj.e nicht „witajće“ finden, die Anfrage witaj..e konnte das jedoch. Auch Anfragen mit Zeichenklassen ([cčć]) brachten disfunktionale Ergebnisse hervor.
- Ebenso konnte eine Anfrage wie łužica nicht „Łužica“ finden.
- Alle Anfragen sollten nunmehr wie erwartet funktionieren.
Die Anfragesyntax ist jetzt standardmäßig auf „Regulärer Ausdruck“ statt auf „Komfortsuche“ gestellt.
Interpunktionstokens werden in den Ergebnissen der Anfragesyntaxen „Komfortsuche“ und „Regulärer Ausdruck“ jetzt ignoriert.
Erläuterung
- Eine Suche nach tón kiž findet somit jetzt sowohl Ergebnisse wie „tón kiž“ als auch „tón, kiž“.
- Bisher mussten Satzzeichen explizit angegeben werden. Dafür war eine Anfrage wie tón , kiž nötig. Diese ist auch jetzt noch möglich.
- Die Anfrage tón, kiž brachte und bringt weiterhin keinerlei Ergebnisse hervor.

2024-10-08

Veröffentlichung durch Menü-Einbindung der neuen obersorbischen Korpussuche mit folgenden Teilkorpora:

Neuestes obersorbisches Schrifttum mit drei Subkorpora für die Jahre 2019 bis 2021
Gesammelte Werke Handrij Zejlers
Obersorbisches Referenzkorpus

2024-09-30

Eine neue, mit dem Lesezugang parallelisierte Version des Teilkorpus Gesammelte Werke Handrij Zejlers wird hinzugefügt. Die Benutzung der Schaltfläche bei den Suchergebnissen führt jetzt zur korrekten Textstelle.

2024-09-25

Das Teilkorpus Neuestes obersorbisches Schrifttum aus den Jahren 2019–2021 wird hinzugefügt.

2023-12-13

Gesammelte Werke Handrij Zejlers werden als weiteres Teilkorpus hinzugefügt.

2023-11-07

Das Obersorbisches Referenzkorpus geht als erstes Teilkorpus der neuen obersorbischen Korpussuche online.