Obersorbisches Textkorpus

Alternative Zugänge und Entwicklung der Korpussuche

Die mit technischer Unterstützung des Instituts für das Tschechische Nationalkorpus der Prager Karls-Universität unter dem Namen HOTKO veröffentlichte Textsammlung finden Sie auf der Seite www.korpus.cz.

Zugang zum niedersorbischen Textkorpus erhalten Sie auf niedersorbisch.de.

Entwicklung der Korpussuche

2025-10-20
  • Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
    Erläuterung
    • Die bisherige verwendete CWB-Version 3.0 hat zwar UTF-8-kodierte Korpusdaten zugelassen, diese aber intern als ISO 8859-1 (Latin-1) kodiert abgelegt.
    • Somit wurde jedes Zeichen, das in der UTF-8-Kodierung aus mehr als einem Byte besteht, als mehrere Teilzeichen abgespeichert.
    • Diese Form der Speicherung führte in bestimmten Suchszenarien zu unerwartetem Verhalten bei manchen regulären Ausdrücken oder bei der Konvertierung von Groß- und Kleinschreibung, sobald obige Zeichen betroffen waren.
    • So konnte eine Anfrage mit regulären Ausdrücken wie witaj.e nicht „witajće“ finden, die Anfrage witaj..e konnte das jedoch. Auch Anfragen mit Zeichenklassen ([cčć]) brachten disfunktionale Ergebnisse hervor.
    • Ebenso konnte eine Anfrage wie łužica nicht „Łužica“ finden.
    • Alle Anfragen sollten nunmehr wie erwartet funktionieren.
  • Die Anfragesyntax ist jetzt standardmäßig auf „Regulärer Ausdruck“ statt auf „Komfortsuche“ gestellt.
  • Interpunktionstokens werden in den Ergebnissen der Anfragesyntaxen „Komfortsuche“ und „Regulärer Ausdruck“ jetzt ignoriert.
    Erläuterung
    • Eine Suche nach tón kiž findet somit jetzt sowohl Ergebnisse wie „tón kiž“ als auch „tón, kiž“.
    • Bisher mussten Satzzeichen explizit angegeben werden. Dafür war eine Anfrage wie tón , kiž nötig. Diese ist auch jetzt noch möglich.
    • Die Anfrage tón, kiž brachte und bringt weiterhin keinerlei Ergebnisse hervor.
2024-10-08
Veröffentlichung durch Menü-Einbindung der neuen obersorbischen Korpussuche mit folgenden Teilkorpora:
2024-09-30
Eine neue, mit dem Lesezugang parallelisierte Version des Teilkorpus Gesammelte Werke Handrij Zejlers wird hinzugefügt. Die Benutzung der Schaltfläche bei den Suchergebnissen führt jetzt zur korrekten Textstelle.
2024-09-25
Das Teilkorpus Neuestes obersorbisches Schrifttum aus den Jahren 2019–2021 wird hinzugefügt.
2023-12-13
Gesammelte Werke Handrij Zejlers werden als weiteres Teilkorpus hinzugefügt.
2023-11-07
Das Obersorbisches Referenzkorpus geht als erstes Teilkorpus der neuen obersorbischen Korpussuche online.