Hinweise zur Expertensuche
Die für die Komfortsuche vorbereiteten Texte wurden mithilfe der IMS Open Corpus Workbench (CWB) indiziert und durchsuchbar gemacht. Wird innerhalb der Sucheinstellungen die Expertensuche aktiviert, können daher auch CQL-Suchausdrücke und reguläre Ausdrücke verwendet werden. Folgende Token-Attribute wurden verwendet:
word
- Tokenform, wie sie im Text vorkommt.
lemma
- Lemmatisierte Form des Tokens. Bei Abkürzungen, Zahlen und Sonderzeichen ist diese Form identisch mit dem
word
-Attribut. Für Interpunktionstokens ist daslemma
-Attribut nicht definiert. Die lemmatisierte Form ist durchgängig in Großbuchstaben erfasst und im Allgemeinen nicht disambiguiert, es werden alle potenziellen Homonyme mit|
getrennt aufgezählt. norm
- Die in gegenwärtige Rechtschreibung übersetzte (normalisierte) Form des Tokens. Für Zahlen, Sonderzeichen und Interpunktionstokens ist das
norm
-Attribut nicht definiert. Die normalisierte Form ist im Allgemeinen nicht disambiguiert, es werden alle potenziellen Homonyme mit|
getrennt aufgezählt. name
- Eigenname.
- Mögliche Werte sind
;,;1;,;
für Appellativa und;,;0;,;
für Propria (die konkreten Formen sind technisch bedingt). toktype
- Tokentyp.
- Mögliche Werte sind
;,;w;,;
für ein Worttoken und;,;pc;,;
für ein Interpunktionstoken (die konkreten Formen sind technisch bedingt). type
- Weitere Tokentypinformation.
- Mögliche Werte sind
number
für Zahlen undsymbol
für Sonderzeichen, sonst nicht definiert. foreign
- Nichtniedersorbisches Wort.
- Mögliche Werte sind
;,;0;,;
für ein niedersorbisches Wort und;,;1;,;
für ein nichtniedersorbisches Wort (die konkreten Formen sind technisch bedingt).