In einem ersten Versuch der automatisierten Annotation von Namen wurden die Tokens eines Artikels mit exact string matching gegen den Gazetteer verglichen, mit einigen Variationen für Deklinationen. Das Resultat ist eine große Menge potentieller Namenkandidaten.

NER/NEL with exact string matching

Um die zahlreichen false positives zu reduzieren unterscheiden wir zwischen globalem und lokalem Kontext. Wir gehen hier davon aus, dass der überwiegende Teil der Artikel im Alpenwortkorpus sich hauptsächlich mit einem sehr spezifischen geographischen Gebiet (Kernregion, core region) beschäftigt. Innerhalb eines solchen Gebiets werden v.a. Namen, die eine gewisse lokale Wichtigkeit haben verwendet. Namen ohne solch einer lokalen Signifikanz müssen entweder globale Wichtigkeit haben oder von anderen Namen mit globaler Wichtigkeit umgeben sein, um einen passenden Kontext herstellen zu können.

Für den globalen Kontext wurde zuerst eine Liste der Namen, die homonym zu Appellativa sind erstellt. Diese Wörter wurden halbautomatisch aus dem matching Prozess ausgeschlossen. Um diese gewöhnlichen Wörter auszuscheiden wurden ein Frequenzindikator aus dem Korpus und den Artikeln verwendet. Der Indikator verwendet einen TF-IDF (Term Frequency Inverse Document Frequency) Ansatz. Zusatzlich wurden nur ganz bestimmte Orts-Kategorien (Berge, Dörfer, administirative Einheiten, Flüsse, Seen, Berghütten, Gletscher) des Unified Feature Class Thesaurus verwendet, um das globale Matching durchzuführen. Somit erhielten wir eine reduzierte Kandidatenliste aus dem globalen Matching.

reduzierte Kandidatenliste

Durch diesen Prozess war es möglich einen Recall von 41,70% (niedriger Recall durch die oben erwähnten Reduktionen) und eine Precision von 65,66% zu erreichen.

Die verbliebenen Kandidaten wurden mittels spatial densitiy Funktionen Kernregionen zugewiesen. Innerhalb der Kernregionen wurden nun wiederum string matching Funktionen durchgeführt (e.g. Trigramme, Cosine distance) und Distanzmaße angewendet, um Kandidaten einzurschränken. Dies erhöht den Recall drastisch, jedoch sinkt die Precision ebenso drastisch.