{"id":363,"date":"2020-02-27T10:23:34","date_gmt":"2020-02-27T10:23:34","guid":{"rendered":"http:\/\/www.semanticmountain.at\/?page_id=363"},"modified":"2020-03-11T09:26:17","modified_gmt":"2020-03-11T09:26:17","slug":"ner-nel","status":"publish","type":"page","link":"https:\/\/www.semanticmountain.at\/en\/ner-nel\/","title":{"rendered":"NER + NEL (named entity recognition and linking)"},"content":{"rendered":"\n<p>In einem ersten Versuch der automatisierten Annotation von Namen wurden die Tokens eines Artikels mit exact string matching gegen den Gazetteer verglichen, mit einigen Variationen f\u00fcr Deklinationen. Das Resultat ist eine gro\u00dfe Menge potentieller Namenkandidaten. <\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" width=\"1024\" height=\"473\" src=\"http:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb4-1024x473.png\" alt=\"\" class=\"wp-image-364\" srcset=\"https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb4-1024x473.png 1024w, https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb4-300x139.png 300w, https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb4-768x355.png 768w, https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb4.png 1534w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption>NER\/NEL with exact string matching<\/figcaption><\/figure>\n\n\n\n<p>Um die zahlreichen <em>false positives<\/em> zu reduzieren unterscheiden wir zwischen globalem und lokalem Kontext. Wir gehen hier davon aus, dass der \u00fcberwiegende Teil der Artikel im Alpenwortkorpus sich haupts\u00e4chlich mit einem sehr spezifischen geographischen Gebiet (Kernregion, core region) besch\u00e4ftigt. Innerhalb eines solchen Gebiets werden v.a. Namen, die eine gewisse lokale Wichtigkeit haben verwendet. Namen ohne solch einer lokalen Signifikanz m\u00fcssen entweder globale Wichtigkeit haben oder von anderen Namen mit globaler Wichtigkeit umgeben sein, um einen passenden Kontext herstellen zu k\u00f6nnen. <\/p>\n\n\n\n<p>F\u00fcr den globalen Kontext wurde zuerst eine Liste der Namen, die homonym zu Appellativa sind erstellt. Diese W\u00f6rter wurden halbautomatisch aus dem matching Prozess ausgeschlossen. Um diese gew\u00f6hnlichen W\u00f6rter auszuscheiden wurden ein Frequenzindikator aus dem Korpus und den Artikeln verwendet. Der Indikator verwendet einen TF-IDF (Term Frequency Inverse Document Frequency) Ansatz. Zusatzlich wurden nur ganz bestimmte Orts-Kategorien (Berge, D\u00f6rfer, administirative Einheiten, Fl\u00fcsse, Seen, Bergh\u00fctten, Gletscher) des <a href=\"http:\/\/www.semanticmountain.at\/gazetteers\/\">Unified Feature Class Thesaurus <\/a>verwendet, um das globale Matching durchzuf\u00fchren. Somit erhielten wir eine reduzierte Kandidatenliste aus dem globalen Matching.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" width=\"1024\" height=\"473\" src=\"http:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb5-1024x473.png\" alt=\"\" class=\"wp-image-365\" srcset=\"https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb5-1024x473.png 1024w, https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb5-300x139.png 300w, https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb5-768x355.png 768w, https:\/\/www.semanticmountain.at\/wp-content\/uploads\/2020\/02\/abb5.png 1534w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption>reduzierte Kandidatenliste<\/figcaption><\/figure>\n\n\n\n<p>Durch diesen Prozess war es m\u00f6glich einen Recall von 41,70% (niedriger Recall durch die oben erw\u00e4hnten Reduktionen) und eine Precision von 65,66% zu erreichen. <\/p>\n\n\n\n<p>Die verbliebenen Kandidaten wurden mittels <em>spatial densitiy<\/em> Funktionen Kernregionen zugewiesen. Innerhalb der Kernregionen wurden nun wiederum string matching Funktionen durchgef\u00fchrt (e.g. Trigramme, Cosine distance) und Distanzma\u00dfe angewendet, um Kandidaten einzurschr\u00e4nken. Dies erh\u00f6ht den <em>Recall <\/em>drastisch, jedoch sinkt die <em>Precision <\/em>ebenso drastisch. <\/p>\n\n\n\n<h2><\/h2>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>In einem ersten Versuch der automatisierten Annotation von Namen wurden die Tokens eines Artikels mit exact string matching gegen den Gazetteer verglichen, mit einigen Variationen f\u00fcr Deklinationen. Das Resultat ist eine gro\u00dfe Menge potentieller Namenkandidaten. Um die zahlreichen false positives zu reduzieren unterscheiden wir zwischen globalem und lokalem Kontext. Wir gehen hier davon aus, dass [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":[],"translation":{"provider":"WPGlobus","version":"3.0.0","language":"en","enabled_languages":["de","en"],"languages":{"de":{"title":true,"content":true,"excerpt":false},"en":{"title":false,"content":false,"excerpt":false}}},"_links":{"self":[{"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/pages\/363"}],"collection":[{"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/comments?post=363"}],"version-history":[{"count":5,"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/pages\/363\/revisions"}],"predecessor-version":[{"id":585,"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/pages\/363\/revisions\/585"}],"wp:attachment":[{"href":"https:\/\/www.semanticmountain.at\/en\/wp-json\/wp\/v2\/media?parent=363"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}