Um einen verwendbaren lokalen Thesaurus für das Projekt herzustellen, wurden unterschiedliche Gazetteers mit verschiedenen Raumdimensionen und unterschiedlicher Namen/Ortsdichte zusammengeführt.
A Gazetteer is a reference work that lists the towns and communities of a larger or smaller region.
wikipedia
Die Daten stammen einerseits aus dem Bundesamt für Eich- und Vermessungswesen, aus den Karten des Alpenvereins, dem Projekt Flurnamendokumentation Tirol und aus frei zugänglichen Internetquellen wie GeoNames, Wikidata und OpenStreetMap (OSM). Jede dieser Quellen verwendet eine eigene Klassentypologie (z.B. Bergname, Flussname, Siedlungsname, etc.), von nur 19 Kategorien (AV-Karten) bis zu über 1700 Kategorien (OSM). Um die Thesauri vergleichbar zu machen, ist es daher notwendig, eine konsolidierte, übergeordnete Hierarchie zu schaffen (Unified Features Class Thesaurus). Um relevante Klassen aus den Thesauri zu identifizieren, wurden die ontologischen Kriterien des CIDOC-CRM und seiner Erweiterung CRMgeo verwendet. Darüber hinaus wurden die am höchsten aufgelisteten Kategorien des DARIAH Backbone Thesaurus aufgenommen.
So wurden alle diese Amtsblätter in einem großen Amtsblatt zusammengefasst und ein Thesaurus der Seitentypen erstellt. Er enthält 3,57 Millionen Ortsnamen aus 6 Quellen mit alternativen Namen sowie Ortsnamen-Duplikate für Fälle, in denen verschiedene Quellen die gleichen Orte erwähnen. Für Ortsnamen außerhalb Österreichs wurden vorerst nur die Namen spezifischer Ortstypen integriert (vor allem wegen teilweise schwer zugänglicher Daten). Es ist geplant, in Zukunft weitere Ortsverzeichnisse zu integrieren, um Orte ausserhalb Österreichs zuverlässig verbinden zu können.
Der fusionierte Gazetteer wurde zunächst zur manuellen Identifizierung der sogenannten Goldstandard-Artikel und später zur automatischen Namenserkennung und -verknüpfung (NER und NEL) verwendet.