Das Inhaltsverzeichnis der Bände der Zeitschrift des Alpenvereins stellt natürlich eine außerordentlich wichtige Quelle für die Named Entity Recognition (NER) und das Named Entity Linking (NEL) dar. Für das Projekt wurde ein Gesamtverzeichnis aller 3.426 im Korpus vorhandenen Artikel erstellt, welches zudem mit dem hervorragend verschlagworteten Verzeichnis der Alpinbücherei (Bibliothek des Alpenvereins, Klaus Oberhuber) abgeglichen und kombiniert wurde.

Die resultierende Datenbank enthält

  • eine unverwechselbare Artikel-ID
  • den Titel des Artikels
  • Informationen über die Autor*innen: Name(n): die vorher abgekürzten Namen wurden recherchiert und wo möglich aufgelöst, mit bekannten Kurz- oder Kosenamen verknüpft und enthalten alternative Schreibungen; Geschlecht; Akademische oder Adelstitel; externe Verlinkung zu Informationsquellen über die Person im Internet (wo möglich);
  • Startseite des Artikels
  • Zuweisung zu einer Kernregion
  • Referenz zur ID im Gazetteer
  • Ortsbezeichnung und Koordinaten
  • eines oder mehrere inhaltsbezogene Schlagworte

Die 28.558 Schlagwörter der 3.426 Artikel wurden aufgesplittet und kategorisiert, um Personen und Orte herausfiltern zu können. So konnten beispielsweise Autor*innen-Informationen aus dem Autor*innenverzeichnis sowie den Schlagworten für den Personenthesaurus verwendet werden.