Metadaten

Metadaten dienen in Archiven zur einheitlichen und strukturierten Beschreibung der verwalteten Ressourcen und ihrer Merkmale. Sie sind an sich unabhängig und werden entweder gemeinsam mit den Ressourcen, die sie beschreiben, oder eigenständig abgespeichert.

Metadaten spielen eine entscheidende Rolle für die zukünftige Nutzung Ihrer abgelegten Forschungsdaten: Sie enthalten wichtige Informationen und ermöglichen das Suchen und Finden Ihrer Daten.

Ein Metadatensatz besteht im Wesentlichen aus beschreibenden Kategorien, den sogenannten Elementen, und deren Werten. Um die Kommunikation mit anderen Systemen zu erleichtern, werden für die Elemente häufig vordefinierte Standards und für die Werte kontrollierte Vokabulare und persistente Identifikatoren (PIDs) verwendet.

 

Bei der Ablage von Forschungsdaten in Repositorien werden die zugehörigen Metadaten entweder manuell eingegeben oder über eine Schnittstelle automatisch erfasst (metadata harvesting).

Man unterscheidet grundsätzlich zwischen den bibliographischen/administrativen Metadaten und den inhaltsbeschreibenden/fachlichen Metadaten.

Die bibliographischen bzw. administrativen Metadaten liefern Informationen zur Entstehung der Gesamtheit der Daten. Sie sind meist ähnlich aufgebaut und umfassen Angaben wie zum Beispiel:

  • Titel: Name des Datensatzes oder des Forschungsprojekts, in dem die Daten produziert wurden
  • Autor/Primärforscher: Name, Institution, Personenidentifikator (z.B. ORCID iD)
  • Mitwirkende: Personen/Institutionen, die nicht primär an der Datenerstellung beteiligt waren (z.B. Datenkuratoren, Datenmanager) sowie deren Aufgaben und Identifikatoren
  • Kennung: Kennzeichen, das zur Identifizierung der Daten herangezogen werden kann (z.B. interne Projektnummer)
  • Datenart: Art der Daten, Deteiformat und -größe
  • Rechte: Nutzungsrechte, Lizenzen
  • Daten (Kalender): Tage oder Zeiträume, die mit den Daten in Verbindung stehen (z. B. Projektstart, -ende, Beobachtungszeitraum, Veröffentlichungsdatum)
  • Sprache: Sprache(n) des Inhalts der Forschungsdaten
  • Ort: Bezug zu einem physischen Ort oder einer räumlichen Abdeckung (z.B. Koordinaten)
  • Inhalt/Kurzfassung: Schlagwörter oder Phrasen, die das Thema oder den Inhalt der Daten beschreiben
  • Forschungsförderung: Fördergeber, Fördernummer
  • Beziehungen: Informationen über Beziehungen zu anderen Ressourcen

 

Die inhaltsbeschreibenden bzw. fachlichen Metadaten liefern zusätzliche Informationen zu einzelnen Aspekten oder Datensätzen. Sie sind je nach Disziplin und Datenart sehr unterschiedlich aufgebaut.

 

Metadaten werden häufig als XML (Extensible Markup Language) oder im Format einer anderen Auszeichnungssprache (z.B. JSON) abgespeichert. Die XML-Quelltexte sind sowohl von Maschinen als auch von Menschen lesbar und können auch in andere Formate überführt werden (z.B. mit Hilfe eines XML–JSON-Converters in JSON).

In XML ist ein Element-Wert-Paar grundsätzlich so aufgebaut, dass der Wert zwischen dem Elementanfang (in spitzen Klammern) und dem Elementende (in spitzen Klammern mit vorgestelltem Schrägstrich) steht. Ein einfaches Beispiel wäre:

                <creator>Max Mustermann</creator>

Den Elementen-Werte-Paaren zu einer Ressource ist immer ein sogenanntes Wurzelelement (root element) vorangestellt, das die Art der Ressource beschreibt (z.B. memo, book).

Um die Wirksamkeit von Metadaten zu erhöhen, werden in Repositorien und innerhalb wissenschaftlicher Communitys definierte Metadatenstandards verwendet. Durch die Standardisierung können Metadaten aus unterschiedlichen Quellen miteinander verknüpft und gemeinsam bearbeitet werden. Häufig kann ein Standard durch Mapping auch in einen anderen Standard überführt werden.

Auf der Webseite der Research Data Alliance (RDA) finden Sie ein Verzeichnis disziplinspezifischer Metadatenstandards für wissenschaftliche Daten.

Ein einfacher und weit verbreiteter Metadatenstandard ist der Dublin Core (ISO Standard 15836 (2009)). Er besteht aus 15 Elementen (z.B. <dc:creator>Max Mustermann</dc:creator) und diversen Kind-Elementen (child elements).

Damit Ihre Angaben optimal für Suchen genutzt und maschinell verarbeitet werden können, sollten Sie bei den Metadatenangaben (also den einzelnen Werten) soweit wie möglich feste Begriffen verwenden. Nur wenn gleiche Dinge gleich benannte werden, können sie auch richtig miteinander verknüpft und so der Austausch und die Interoperabilität Ihrer Daten mit anderen Systemen gewährleistet werden. Die Verwendung von genormten Begriffen und eindeutigen Kennungen hilft zudem, Mehrdeutigkeiten und Redundanzen zu vermeiden.

 

In kontrollierten Vokabularen (Thesauri und Klassifikationen), Normdateien und internationalen Standards (ISO) finden Sie eine große Auswahl an vordefinierten Begriffen, eindeutigen Zuordnungen und genormten Formaten. Hierzu zählen zum Beispiel Personenidentifikatoren, Normen zur einheitlichen Darstellung von Zeitangaben und Verzeichnisse geographischer Orte und ihrer Beschreibungen. Neben diesen globalen Festlegungen gibt es häufig auch solche, die eher disziplinspezifisch oder institutionell ausgeprägt sind.

Beispiele

  • ORCID für akademische Forscher
  • FundRef für Forschungsförderer
  • DOI für Online-Veröffentlichungen
  • ISBN für Bücher
  • ISO 8601 für Datum- und Zeitangaben
  • ISO 639 für Sprachen
  • ISO 3166-1 alpha-2 für Länderkürzel
  • GeoNames für geographische Namen und topografische Objekte
  • AGROVOC für Begriffe zu den Themen Landwirtschaft und Ernährung
  • ICD für Krankheiten

 

Weitere Thesauri und Klassifikationen finden Sie im Basel Register of Thesauri, Ontologies & Classifications.