Interoperabilität
Nur wenn gleiche Dinge gleich benannt werden, können sie auch richtig interpretiert und die Interoperabilität der Daten mit anderen Systemen gewährleistet werden. Durch genormte Begriffe und eindeutige Kennungen in der Datenstruktur vermeiden Sie außerdem Mehrdeutigkeiten und Redundanzen. In kontrollierten Vokabularen, Normdateien und internationalen Standards (ISO) finden Sie eine große Auswahl an vordefinierten Begriffen, eindeutigen Zuordnungen und genormten Formaten. Neben diesen globalen Festlegungen gibt es häufig auch solche, die eher disziplinspezifisch oder institutionell ausgeprägt sind.
Ein einfaches Beispiel für Standardisierung in Ihrem Forschungsprozess ist z.B. die konsequente Kennzeichnung und Verwendung von
- Grad Celsius vs. Fahrenheit oder Windgeschwindigkeit gemessen in m/s vs. Knoten
Semantische Artefakte
Unter diesem Begriff versteht man konzeptionelle Modelle, die die Bedeutung von Entitäten und Beziehungen in den Daten genau und in einer maschinenverarbeitbaren Weise beschreiben. Ein gutes semantisches Modell sollte eine gemeinsame Sichtweise für einen bestimmten Bereich darstellen, daher ist es eine gute Praxis, nach bestehenden Modellen zu suchen. Die Definition semantischer Artefakte (semantische Modellierung) ist ein wesentlicher Schritt im FAIRification process, öffnet eine externe URL in einem neuen Fenster nach der Definition von GO FAIR, öffnet eine externe URL in einem neuen Fenster.
Zwei der wichtigsten Arten von semantischen Artefakten in diesem Zusammenhang sind kontrollierte Vokabulare und Ontologien.
Kontrollierte Vokabulare
Kontrollierte Vokabulare sind von Fachbereichen definierte Begrifflichkeiten, die zur einheitlichen Beschreibung von Daten oder Metadaten verwendet werden können. Sie können beispielsweise zur Beschreibung von Beziehungen zwischen Personen (z.B. RELATIONSHIP, öffnet eine externe URL in einem neuen Fenster), geografische Orte (z.B. ISO 3166, öffnet eine externe URL in einem neuen Fenster), Sprachen (z.B. ISO 639, öffnet eine externe URL in einem neuen Fenster), Währungen (z.B. ISO 4217, öffnet eine externe URL in einem neuen Fenster) usw. verwendet werden.
DDI-Controlled Vocabularies, öffnet eine externe URL in einem neuen Fenster ist eine Reihe von gut etablierten kontrollierten Vokabularen, die üblicherweise im Zusammenhang mit sozialwissenschaftlichen Daten, gesundheitswissenschaftlichen Daten, Daten über menschliche Aktivitäten und anderen Daten, die auf Beobachtungsmethoden basieren, verwendet werden, um Mehrdeutigkeiten in Meta(daten) zu beseitigen. DDI verwaltet die verschiedenen Phasen des Lebenszyklus von Forschungsdaten, einschließlich Konzeptualisierung, Sammlung, Verarbeitung, Verteilung, Entdeckung und Archivierung.
Ontologien
Eine Ontologie ist eine "formale, explizite Spezifikation einer gemeinsamen Konzeptualisierung" (R. Studer, R. Benjamins, and D. Fensel. Knowledge Engineering: Principles and methods. Data & Knowledge Engineering, 25 [1-2]:161-198, 1998). Diese Definition konzentriert sich auf drei Hauptaspekte:
- angemessene Formalität, d.h. sie sollte maschinenlesbar und interpretierbar sein
- explizite Spezifikation, d.h. sinnvolle Beziehungen (z.B. Unterklasse/Subsumption, disjunkt, invers) zwischen Konzepten (Begriffen) und deren Einschränkungen werden explizit definiert
- gemeinsame Konzeptualisierung, d.h. wenn Ontologien für bestimmte Bereiche existieren, wird den Forschenden dringend empfohlen, diese zu verwenden oder ihre Ontologie auf diese zu stützen
Forschende sollten eine Ontologie entwickeln, um (i) ein gemeinsames Verständnis der Struktur ihrer Meta(Daten) in einer Domäne zwischen Menschen und Maschinen zu teilen, (ii) vorhandenes Domänenwissen wiederzuverwenden und (iii) Annahmen innerhalb der Domänen explizit zu machen. Es ist wichtig anzumerken, dass es nicht den einen richtigen Ontologieentwurf für jede Domäne gibt, da die Anwendungen der Ontologie und das Verständnis der Sichtweisen der Domäne den Ontologieentwurf in jedem Fall beeinflussen.
Es gibt verschiedene Methoden, die Ihnen bei der Anpassung und Erstellung Ihrer eigenen Ontologie helfen können. Wir empfehlen die Methode Ontology101, öffnet eine externe URL in einem neuen Fenster (Noy, Natalya F., und Deborah L. McGuinness. Ontology development 101: A guide to creating your first ontology. 2001), die Sie bei der Entwicklung einer Ontologie unter Berücksichtigung der bestehenden Ontologie in Ihrem Fachbereich unterstützen.
Ontologien im Zusammenhang mit Forschungsdatenmanagement
Es gibt Tools, öffnet eine externe URL in einem neuen Fenster, die Forschenden helfen, kontrollierte Vokabulare und Ontologien zu finden, die für ihr Fachgebiet geeignet sein könnten:
- FAIRsharing | Standards: Finden Sie heraus, welche Ressourcen vorhanden sind - und ob sie genutzt, erweitert und ergänzt werden können
- Index of metadata standards – Metadata Standards Catalog (bath.ac.uk): ein Katalog von Metadatenstandards, die für die Dokumentation von Forschungsdaten verwendet werden können
- Linked Open Vocabularies (linkeddata.es): ein durchsuchbares Repositorium von Vokabularen und Ontologien, die zur Beschreibung vieler verschiedener Disziplinen und Bereiche verwendet werden
Tools zur Unterstützung von Standardisierung
- OpenRefine (früher Google Refine) ist ein hilfreiches Open Source Tool zum Ordnen, Bereinigen, Transformieren und Anreichern von Daten
- An inventory of tools for converting your data to RDF für data FAIRification
Beispiele für kontrollierte Vokabulare
- ISO 8601 für Datum und Zeit (die international anerkannte, normierte Datumsangabe lautet: JJJJ-MM-TT, d.h. der 27. September 2012 wird als 2012-09-27 dargestellt)
- ISO 3166 für Länder (z.B. für Österreich "AT" im 2-Buchstaben-Code oder "AUT" im 3-Buchstaben-Code)
- ISO 639 für Sprachen (z.B. für Englisch "en" im 2-Buchstaben-Code oder "eng" im 3-Buchstaben-Code)
- GeoNames für geographische Namen und topografische Objekte
- AGROVOC für Begriffe zu den Themen Landwirtschaft und Ernährung
- ICD für Krankheiten
- IATA für die Suche nach Fluggesellschaften und Ortscodes