News

Die FAIR-Prinzipen für Forschungsdaten

In der Forschung ist es häufig sinnvoll, auf bereits vorhandene Daten zurückzugreifen. Doch auch wenn die Daten grundsätzlich vom Eigentümer zur Verfügung gestellt werden, sind Zugang und Nutzung nicht immer möglich. Wir erklären, warum. Und geben Tipps, wie man es besser machen kann.

Daten wiederFAIRwenden

Diese Tipps basieren auf den FAIR-Prinzipien, öffnet eine externe URL in einem neuen Fenster, die im Jahr 2016 von FORCE11, öffnet eine externe URL in einem neuen Fenster veröffentlicht wurden und seitdem von verschiedenen Netzwerken, Organisationen und Projekten (z.B. GO FAIR, öffnet eine externe URL in einem neuen Fenster, FAIRsFAIR, öffnet eine externe URL in einem neuen Fenster) verbreitet und beworben werden. Die TU Wien unterstützt die FAIR-Prinzipien und wird innerhalb des Projektes FAIR Data Austria auch eine nationale Anlaufstelle für FAIR-Fragen aufbauen. Am 23. und 24. Jänner nehmen Vertreterinnen des Zentrums für Forschungsdatenmanagement und der TU Wien Bibliothek am internationalen GO FAIR Implementation Networks Meeting, öffnet eine externe URL in einem neuen Fenster in Hamburg teil.

Die breite Anwendung der FAIR-Leitprinzipien und -Praktiken soll dafür sorgen, dass Datenanbieter und Datenkonsumenten - sowohl Maschinen als auch Menschen - für sie interessante Daten aus der Flut an Informationen, die von der Wissenschaft erzeugt werden, herausfinden und (mit angemessener Zitierung) nutzen können. Um dieses Ziel zu erreichen sollen Forschende und Infrastrukturbetreibende Forschungsdaten so aufbereiten und ablegen, dass sie für Mensch und Maschine auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und wiederverwendbar (Reusable) werden. Und das über Disziplin- und Ländergrenzen hinweg.

Die FAIR-Prinzipien beziehen sich auf alle digitalen Daten, die im Zuge wissenschaftlicher Vorhaben entstehen, d.h. sowohl qualitative und quantitative Forschungsdaten als auch Metadaten, Algorithmen, Werkzeuge, Code und Software. Daten, die die FAIR-Prinzipien erfüllen, entsprechen häufig auch dem Open Data-Konzept und sind ohne Einschränkung für jedermann verfügbar. Das ist aber nicht zwingend der Fall, denn die FAIR-Prinzipien erlauben dort, wo es sinnvoll oder sogar erforderlich ist, auch eine Einschränkung des Datenzugangs.

Die FAIR-Prinzipien in der Praxis

F wie findable (auffindbar)

Das Problem: Eine Wissenschaftlerin vermutet, dass es bereits irgendwo Daten gibt, die sie für ihre Forschung verwenden könnte. Sie hat vielleicht sogar schon von einem konkreten Datensatz gehört oder über ihn gelesen, kann die Daten aber nicht finden: die gängigen Suchmaschinen geben nichts her und der Link in der zugehörigen Publikation aus dem Jahr 2013 führt sie direkt zu einem Fehler 404.

Die Lösung: Der Dateneigentümer, der seine Daten anderen zur Verfügung stellen möchte, veröffentlicht die Daten in einem zuverlässigen Repositorium. Im Zuge des Uploads in das Repositorium versieht er die einzelnen Datensätze mit zitierbaren dauerhaften und global eindeutigen Identifikatoren (z.B. DOIs) und weiteren aussagekräftigen Metadaten, die sowohl von Menschen als auch von Maschinen gelesen werden können.

Durch die Eingabe der Identifikatoren, des Projektnamens oder anderer Informationen über die Daten in eine Suchmaschine kann die interessierte potenzielle Nachnutzerin die entsprechenden Datensätze anschließend problemlos finden.

A wie accessible (zugänglich)

Das Problem: Ein Wissenschaftler hat mit Interesse eine Veröffentlichung zu einem sehr speziellen Thema gelesen und freut sich, am Ende des Berichtes einen Link (DOI) zu den zugehörigen Forschungsdaten zu finden. Er folgt dem Link, muss aber feststellen, dass er weder auf die Daten an sich zugreifen noch die zugehörigen Metadaten einsehen kann. Der Grund dafür ist für ihn nicht ersichtlich.

Die Lösung: Die Dateneigentümerin, die ihre Daten anderen zur Verfügung stellen möchte, legt ihre Datensätze grundsätzlich für jedermann einsehbar und nutzbar in einem zuverlässigen Repositorium ab. Die Dateneigentümerin weiß aber auch, dass es für hochsensible Daten nicht möglich ist, einen sicheren Zugriff durch ein vollständig mechanisiertes Protokoll zu gewährleisten. Aus diesem Grund sperrt sie den Zugang zu den sensiblen Daten, zeigt in den Metadaten aber auf, wie und unter welchen Umständen Interessierte die Daten trotzdem nutzen können, und gibt für eine einfache Kontaktaufnahme ihre E-Mail-Adresse an. Bei Daten, die sie zum Beispiel wegen einer laufenden Embargofrist derzeit nicht öffentlich zur Verfügung stellen kann, achtet sie darauf, dass zumindest die zugehörigen beschreibenden Metadaten inklusive Informationen über die Sperrfrist für jeden (Mensch und Maschine) frei zugänglich sind.

Auf diese Weise kann der interessierte Wissenschaftler entweder direkt auf die Daten zugreifen oder wegen einer möglichen Nutzung sensibler Daten bei der Dateneigentümerin nachfragen. Anhand der Metadaten kann er auch für derzeit nicht zugängliche Datensätze abschätzen, ob sie für ihn grundsätzlich interessant wären und wann er mit einer Freigabe der Daten rechnen kann.

I wie interoperable (interoperabel)

Das Problem: Eine Wissenschaftlerin hat bei ihrer Online-Recherche einen interessanten Datensatz ohne Zugriffsbeschränkung gefunden. Sie freut sich und möchte sofort mit der Auswertung der Daten beginnen, stellt dann aber enttäuscht fest, dass diese Daten nur mit einer bestimmten, kommerziellen Software gelesen werden können. Erschwerend kommt hinzu, dass die Daten nicht vollständig sind und in dem Datensatz darüber hinaus Begriffe verwendet werden, die in der Fachwelt nicht geläufig sind. Dadurch wird eine Maschinenlesbarkeit verhindert und (bei gegebener Lesbarkeit durch Menschen) eine Interpretation durch die Forscherin selbst erschwert oder sogar unmöglich.

Die Lösung: Der Dateneigentümer, der seine Daten anderen zur Verfügung stellen möchte, verwendet für seine Daten und Metadaten ausschließlich anerkannte, allgemein übliche und nach Möglichkeit offene Formate, kontrollierte Vokabulare und internationale Standards. Dies ermöglicht ein (teil-)automatisiertes Kombinieren, Austauschen und Interpretieren der Daten. Selbstverständlich verweist der Dateneigentümer in den Daten bzw. Metadaten auch auf verwandte Datensätze, insbesondere, wenn diese zum Verständnis der Daten erforderlich sind. Er nennt die entsprechenden persistenten Identifikatoren und beschreibt die Beziehung der Datensätze zueinander (z.B. ‚is new version of‘, ‚is supplement to‘ etc.).

R wie reusable (wiederverwendbar)

Das Problem: Ein Wissenschaftler möchte seine Forschungsergebnisse mit den Ergebnissen ähnlicher Untersuchungen weltweit vergleichen. Zum Glück findet er eine Vielzahl an veröffentlichten Daten zu seinem Thema, die zugänglich sind und von seiner Standardsoftware verarbeitet werden können. Das Ergebnis ist ernüchternd: die Datensätze weichen stark voneinander ab, Übereinstimmungen oder gemeinsame Trends sind kaum zu erkennen. Es scheint, als würde er trotz aller Gemeinsamkeiten der Untersuchungen Äpfel mit Birnen vergleichen. Darüber hinaus sind bei einigen der Vergleichsdatensätze die Rechte bezüglich einer möglichen Verwendung nicht klar definiert, so dass diese zunächst durch aufwendiges Nachfragen bei den Eigentümern (soweit diese überhaupt erreichbar sind) geklärt werden müssen.

Die Lösung: Die Dateneigentümer, die ihre Daten anderen zur Verfügung stellen möchten, nehmen sich die Zeit, ihre Daten ausführlich zu beschreiben, so dass die Erhebung, Bearbeitung und Analyse der Daten von jedermann (also auch von fachfremden Forschenden) nachvollzogen und ggf. auch reproduziert werden kann. Für die Beschreibung verwenden sie aussagekräftige Metadaten und den Datensätzen beigefügte Dokumentationsunterlagen mit detaillierten Informationen zu den gegebenen Randbedingungen, den einzelnen Arbeitsschritten und den verwendeten Geräten/Software, Parametereinstellungen und Variablennamen.

Darüber hinaus geben die Dateneigentümer in den Metadaten für jeden Datensatz Informationen über die Bedingungen zur Nachnutzung an. Sie verwenden dafür soweit wie möglich freie Lizenzen (z.B. die Creative Commons Lizenz CC BY) und verweisen auf deren URL. Nur so ist für den Nachnutzer der Daten sofort und eindeutig ersichtlich, ob und zu welchen Zwecken er die Daten nutzen kann.

Literaturtipp

  • Higman R, Bangert D and Jones S, “Three camps, one destination: the intersections of research data management, FAIR and Open”, Insights, 2019, 32: 18, 1–9; DOI: https://doi.org/10.1629/uksg.468

Kontakt

TU Wien
Zentrum für Forschungsdatenmanagement
Resselgasse 4 (TU Wien Bibliothek), 1040 Wien
research.data@tuwien.ac.at

Twitter: @RDMTUWien