News

DBRepo: Ein Repository zum Sichern von Forschungsdatenbanken

Haben Sie sich jemals gefragt, wo Sie Ihre Forschungsdaten sichern sollten? Wie Sie Ihre Daten in Publikationen einfach verlinken können? Wie Sie Ihre verwendeten Datensätze anderen Forschenden zur Verfügung stellen können?

Graphik Database Repository

Das Projekt FAIR Data Austria, öffnet eine externe URL in einem neuen Fenster (FDA) zielt darauf ab, den Wissenstransfer zu stärken, indem Forschung auffindbar, zugänglich, interoperabel und wiederverwendbar (FAIR) gemacht wird. Dies geschieht durch die Bereitstellung von Repository Systemen für die Speicherung von Daten und Code und die Bereitstellung von Schulungen und Unterstützung für die Verwaltung von Forschungsdaten. Neben unserem Beitrag wird im Rahmen von FDA ein dateibasiertes Repository auf der Grundlage von InvenioRDM eingesetzt.  

Um auch relationale Daten in Datenbanken zu unterstützen, entwickelt die TU Wien in Zusammenarbeit mit der Universität Wien ein neuartiges Datenbank-Repository-System (DBRepo), das den Zugriff über Standardschnittstellen (JDBC, RESTful, AMQP) ermöglicht, um sie in andere Systeme zu integrieren. 

DBRepo hilft Forschenden bei der Erstellung und dem Hosting von Datenbanken gemäß den FAIR-Prinzipien, unterstützt reproduzierbare Abfragen, die Versionierung von Daten und die Suche nach bestimmten Forschungsdatensätzen. Dies wird durch die Speicherung von Metadaten, die Verfolgung von Änderungen, die Speicherung von Abfragen und die Vergabe von dauerhaften Identifikatoren erreicht, um die Veröffentlichung beliebiger Teilmengen von Daten zu ermöglichen. Das Repository-System leistet all dies, ohne zusätzlichen Aufwand für die Forschenden zu verursachen, und ermöglicht zudem die langfristige Aufbewahrung der Daten.

Repository Verwendung

Die Arbeitsabläufe können sich je nach Anwendungsfall drastisch unterscheiden, was zu unterschiedlichen Anforderungen an das Repository und sogar an die Repositories führen kann. DBRepo kann in den Forschungsprozess als Live-Repository integriert werden, das Daten während der Laufzeit eines Projekts sammelt, anstatt sie nach Projektende abzulegen. Datenverwalter wiederum können DBRepo in ihre bestehenden digitalen Kuratierungsprozesse integrieren und den Forschenden die Last der Datenverwaltung abnehmen. 

DBRepo ist im Grunde eine in einer privaten Cloud gehostete Datenbankinfrastruktur, in der verschiedene Akteure interagieren, damit sich jeder auf seine Kernaufgaben konzentrieren kann: Forschende können Datenbanken erstellen, Daten direkt von Sensoren und Maschinen lesen oder von Datenexporten hochladen; IT-Expert_innen kümmern sich um die Serverwartung, den Sicherheitsaspekt und die Zugangskontrolle, während Datenverwalter_innen bei der Datenkuratierung, der FAIRness und der Zitierfähigkeit von Daten helfen können, um nur einige zu nennen. 

Forschende können Datenbanken direkt über ein Web-Interface oder in einem eigenständigen Docker-Container erstellen und ihre Datenbanken mit kontinuierlichen Datenströmen oder statischen Dateien füllen. Meta-Informationen über alle Datenbanken werden gespeichert, um die Suche nach bestimmten Datensätzen zu ermöglichen und die FAIRness zu gewährleisten. Jede Datenbank kann über die API oder das Web-Interface aktualisiert und abgefragt werden, so dass das Repository für unerfahrene und erfahrene Datenbanknutzer direkt in den Forschungsprozess eingebunden werden kann.

Datenversionierung & Reproduzierbare Queries

Da viele Datenbanken im Laufe der Zeit weiterentwickelt werden, muss ein Datenbank-Repository die Änderungen am Datensatz widerspiegeln, da jede Änderung zu einer anderen Version des Datensatzes führt, um die Reproduzierbarkeit von Studien, die mit früheren Versionen der Daten durchgeführt wurden, zu gewährleisten. Durch die Umsetzung der RDA-Empfehlung zur Datenzitierung stellt DBRepo sicher, dass alle Daten versioniert sind, und dass jede Teilmenge von Daten in ihrem Zustand zu einem bestimmten Zeitpunkt reproduziert werden kann. Durch die Vergabe von dauerhaften Identifikatoren, wie DOIs, kann jede solche Teilmenge von Daten zitiert und weitergegeben werden.

Weitere Informationen

Ein Papier mit einer technischen Zusammenfassung des Projekts ist online verfügbar (DBRepo System: DOI 10.17605/OSF.IO/B7NX5, öffnet eine externe URL in einem neuen Fenster), ebenso wie ein öffentlicher Mirror (DBRepo source code: https://github.com/fair-data-austria/dbrepo, öffnet eine externe URL in einem neuen Fenster), wo der Quellcode heruntergeladen und unter einer Open-Source-Apache-2-Lizenz verändert werden kann.

Pilotanwender

Das Datenbank-Repository, das reproduzierbare Abfragen, die Versionierung von Daten und die Suche nach bestimmten Forschungsdatensätzen unterstützt und Forschenden aus verschiedenen  Disziplinen und mit unterschiedlichem Hintergrund dabei hilft, die FAIRness ihrer Forschungsergebnisse zu verbessern, sucht nach Pilotanwender_innen, die DBRepo für das Hosting und die Verwaltung ihrer Daten nutzen möchten. 

Kontakt

Bitte setzen Sie sich mit dem Team in Verbindung, um potenzielle Anwendungsfälle zu besprechen, bei den Test-Deployments zu helfen und die von Ihrer Einrichtung vorgeschlagenen Funktionen zu implementieren: