News zum Forschungsdatenmanagement

Wie zitiert man Daten und Code?

Die Zitierung von Code und Daten bildet eine solide Grundlage für die Forschung. Wir erklären, was man dabei beachten muss.

Foto: Simplified Pixabay Licence

Daten und Code, die zur Datenverarbeitung verwendet oder entwickelt werden, sind entscheidende Elemente in der wissenschaftlichen Praxis. Es gibt jedoch immer noch Probleme und Zweifel, wie und warum sie zu zitieren sind. Hiermit möchten wir Ihnen einige Hinweise geben.

Warum sollte man Daten und Code zitieren?

Im Allgemeinen hilft uns die Zitierung von Daten um:

  • wissenschaftliches Fehlverhalten zu verhindern, zum Beispiel Ergebnisse aus erfundenen oder geschönten Daten.
  • andere Datenproduzenten anzuerkennen. Die Zitierung von Daten ist auch ein Indikator dafür, dass wir Daten von Dritten wiederverwendet haben. Das bedeutet, dass wir auf der Forschung Anderer aufbauen, was zu einer Beschleunigung des Forschungsprozesses führen kann.
  • eine solide Basis, um unsere eigene Forschung zu zeigen. Die Daten dienen als Grundlage für unsere Ergebnisse und können von Anderen jederzeit reproduziert werden.
  • Reproduzierbarkeit und Wiederverwendung zu ermöglichen, die den Kern der wissenschaftlichen Methode ausmachen. Damit Daten wiederverwendbar sind, sollten sie nicht nur zitierbar (und zitiert) sein, sondern auch mit einer detaillierten Dokumentation versehen und in einem langlebigen, interoperablen Format in einem zuverlässigen Datenrepositoriumabgelegt werden.

Machen Sie Ihre Daten und Codes zitierbar

Um Daten zu zitieren, müssen Sie Daten und Code mit einer eindeutigen Identifikation versehen. Mit anderen Worten wird Daten oder Code ein persistenter Identifikator (PID) zugewiesen. Es gibt viele Arten von PIDs, für wissenschaftliche Ergebnisse wird häufig der DOI verwendet.

Viele Datenrepositorien vergeben DOIs für die hochgeladenen Datensätze. Einige Beispiele sind das disziplinübergreifende Repositorium Zenodo, in Österreich das sozialwissenschaftliche Datenrepositorium AUSSDA oder das erd- und umweltwissenschaftliche Datenrepositorium PANGAEA. Im Datenrepositorienregister re3data ist es auch möglich, über Suchfilter nach Repositorien zu suchen, die DOIs zur Identifizierung von Datensätzen verwenden.

Im Falle von Code, sofern dieser in einem GitHub-Repositorium gespeichert ist, können Sie einen DOI erhalten, indem Sie das GitHub-Repositorium mit Zenodo verbinden. Ein positiver Aspekt der GitHub/Zenodo-Integration ist, dass ein neuer DOI der Version oder Release eines Projektarchivs zugeordnet wird. Dies erleichtert die Versionskontrolle und garantiert die korrekte Identifizierung jeder Version.

Im Modul 5 des Open Science MOOC (Open Research Software and Open Source) sind mehr Informationen über den Einsatz von GitHub und Zenodo zu finden.

Eine weitere Möglichkeit, Code zitierbar zu machen und auch ergänzende Dokumentation anzubieten, ist die Veröffentlichung des Codes über ein "Code Journal". Unter dieser Bezeichnung ist eine wissenschaftliche Zeitschrift (mit ISSN) zu verstehen, die die Qualität der eingereichten Software durch einen Peer-Review-Prozess garantiert. Ein Beispiel für diese Art von Zeitschrift ist das Journal of Open Source Software.

Prinzipien für das Zitieren von Daten

Die FORCE 11 Data Citation Synthesis Group veröffentlichte 2014 eine Erklärung der Data Citation Principles. Diese sind:

  1. Wichtigkeit
  2. Anerkennung und Namensnennung
  3. Evidenz
  4. Eindeutige Identifizierung
  5. Zugang
  6. Persistenz
  7. Spezifität und Überprüfbarkeit
  8. Interoperabilität und Flexibilität

Diese Prinzipien sollten sich in der Art und Weise widerspiegeln, wie ein Datensatz in einem wissenschaftlichen Text zitiert wird.

Autor(en), Jahr, Datensatzbezeichnung, Datenspeicher oder Archiv, Version, Global Persistent Identifier.

  • Die Benennung der Autoren spiegelt Prinzip 2 wider, die Zuordnung erfolgt zu allen Mitwirkenden an den Daten. Das Gleiche gilt für die Benennung des Datenrepositoriums oder des Archivs.
  • Das Hinzufügen der Version entspricht dem Prinzip 7 und erleichtert die Identifizierung spezifischer Daten (spezifisches Zeitintervall oder Teil der abgerufenen Daten). Dies ist besonders wichtig im Umgang mit dynamischen Daten.
  • Die Verwendung eines globalen persistenten Identifikators (z.B. DOI) entspricht den Prinzipien 4, 5 und 6 und ermöglicht nicht nur den Zugriff auf den Datensatz, sondern auch auf die entsprechenden Metadaten.

Beispiel:

Jang, Kyoung-Soon; Park, Ki-Tae (2019): Chemical characteristics of the assigned elemental formulas from the FT-ICR MS data of Arctic aerosol-derived organic matter collected in Ny-Ålesund in May 2015. PANGAEA, version 1.0, https://doi.org/10.1594/PANGAEA.90559

 

Prinzipien für das Zitieren von Code

Wie bei den Prinzipien der Datenzitation schlägt FORCE 11 auch bei der Softwarezitation Prinzipien vor:

  1. Wichtigkeit
  2. Anerkennung und Namensnennung
  3. Eindeutige Identifizierung
  4. Persistenz
  5. Zugänglichkeit
  6. Spezifität

Beispiel:

Zhao, Junbin. (2019, November 21). FluxCalR: a R package for calculating CO2 and CH4 fluxes from static chambers (Version 0.2.0). Zenodo. http://doi.org/10.5281/zenodo.3549398

Das Beuspiel bezieht sich auf dieses GitHub-Repository: https://github.com/junbinzhao/FluxCalR/

Weiterführende Literatur

  1. Data Citation Synthesis Group: Joint Declaration of Data Citation Principles. Martone M. (ed.) San Diego CA: FORCE11; 2014 https://doi.org/10.25490/a97f-egyk
  2. Smith, Arfon M., Daniel S. Katz, and Kyle E. Niemeyer. ‘Software Citation Principles’. PeerJ Computer Science 2 (19 September 2016): e86. https://doi.org/10/bw3g.
  3. Starr J, Castro E, Crosas M, Dumontier M, Downs RR, Duerr R, Haak LL, Haendel M, Herman I, Hodson S, Hourclé J, Kratz JE, Lin J, Nielsen LH, Nurnberger A, Proell S, Rauber A, Sacchi S, Smith A, Taylor M, Clark T. 2015. Achieving human and machine accessibility of cited data in scholarly publications. PeerJ Computer Science 1:e1 https://doi.org/10.7717/peerj-cs.1
  4. Rauber, Andreas; Ari Asmi; Dieter van Uytvanck; Stefan Proell (2015): Data Citation of Evolving Data: Recommendations of the Working Group on Data Citation (WGDC). https://doi.org/10.15497/RDA00016    

 

Kontakt

Paloma Marín Arraiza

TU Wien Bibliothek

Twitter: @RDMTUWien