Alle News an der TU Wien

"Metadaten sind wirklich alles!"

Dr. Mariette Vreugdenhil über FAIRes Datenmanagement in der Fernerkundungsforschung.

Das Bild zeigt das Foto einer Frau, im Hintergrund den Schriftzug "I care to make it FAIR" und  eine Weltkarte in bunten Farben.

© TU Wien / Livia Beck

Mariette Vreugdenhil umgeben von Informationen zur Dürreüberwachung

Wir treffen Dr. Mariette Vreugdenhil im Department für Geodäsie und Geoinformation der TU Wien im Freihaus, direkt dort, wo eine brandneue Sentinel-1-Satelliten-Replik über den Treppen schwebt. Mariette ist Senior Scientist im Forschungsbereich Fernerkundung und forscht zu Bodenfeuchte und Vegetationsüberwachung mithilfe von Satelliten der ESA, NASA und dem Copernicus-Programm.

Unser Interview beleuchtet die Entwicklung und die aktuellen Forschungspraktiken im Management von Erdbeobachtungsdaten sowie die zentrale Rolle von Metadaten, um Open Science und die Einhaltung der FAIR-Prinzipien – insbesondere im Zusammenhang mit Satellitendaten – zu fördern.

Hochauflösende Echtzeitdaten

„Als ich anfing, gab es noch keine hochauflösenden Satellitendaten, da man bei der Erdbeobachtung normalerweise einen Kompromiss eingehen muss: Entweder hat man eine sehr hohe räumliche Auflösung oder eine sehr hohe zeitliche Auflösung. Als ich anfing, betrug die Auflösung etwa 25 mal 25 km, heute sind es 10 mal 10 Meter. Es hat sich also viel getan.“

Der erste Sentinel-Satellit wurde 2014 im Rahmen des Copernicus-Programms gestartet und führte zu einem exponentiellen Anstieg des Datenvolumens, wodurch die Umstellung auf cloud-basierte Datenverarbeitung unvermeidlich wurde. In den letzten Jahren hat sich das Feld von weniger regelmäßigen, niedrigauflösenden Beobachtungen hin zur hochauflösenden, nahezu Echtzeit-Datenübertragung entwickelt – unterstützt durch Infrastrukturen wie das österreichische Earth Observation Data Centre (EODC) und virtuelle Maschinen.

Datenbesuch statt Download

„Ich starte einfach meinen Computer, logge mich in die virtuelle Maschine des Arsenal Earth Observation Data Centre ein und arbeite dann mit den dortigen Daten – ohne riesige Datensätze herunterladen zu müssen.“

Dr. Vreugdenhil erläutert, wie diese virtuellen Arbeitsumgebungen rohe Satellitendaten sowie bereits aufbereitete Daten öffentlich verfügbar machen, damit Forschende Umweltvariablen ableiten und validieren können, zum Beispiel aus Rückstreudaten. Die Frage ist dann, wie sich aus diesem Rohmaterial Umweltvariablen ableiten lassen, die sich für Dürre-Monitoring eignen, etwa Bodenfeuchte oder Vegetationswassergehalt. Sowohl die Rohdaten als auch die Umweltvariablen sind öffentlich auffindbar und frei nutzbar, wobei die Plattformen bemüht sind, den FAIR-Prinzipien nachzukommen.

Metadaten sind alles

„Diese Datensätze sind alle frei verfügbar, stammen jedoch aus unterschiedlichen Quellen und liegen in verschiedenen Formaten vor. Das stellt Nutzer vor eine große Herausforderung, da die Daten und die verschiedenen Verarbeitungsprozesse harmonisiert werden müssen, wobei Metadaten von entscheidender Bedeutung sind, um den Überblick über Datenversionen und -herkunft zu behalten. Metadaten sind also wirklich alles!“

Die Beschreibungen der einzelnen Datensätze variieren je nach Anbieter – von Walddaten über meteorologische Variablen bis hin zu digitalen Höhenmodellen – sowohl in der Detailtiefe als auch in der Vollständigkeit. Die Harmonisierung der unterschiedlichen Datensätze mehrerer Anbieter (Copernicus, Geosphere Austria, BFW) bleibt eine Herausforderung und hebt die Bedeutung interner Datensammlungen sowie standardisierter Verarbeitungsskripte für analysebereite Datensätze zur Gewährleistung der Interoperabilität hervor. Dr. Vreugdenhil betont zudem die wachsende Rolle von KI bei Harmonisierung, Codierung und Analyse und unterstreicht die Notwendigkeit sowohl physikalischer Modelle als auch KI-gestützter Ansätze.

Veröffentlichung von Daten und Code

„Was in unserem Bereich ebenfalls wichtig ist, ist natürlich das Code-Sharing. Wir stellen unseren Code auf Git, damit er öffentlich zugänglich ist, und einige unserer Doktoranden bereinigen ihren Code mit KI. Und dann gibt es noch die andere Seite der Algorithmenentwicklung, die wir betreiben, nämlich entweder physikalisch basierte Modelle oder maschinelles Lernen. Wenn wir beispielsweise von den Rückstreudaten zur Bodenfeuchte übergehen, muss man ein eigenes Modell entwickeln und es anhand einiger Referenzdaten kalibrieren – diese Referenzdaten sind sehr oft In-situ-Daten, die wir vor Ort gesammelt haben.“

Hier betont Dr. Vreugdenhil die Notwendigkeit von Repositorien wie dem TU Wien Research Data Repository, öffnet eine externe URL in einem neuen Fenster als zentrale Lösung, um Forschungsdaten offen zugänglich zu machen, korrekt zu zitieren und Open Science zu unterstützen. Gleichzeitig thematisiert das Gespräch Spannungen zwischen Open Data-Forderungen und dem Publikationsdruck, insbesondere bei In-situ-Daten, bei denen Forschende zögern, wertvolle Felddaten vor der eigenen Publikation zu teilen. Als mögliche Lösung erörtern wir Embargo-Regelungen, passende Lizenzen und Metadaten-Veröffentlichung – zentrale Bausteine für Reproduzierbarkeit und langfristige Nutzbarkeit, insbesondere bei Umstrukturierungen von Datensammlungen. Insgesamt zeigt sich Dr. Mariette Vreugdenhil optimistisch hinsichtlich der Langlebigkeit und Zugänglichkeit kuratierter Datensätze und betont dabei die Bedeutung langfristiger Aufzeichnungen für Klimastudien sowie die Herausforderungen, die sich aus der Lebensdauer von Satelliten und missionsspezifischen Daten ergeben.

Kontakt

Mariette Vreugdenhil
Department für Geodäsie und Geoinformation
TU Wien
mariette.vreugdenhil@tuwien.ac.at

Zentrum für Forschungsdatenmanagement
TU Wien
research.data@tuwien.ac.at