Im Gespräch mit … Florina Piroi

10. März 2020

Im Gespräch mit … Florina Piroi

Erstellt von Christiane Stork und Florina Piroi

Wir befragen Forschende, um einen Überblick über ihre FDM-Praktiken zu erhalten und Anforderungen und Bedürfnisse aus ihrer Sicht zu erfahren.

Portrait von Florina Piroi vor einer Zimmerpflanze — Foto: Florina Piroi

Interview mit Florina Piroi, Dipl.-Ing. Dr.

Wissenschaftliche Mitarbeiterin im Forschungsbereich Information und Software Engineering, öffnet eine externe URL in einem neuen Fenster am Institut für Information Systems Engineering

[Anmerkung: Das Interview wurde auf Englisch geführt und nicht übersetzt.]

The effort to publish support data for a publication is underestimated

What is your field of research?

Domain specific information retrieval, Data Science, Text Processing

Can you give us examples of how you use data management in your everyday work?

When data is involved, the larger data sets are located on some server available to us in our institute where code is running. That is: data should be close to where the code is running. Processed data is left on that server with usually minimal documentation (a text “readme” file that lists the author, when lucky a description of the folder contents, type of files in the folder, source). Benchmark data, which in Information Retrieval are called test collections, and are used to evaluate machine learning and/or IR algorithms, we try to make public with entries in data citation repositories, like GitHub or Zenodo.

An example of a test collection – currently available on an IFS server – is the CLEF-IP test collection of patent documents, öffnet eine externe URL in einem neuen Fenster. Another collection of patent documents created by us and available to the Information Retrieval community is located on the TREC servers at NIST, öffnet eine externe URL in einem neuen Fenster. On Zenodo, I manage another collection of patent data available to researchers, the WPI Patent Test Collection, öffnet eine externe URL in einem neuen Fenster, though I was not involved in creating this data set.

Are you using data repositories for data publication?

Yes and no. I should :) Research I am involved with starts from existing sets of data/benchmarks, mostly available somewhere on the internet/other repositories. Data we use often for exercises with students, MSc subjects, etc. are on some server at our institute and accessible to our research group. The transformations done to this data, during a research project, are not stored outside the server where the experiments ran. I don't see that it should be done in all cases. Lots of it can be seen as intermediate results or data sets.

Leaving the data there and not publishing it on some repository has different reasons:

convenience
no procedures established or enforced in our group
it takes quite some effort to prepare data that is apt for publication
the paper writing-reviewing-publication process is such that by the time the paper where some data was used/created is accepted, the interest to prepare the data for publication is gone (this could be alleviated by addressing point 2 before).

For convenience, and if data is not too big, I place it on our institute webserver under a location which I know will last longer than my job at the TU. As stated earlier, I am in charge of two such "repositories": The Clef-IP patent data (on our institute's website) and on the WPI patent collection, which is available on Zenodo.

You mentioned the readme-files that are stored with your processed data. Which information is particularly relevant for the description of your data?

Sometimes it would be nice to have support data that is auxiliary to a scientific publication, but the effort to publicize it is underestimated. Such data should be accompanied by documentation that describes it in terms of file types and format, of encoding, content of the files – is it structured? If yes, how? etc. Statistics about the data are also extremely useful if re-use is aimed for. For example if a collection of patent documents is published, for a researcher in text retrieval it is of importance to know the distribution of the document language – how many documents are there in English, in French, in German – or which technological areas are covered, etc.

Such data documentation reports span over pages, and summaries are sometimes included in scientific publications that use that data. Researchers must be reminded that this type of documentation should be created not after the research is finished, but during the data processing and while the research is carried out. Because time is so precious, this activity is, sadly, skipped, though it may turn out to be a nagging issue when other researchers ask for access to and details about data mentioned in publications.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einstellungen zur Verwendung von Cookies auf dieser Website.	1 Jahr	HTML	Homepage TU Wien
SimpleSAML	Wird benötigt, um die Sessions der eingeloggten Benutzer_innen voneinander unterscheiden zu können.	Session	HTTP	Login TU Wien
SimpleSAMLAuthToken	Wird benötigt, um die Sessions der eingeloggten Benutzer_innen voneinander unterscheiden zu können.	Session	HTTP	Login TU Wien
fe_typo_user	Wird benötigt, damit im Falle eines Typo3-Frontend-Logins die Session-ID wiedererkannt wird um Zugang zu geschützten Bereichen zu gewähren.	Session	HTTP	Homepage TU Wien
staticfilecache	Wird benötigt, um die Auslieferungszeit der Website zu optimieren.	Session	HTTP	Homepage TU Wien
JESSIONSID	Wird benötigt, damit im Falle eines LectureTube-Logins die Session-ID wiedererkannt wird um Zugang zu geschützten Bereichen zu gewähren.	Session	HTTP	LectureTube TU Wien
_shibsession_lecturetube	Wird benötigt, um die Sessions der eingeloggten Benutzer_innen voneinander unterscheiden zu können.	Session	HTTP	LectureTube TU Wien

Name	Zweck	Ablauf	Typ	Anbieter
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo TU Wien
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo TU Wien
_pk_ses	Wird benötigt, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo TU Wien
nmstat	Wird benutzt, um das Verhalten auf der Website festzuhalten. Es wird genutzt, um Statistiken über die Websitenutzung zu sammeln, wie zum Beispiel wann der/die Besucher_in die Website zuletzt besucht hat. Das Cookie enthält keine personenbezogenen Daten und wird einzig für die Websiteanalyse eingesetzt.	1000 Tage	HTML	Siteimprove
siteimproveses	Wird dafür eingesetzt, um die Abfolge an Seiten zu verfolgen, die ein Besucher/eine Besucherin im Laufe des Besuchs auf der Website ansieht. Das Cookie enthält keine personenbezogenen Daten und wird einzig für die Websiteanalyse eingesetzt.	Session	HTTP	Siteimprove
AWSELB	Tritt immer paarweise mit siteimproveses auf (zur Lastverteilung am Anbieter-Server)	Session	HTTP	Siteimprove

Name	Zweck	Ablauf	Typ	Anbieter
_ga	Wird benötigt, um die Sessions der Benutzer_innen voneinander unterscheiden zu können.	Persistent	HTTP	Google Analytics
_gali	Wird benötigt, um festzustellen welche Links auf einer Seite angeklickt werden.	sofort	HTTP	Google Analytics
_gat	Dies ist ein funktionsbezogenes Cookie, dessen Aufgaben unterschiedlich sein können.	2 Jahre	HTTP	Google Analytics
_gid	Wird benötigt, um Benutzer_innen zu unterscheiden und Statistiken zu erstellen.	24 Stunden	HTTP	Google Analytics
_gads	Wird benötigt, um Websites zu ermöglichen Werbung von Google, einschließlich personalisierter Werbung, anzuzeigen.	13 Monate	HTTP	Google Analytics
_gac_	Wird von Werbetreibenden benötigt, um Nutzer_innenaktivitäten und die Leistung ihrer Werbekampagnen zu messen.	90 Tage	HTTP	Google Analytics
_gcl_	Wird von Werbetreibenden benötigt, um feststellen zu können, wie oft Nutzer_innen, die auf ihre Anzeigen klicken, am Ende eine Aktion auf ihrer Website ausführen.	90 Tage	HTTP	Google Analytics
_gcl_au	Enthält eine zufällig generierte Benutzer_innen-ID.	90 Tage	HTTP	Google
_gcl_aw	Wird gesetzt, wenn Nutzer_innen auf eine Google-Anzeige auf der Website klicken und enthält Informationen darüber, welche Anzeige angeklickt wurde.	90 Tage	HTTP	Google
__utma	Wird benötigt, um die Erfassung von Besuchen und Besucher_innen zu ermöglichen.	2 Jahre	HTTP	Google Analytics
__utmb	Wird benötigt, um neue Besuche zu erkennen.	30 Minuten	HTTP	Google Analytics
__utmc	Wird in Verbindung mit __utmb verwendet um festzustellen, ob es sich um einen neuen (kürzlichen) Besuch handelt.	Session	HTTP	Google Analytics
__utmd	Wird benötigt, um den Weg der Besucher_innen auf der Website zu speichern und zu verfolgen und sie in Gruppen zu klassifizieren (Marketing/Tracking).	1 Sekunde	HTTP	Google Analytics
__utmt	Wird benötigt, um die Abfragerate auf Google Analytics zu begrenzen.	10 Minuten	HTTP	Google Analytics
__utmz	Wird benötigt, um zu bestimmen aus welcher Quelle/Kampagne Besucher_innen kommen.	6 Monate	HTTP	Google Analytics
__utmvc	Wird benötigt, um Informationen über das Nutzer_innenverhalten auf mehreren Websites zu sammeln. Diese Informationen werden verwendet, um die Relevanz der Werbung auf der Website zu optimieren.	24 Stunden	HTTP	Google AdSense
utm_source	Wird benötigt, um URLs mit Parametern zu versehen, um die Kampagnen zu identifizieren, die den Verkehr weiterleiten.	sofort	HTTP	Google Analytics
__utm.gif	Wird zum Speichern von Browserdetails benötigt.	Session	HTTP	Google Analytics
gtag	Wird benötigt, um Remarketing zu betreiben.	30 Tage	HTTP	Google AdSense
id	Wird benötigt, um Remarketing zu betreiben.	2 Jahre	HTTP	Google AdWords
1P_JAR	Wird benötigt, um Werbung zu optimieren, für Nutzer_innen relevante Anzeigen bereitzustellen, Berichte zur Kampagnenleistung zu verbessern oder um zu vermeiden, dass Benutzer_innen dieselben Anzeigen mehrmals sehen.	2 Jahre	HTTP	Google
AID	Wird benötigt, um gezielte Werbung zu aktivieren.	2 Jahre	HTTP	Google Analytics
ANID	Wird benötigt, um Google-Werbung auf Websites einzublenden, die nicht zu Google gehören.	2 Jahre	HTTP	Google AdSense
APISID	Unbekannte Funktionalität	2 Jahre	HTTP	Google Ads Optimization
AR	Wird benötigt, um ein Profil der Interessen der Besucher_innen zu erstellen und relevante Werbung auf anderen Websites anzuzeigen. Dieses Cookie funktioniert, indem es Ihren Browser und Ihr Gerät eindeutig identifiziert.	2 Jahre	HTTP	Google AdSense
CONSENT	Wird benötigt, um die Vorlieben der Besucher_innen zu speichern und die Werbung zu personalisieren.	Persistent	HTTP	Google
DSID	Wird für Werbung benötigt, die an verschiedenen Stellen im Web angezeigt wird und dient zum Speichern der Präferenzen der Benutzer_innen.	2 Jahre	HTTP	Doubleclick
DV	Wird benötigt, um die Präferenzen der Nutzer_innen und andere Informationen zu speichern. Dazu gehören insbesondere die bevorzugte Sprache, die Anzahl der auf der Seite anzuzeigenden Suchergebnisse sowie die Entscheidung, ob der Google SafeSearch-Filter aktiviert werden soll oder nicht.	2 Jahre	HTTP	Google
HSID	Enthält die Google-Konto-ID und den letzten Anmeldezeitpunkt der Nutzer_innen.	2 Jahre	HTTP	Google
IDE	Wird benötigt, um die Handlungen der Benutzer_innen auf der Webseite nach der Anzeige oder dem Klicken auf eine der Anzeigen des Anbieters zu registrieren und zu melden, mit dem Zweck der Messung der Wirksamkeit einer Werbung und der Anzeige zielgerichteter Werbung für die Benutzer_innen.	2 Jahre	HTTP	Doubleclick
LOGIN_INFO	Wird benutzt, um die Anmeldedaten der Benutzer_innen von Google-Services zu speichern.	2 Jahre	HTTP	Google
NID	Wird benutzt, um Informationen über Nutzer_innen-Einstellungen zu speichern.	6 Monate	HTTP	Google
OTZ	Wird benötigt, um Aktivitäten von Besucher_innen mit anderen Geräten, die zuvor über das Google-Konto eingeloggt sind zu verknüpfen. Auf diese Weise wird die Werbung auf verschiedene Geräte zugeschnitten.	1 Monat	HTTP	Google
RUL	Wird benötigt, um festzustellen, ob Werbung richtig angezeigt wurde, um Marketingaktivitäten effizienter zu gestalten.	1 Jahr	HTTP	Doubleclick
SAPISID	Wird benötigt, um Benutzer_innen-Einstellungen zu speichern und um die Bandbreite der User_innen zu berechnen.	Persistent	HTTP	Google
SEARCH_SAMESITE	Ermöglicht es Servern, das Risiko von CSRF- und Informationsleck-Angriffen zu mindern, indem es festlegt, dass ein bestimmtes Cookie nur bei Anfragen gesendet werden darf, die von derselben registrierbaren Domäne ausgehen.	6 Monate	HTTP	Google
SID	Enthält die Google-Konto-ID und den letzten Anmeldezeitpunkt der Nutzer_innen.	2 Jahre	HTTP	Google
SIDCC	Wird benötigt, um Informationen über Nutzer_inneneinstellungen und -informationen für Google Maps zu speichern.	3 Monate	HTTP	Google
SSID	Wird benötigt, um Besucher_innen Informationen für Videos, die von YouTube auf in Google Maps integrierten Karten gehostet werden zu sammeln.	Persistent	HTTP	Google
__SECURE-1PAPISID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-1PSID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-3PAPISID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-3PSID	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-3PSIDCC	Wird für Targeting-Zwecke benötigt, um ein Profil der Interessen der Website-Besucher_innen zu erstellen.	2 Jahre	HTTP	Google
__SECURE-APISID	Wird benötigt, um ein Profil der Interessen von Website-Besucher_innen zu erstellen, um durch Retargeting relevante und personalisierte Werbung anzuzeigen.	8 Monate	HTTP	Google
__SECURE-HSID	Wird benötigt, um digital signierte und verschlüsselte Daten aus der eindeutigen Google-ID zu sichern und die letzte Anmeldezeit, die Google zur Identifizierung von Besucher_innen, zur Verhinderung der betrügerischen Verwendung von Anmeldedaten und zum Schutz von Besucher_innendaten von unbefugten Parteien zu speichern. Dies kann auch für Targeting-Zwecke verwendet werden, um relevante und personalisierte Werbeinhalte anzuzeigen.	8 Monate	HTTP	Google
__SECURE-SSID	Wird benötigt, um Informationen darüber zu speichern, wie die Besucher_innen die Website nutzen, und über die Anzeigen, die sie möglicherweise gesehen haben, bevor sie die Website besucht haben. Wird auch zur Anpassung von Anzeigen auf Google-Domains verwendet.	8 Monate	HTTP	Google
test_cookie	Wird als Test gesetzt, um zu prüfen, ob der Browser das Setzen von Cookies zulässt. Enthält keine Identifikationsmerkmale.	15 Minuten	HTTP	Google
VISITOR_INFO1_LIVE	Wird benötigt, um Benutzer_innen-Einstellungen zu speichern und um die Bandbreite der User_innen zu berechnen.	6 Monate	HTTP	Youtube
facebook	Wird verwendet, um Anzeigen auszuliefern oder Retargeting zu ermöglichen	90 Tage	HTTP	Meta (Facebook)
__fb_chat_plugin	Wird zum Speichern und Verfolgen von Interaktionen (Marketing/Tracking) benötigt.	Persistent	HTTP	Meta (Facebook)
_js_datr	Wird benötigt, um Benutzer_inneneinstellungen zu speichern.	2 Jahre	HTTP	Meta (Facebook)
_fbc	Wird benötigt, um den letzten Besuch zu speichern (Marketing/Tracking).	2 Jahre	HTTP	Meta (Facebook)
fbm	Wird benötigt, um Kontodaten zu speichern (Marketing/Tracking).	1 Jahr	HTTP	Meta (Facebook)
xs	Wird zum Speichern einer eindeutigen Sitzungs-ID benötigt (Marketing/Tracking).	1 Jahr	HTTP	Meta (Facebook)
wd	Wird benötigt, um die Bildschirmauflösung zu loggen.	1 Woche	HTTP	Meta (Facebook)
fr	Wird benötigt, um Anzeigen zu schalten und deren Relevanz zu messen und zu verbessern.	3 Monate	HTTP	Meta (Facebook)
act	Wird benötigt, um angemeldete Benutzer_innen zu speichern (Marketing/Tracking).	90 Tage	HTTP	Meta (Facebook)
_fbp	Wird zum Speichern und Verfolgen von Besuchen auf verschiedenen Websites benötigt (Marketing/Tracking).	3 Monate	HTTP	Meta (Facebook)
datr	Wird benötigt, um den Browser für Sicherheits- und Website-Integritätszwecke, einschließlich der Wiederherstellung von Konten und der Identifizierung von potenziell gefährdeten Konten zu identifizieren.	2 Jahre	HTTP	Meta (Facebook)
dpr	Wird für Analysezwecke verwendet. Technische Parameter werden protokolliert (z. B. Seitenverhältnis und Abmessungen des Bildschirms), damit Facebook-Apps korrekt angezeigt werden können.	1 Woche	HTTP	Meta (Facebook)
sb	Wird benötigt, um Browserdetails und Sicherheitsinformationen des Facebook-Kontos zu speichern.	2 Jahre	HTTP	Meta (Facebook)
dbln	Wird benötigt, um Browserdetails und Sicherheitsinformationen des Facebook-Kontos zu speichern.	2 Jahre	HTTP	Meta (Facebook)
spin	Wird für Werbezwecke und Berichterstattung über soziale Kampagnen benötigt.	Session	HTTP	Meta (Facebook)
presence	Enthält den "Chat"-Status eingeloggter Benutzer_innen.	1 Monat	HTTP	Meta (Facebook)
cppo	Wird für statistische Zwecke benötigt.	90 Tage	HTTP	Meta (Facebook)
locale	Wird benötigt, um die Spracheinstellungen zu speichern.	Session	HTTP	Meta (Facebook)
pl	Wird für Facebook Pixel benötigt.	2 Jahre	HTTP	Meta (Facebook)
lu	Wird für Facebook Pixel benötigt.	2 Jahre	HTTP	Meta (Facebook)
c_user	Wird für Facebook Pixel benötigt.	3 Monate	HTTP	Meta (Facebook)
bcookie	Wird zur Speicherung von Browserdaten benötigt (Marketing/Tracking).	2 Jahre	HTTP	LinkedIn
li_oatml	Wird verwendet, um LinkedIn-Mitglieder außerhalb von LinkedIn zu Werbe- und Analysezwecken zu identifizieren.	1 Monat	HTTP	LinkedIn
BizographicsOptOut	Wird zum Speichern von Datenschutzeinstellungen benötigt.	10 Jahre	HTTP	LinkedIn
li_sugr	Wird zur Speicherung von Browserdaten benötigt (Marketing/Tracking).	3 Monate	HTTP	LinkedIn
UserMatchHistory	Wird zur Bereitstellung von Werbeeinblendungen oder Retargeting benötigt (Marketing/Tracking).	30 Tage	HTTP	LinkedIn
linkedin_oauth_	Wird benötigt, um seitenübergreifende Funktionen bereitzustellen.	Session	HTTP	LinkedIn
lidc	Wird benötigt, um durchgeführte Aktionen auf der Website zu speichern (Marketing/Tracking).	1 Tag	HTTP	LinkedIn
bscookie	Wird benötigt, um durchgeführte Aktionen auf der Website zu speichern (Marketing/Tracking).	2 Jahre	HTTP	LinkedIn
X-LI-IDC	Wird benötigt, um seitenübergreifende Funktionen bereitzustellen (Marketing/Tracking).	Session	HTTP	LinkedIn
AnalyticsSyncHistory	Speichert den Zeitpunkt, zu dem der/die Benutzer_in mit dem "lms_analytics"-Cookie synchronisiert wurde.	30 Tage	HTTP	LinkedIn
lms_ads	Wird benötigt, um LinkedIn-Mitglieder außerhalb von LinkedIn zu identifizieren.	30 Tage	HTTP	LinkedIn
lms_analytics	Wird benötigt, um LinkedIn-Mitglieder zu Analysezwecken zu identifizieren.	30 Tage	HTTP	LinkedIn
li_fat_id	Wird für eine indirekte Mitgliederidentifikation benötigt, die für Conversion Tracking, Retargeting und Analysen verwendet wird.	30 Tage	HTTP	LinkedIn
U	Wird benötigt, um den Browser zu identifizieren.	3 Monate	HTTP	LinkedIn
_guid	Wird benötigt, um ein LinkedIn-Mitglied für Werbung über Google Ads zu identifizieren.	90 Tage	HTTP	LinkedIn

News