Wir treffen Dr. Félix Iglesias Vázquez am Institut für Telekommunikation auf dem Gußhaus-Campus der TU Wien, wo er seit über zwölf Jahren in der Forschung und Lehre tätig ist. Umgeben von Bildschirmen und Servern tauchen wir ein in ein Gespräch über datenorientierte Forschung, offene Codepraktiken für wirklich reproduzierbare Wissenschaft und den verantwortungsvollen Einsatz von KI und Large Language Models.
Als Teil der Arbeitsgruppe für Network Security und mit seiner Expertise in Elektrotechnik, Datenanalyse und Machine Learning entwickelt Félix neuartige Methoden und Algorithmen, um in den unterschiedlichsten Forschungsfeldern komplexe Datensätze auf Anomalien zu untersuchen.
Theorie trifft Praxis
„Von der Theorie zur Anwendung – vielleicht ist es zu viel, an allem gleichzeitig zu arbeiten. Aber wenn man sich mit Theorie oder Methodik beschäftigt, darf man die tatsächliche Praxis nicht vergessen: Es geht darum, echte Probleme zu lösen – nicht bloß mit Mathematik zu spielen.“
Wir diskutieren die Herausforderung, theoretische Modelle zu entwickeln, ohne dabei den Bezug zur realen Welt zu verlieren. Besonders in Bereichen mit stark personenbezogenen Daten, beispielsweise in der Medizintechnik, sind Kontextinformationen wie genutzte Messinstrumente, Laborstandards oder Patientenakten unerlässlich. Vor ähnliche Herausforderungen stehen Forschende im Bereich der Netzwerksicherheit: Qualitativ hochwertige und gut dokumentierte Datensätze zu erhalten und dabei trotzdem die Datenschutz-, Sicherheits- und Anonymisierungsanforderungen einzuhalten.
Anomalien neu denken
„Ich versuch die bereits bestehenden und publizierten Tools und Modelle zur Anomalieerkennung zu verwenden – bis ich merke, dass sie in meinem Bereich nicht funktionieren. Dann beginnt die Frage: Warum?“
Eine zentrale Erkenntnis ist, dass die Anomalieerkennung mit der Natur der Daten und dem Kontext des Forschungsfeldes übereinstimmen muss. In einigen Domänen manifestieren sich Anomalien als kompakte, dichte Cluster statt isolierter Ausreißer, was maßgeschneiderte Erkennungsstrategien erfordert. Hier ist ein datenorientierter Ansatz nötig und eine breitere Perspektive darauf, was Anomalien eigentlich sind – nicht nur isolierte Punkte, sondern auch Neuheiten oder Muster, die nicht den vorgegebenen Normen entsprechen.
Daten im Fokus
„Bei jedem Datensatz, den ich nutze, will ich wissen: Welche Anwendung unterstützt er? Welches Problem löst er? Wie werden die Daten verwendet? Und was verraten mir die Metadaten, vor allem zur Kennzeichnung etc.?“
Félix betont die Bedeutung von auffindbaren Metadaten beziehungsweise gründlicher Dokumentation und erklärt, dass schlechte Datenqualität und die Abhängigkeit von synthetischen Benchmark-Datensätzen, die die realen Kommunikationsdaten nicht repräsentieren, Fortschritte ausbremsen können. Sogenannte modellzentrierte Ansätze versagen oft, wenn sie auf Forschungsfelder und Probleme mit anderer Datengrundlage und Struktur angewandt werden. Deshalb setzt er auf datenorientierte Ansätze, die die Qualität und den Kontext der Daten über die reine Modelloptimierung stellen. Seine Arbeitsgruppe entwickelt robuste, anpassbare Algorithmen wie SDO (Sparse Data Observers) oder Go Flows, die in verschiedenen Forschungsfeldern erfolgreich eingesetzt werden.
Code, der reproduzierbar bleibt
„Beim Teilen von Code gilt: Je weniger externe Bibliotheken, desto besser. Daher ist es oft am besten, alles in einem Docker-Container zu veröffentlichen. So sind Bibliotheken, Abhängigkeiten und sogar das Betriebssystem fixiert. Eine Art eigenes Ökosystem, in dem Experimente stets reproduzierbar sind.“
Der Fokus liegt darauf, nicht nur die FAIR-Prinzipien, sondern auch fachspezifische Standards und intelligente Datenmodelle stärker zu beachten, die Datensätze für die wissenschaftliche Gemeinschaft besser interpretierbar und nutzbar machen. Um durch Softwareabhängigkeiten und Bibliotheksversionen verursachte Probleme bei der Reproduzierbarkeit zu lösen, plädiert er für die Docker-Containerisierung, die sicherstellt, dass Experimente über einen längeren Zeitraum hinweg zuverlässig repliziert werden können.
Unser Gespräch wendet sich den aktuellen Fortschritten in der Datenanalyse zu, wobei Dr. Iglesias LLMs als mächtige Werkzeuge hervorhebt, besonders wenn sie als Agenten agieren, die Ergebnisse in komplexen Umgebungen testen und interpretieren können. Hier zeigt sich vorsichtiger Optimismus gegenüber den Chancen und Risiken von KI-Agenten, insbesondere in Bezug auf Fehlerfortpflanzungen und Modelldegradierungen.
Blick in die Zukunft
„Das Problem bei Machine Learning und künstlicher Intelligenz ist nicht, dass sie versagen können – das können sie. Das Problem ist, wenn sie versagen und wir es nicht merken. Das ist eine Katastrophe, denn in solchen Architekturen ist es sehr wahrscheinlich, dass dann alle Systeme auf ähnliche Weise versagen."
Dr. Iglesias zufolge besteht die eigentliche Gefahr nicht nur in zufälligen Fehlern, sondern in systematischen, unsichtbaren Ausfällen, die sich großflächig ausbreiten können. Deshalb ist es besonders wichtig, dass eine strenge Überwachung und sorgfältige Kontrollen durch Menschen erfolgen, deren unterschiedliche Hintergründe und Erfahrungen eine kontextbezogene Bewertung dieser Technologien ermöglichen.
Félix betont zudem die Notwendigkeit von kritischem Hinterfragen, Transparenz und Anpassungsfähigkeit in der wissenschaftlichen Praxis und hofft, dass seine Algorithmen und sein pädagogischer Einfluss seine Studierenden inspirieren, ihre eigenen Meinungen zu bilden.
Kontakt
Dr. Félix Iglesias Vázquez
Institute of Telecommunications
TU Wien
felix.iglesias@tuwien.ac.at
Zentrum für Forschungsdatenmanagement
TU Wien
research.data@tuwien.ac.at
