Wir treffen Dr. Adil Mukhtar im Forschungsbereich für integrale Gebäudetechnik an der TU Wien, nachdem seine kürzlich veröffentlichte Arbeit über mangelnde Reproduzierbarkeit von Codes und Daten im Bauingenieurwesen unsere Aufmerksamkeit erregt hat. Dr. Mukhtar hat seinen Master in Informatik in Pakistan gemacht und zog dann vor sechs Jahren nach Österreich, um sich intensiver mit KI zu beschäftigen. Seitdem hat er sich neu orientiert und wendet nun maschinelles Lernen auf die Bauwissenschaften an. Unser Gespräch reicht von Trainingsmodellen zur Fehlererkennung in Gebäudesystemen über die Feinheiten von Simulationsdatensätzen und erklärbaren KI-Methoden bis hin zu den unterschiedlichen Forschungskulturen in der Bauphysik und der Informatik – und was diese Unterschiede für das Datasharing bedeuten.
KI-gestützte Fehlererkennung
„Bei Modellen für maschinelles Lernen – ob sie nun in Gebäudesystemen oder anderswo eingesetzt werden – mangelt es den meisten, die wirklich effizient sind, von Natur aus an Transparenz und Interpretierbarkeit. Deshalb werden sie auch als Blackbox-Modelle bezeichnet. Oftmals erfährt man nicht, warum das Modell diese oder jene Entscheidung getroffen hat. Und genau hier kommen Explainable AI-Techniken (XAI) ins Spiel.“
Adil Mukhtar beschreibt, wie die KI-gestützte Fehlererkennung und -diagnose mittlerweile zum Standard in der Gebäudetechnikforschung geworden ist: Modelle scannen Sensordaten von HLK-Systemen (Heizung, Lüftung, Klimatisierung), um Anomalien zu erkennen und deren Ursachen zu lokalisieren. Dadurch werden rohe Datenströme aus Temperatur-, Durchfluss- und Druckmessungen in Warnmeldungen umgewandelt, die im Idealfall automatische Arbeitsaufträge ergeben. Um diesen Warnmeldungen vertrauen zu können, sind Explainable AI-Techniken (XAI) erforderlich. Sie zeigen genau, welche Sensorwerte oder Muster den Fehler ausgelöst haben, sodass Techniker_innen die automatisierten Entscheidungen überprüfen und eingreifen können. Genau für diese Modelle sind vergleichbare Trainingsdatensätze aus anderen Gebäudesystemen erforderlich, die in der Regel aus Simulationen stammen.
Arbeiten mit Simulationsdaten
„Das Problem bei der Arbeit mit maschinellem Lernen in der Gebäudetechnik besteht darin, dass man in der Regel nicht über Daten aus der realen Welt verfügt, da Vertraulichkeitsvereinbarungen und geschützte Informationen wie die Anzahl der Bewohner, die Gebäudestruktur und vieles mehr dies verhindern. Wir greifen daher auf Datensätze aus Simulationen zurück, um unsere Modelle zu trainieren. Aber Simulationen haben ihre eigenen Nachteile. Sie sind nicht perfekt. Sie sind nicht realitätsnah. Sie sind eine zu starke Vereinfachung der Realität und haben ihre eigenen anfänglichen Bias.“
Wenn möglich, werden anonymisierte Daten aus der Praxis innerhalb von Projektkonsortien ausgetauscht. Für die Fehlererkennung stützt sich Dr. Mukhtar aber auf simulierte Datensätze, die in renommierten Fachzeitschriften veröffentlicht wurden und denen er vertraut. Modelle, die mit stark vereinfachten Simulationen trainiert wurden, lassen sich oft nicht auf komplexe reale Bedingungen übertragen, was zu mehr Fehlern bei der Anwendung in realen Gebäuden führt. XAI-Tools wie SHAP helfen, indem sie aufzeigen, welche simulierten Eingaben (Gebäudeeigenschaften, Raumaufteilungen, Fehlerkennzeichnungen etc.) die Ausgabe des Modells beeinflussen, – vollständig aufheben kann diese Transparenz die simulationsbedingten Verzerrungen aber nicht. Für Adil reichen jedoch selbst vertrauenswürdige simulierte Datensätze aus renommierten Publikationen nur bis zu einem gewissen Grad. Denn ohne detaillierte Metadaten darüber, wie diese Datensätze zum Aufbau und Training des resultierenden Modells verwendet wurden, können andere Forschende weder die Schritte und Parameter nachvollziehen noch die Ergebnisse überprüfen.
Metadaten für maschinelles Lernen
„Als KI-Ingenieur versuche ich immer, den simulierten Datensatz aus dem Artikel zu teilen, wenn ich ihn zur Verfügung habe. Ich bemühe mich, die Gewichtung der Parameter offen zu teilen und zu erklären, wie und warum ich die Datensätze in Trainings-, Validierungs- und Testteile aufgeschlüsselt habe, damit andere mein Modell und meine Ergebnisse reproduzieren können. Beim maschinellen Lernen muss mehr über die Initialisierung beschrieben werden, insbesondere beim methodischen Teil sollte man die Feinabstimmung so detailliert wie möglich erklären."
Maschinelles Lernen erfordert genaue Angaben zu Datensplits, Modelloptimierung, Merkmalsumwandlungen, Hyperparameterauswahl und leistungsstärksten Gewichtungen, um Glückstreffer oder widersprüchliche Replikationsergebnisse zu vermeiden. Ohne diese Angaben ist es für andere nicht möglich, das Modell unter identischen Bedingungen neu anzulernen oder zu überprüfen, ob der Output auf robusten Methoden oder lediglich auf Zufall beruht, denn unterschiedliche Initialisierungen oder Datensplits können zu stark abweichenden Ergebnissen führen. Dr. Mukhtar berichtet, dass er beim Einstieg in die Bauwissenschaften im Vergleich zu seinen Erfahrungen aus der Informatik große Unterschiede bei der Verwendung und dem Austausch von Metadaten festgestellt hat. Seine aktuelle Veröffentlichung Reproducibility of machine learning-based fault detection and diagnosis for HVAC systems in buildings, öffnet eine externe URL in einem neuen Fenster zeigt, dass Forschende in der Bauphysik beschreibende Metadaten zu Versuchsanordnungen priorisieren, oft aber Trainingsdatensätze und Modellierungsdetails aussparen.
Focus auf mehr Reproduzierbarkeit
„Bei etwa 70 % der von uns geprüften Artikel und Studien wurden weder der Datensatz noch Informationen zum Code oder zu ergänzendem Material zur Verfügung gestellt. Ich habe jedoch beobachtet, dass Bauingenieur_innen eher dazu neigen, Beschreibungen des Datensatzes selbst zu teilen – es gibt also einen Unterschied in der Forschungskultur. Alle Metadaten, der Kontext der gebauten Umwelt, die Methodik oder der Versuchsaufbau werden gerne weitergegeben. Im Allgemeinen besteht jedoch keine Verpflichtung, innerhalb des Einreichungsprozesses die Datensätze oder Skripte zu teilen.“
Dr. Mukhtars Artikel betont, dass ein detaillierter Austausch von Metadaten – über grundlegende Gebäude- oder Laborbeschreibungen hinaus – für eine echte Reproduzierbarkeit unerlässlich ist. Bauingenieur_innen dokumentieren physische Kontexte wie Raumaufteilungen und HLK-Zonen gut, sind aber laut Mukhtar oft „code-scheu” (Unsicherheit hinsichtlich des Veröffentlichungsprozesses, der Offenlegung von Details usw.), während Forschende im Bereich des maschinellen Lernens häufig der Transparenz des Codes und der Modellkonfigurationen Vorrang einräumen, wenn sie ergänzendes Material weitergeben. Zwar ist es unter Forschenden üblich, sich zu relevanten Arbeiten direkt an die Autor_innen zu wenden und informell auszutauschen, darüber hinaus sieht Adil Mukhtar jedoch kaum äußere Anreize, Daten und Code standardisiert gemeinsam mit einer Veröffentlichung bereitzustellen. Debatten über Reproduzierbarkeit dauern laut ihm seit Jahrzehnten an, inmitten des Drucks „publish or perish” und proprietärer Beschränkungen bei Bauprojekten. Top-down-Vorgaben von Geldgebern mit speziellen Arbeitspaketen zum Datenaustausch könnten Veränderungen vorantreiben. Erste Anzeichen sind vielversprechend: Verlage verleihen Auszeichnungen, Förderinstitutionen unterstützen FAIR-Praktiken. Adil Mukhtar plädiert jedoch für ein geschärftes Bewusstsein – denn ohne kulturellen Wandel und verbindliche Regeln für den Austausch von Code bleiben Datensätze und Blackbox-Modelle isoliert, sodass ihr Potenzial für die zukünftige Forschung ungenutzt bleibt.
Kontakt
Adil Mukhtar
Forschungsbereich Integrale Gebäudetechnik
TU Wien
adil.mukhtar@tuwien.ac.at
Zentrum für Forschungsdatenmanagement
TU Wien
research.data@tuwien.ac.at
