S-Edge

Efficient and interpretable raw audio classification with diagonal state space models at ECMLPKDD’25

Der diskrete Vorwärtspfad unseres vorgeschlagenen S-Edge Models im Vergleich zum ursprünglichen S5 layer.

© Matthias Bittner, Daniel Schnöll

Der diskrete Vorwärtspfad unseres vorgeschlagenen S-Edge Models im Vergleich zum ursprünglichen S5 layer.

Forschende des Embedded Machine Learning CD-Labs am ICT stellen S-Edge vor, eine effiziente und interpretierbare State-Space-Model-Architektur zur Klassifikation von Audiodaten.

Link zur Publikation:
https://link.springer.com/article/10.1007/s10994-025-06807-z#rightslink, öffnet eine externe URL in einem neuen Fenster

Link zum Code:
https://github.com/embedded-machine-learning/S-Edge, öffnet eine externe URL in einem neuen Fenster

Link zur Konferenz:
https://ecmlpkdd.org/2025/, öffnet eine externe URL in einem neuen Fenster

Auf der kommenden European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECMLPKDD’25) präsentieren Forschende des Christian-Doppler-Labors für Embedded Machine Learning an der TU Wien S-Edge, eine effiziente und interpretierbare State-Space-Model-Architektur. 

State Space Models haben gute Leistungen bei der Modellierung langer Sequenzen, etwa bei der Klassifikation von Audiodaten, erzielt. Ihre Definition im Zeitkontinuierlichen ermöglicht die Diskretisierung und den Betrieb des Netzwerks bei unterschiedlichen Abtastraten. Diese Eigenschaft wurde jedoch bisher nicht genutzt, um die Rechenlast schichtweise zu verringern. Wir schlagen eine Familie hardwarefreundlicher S-Edge-Modelle vor, die mit einem layerbasierten Downsampling-Ansatz die zeitliche Auflösung zwischen einzelnen Layern anpassen. Durch die Anwendung bestehender Methoden aus der linearen Regelungstheorie können wir die Zustands- bzw. Speicherdynamik analysieren und dadurch verstehen, wie und wo Downsampling sinnvoll ist. Evaluierungen auf dem Google Speech Command-Datensatz zeigen, dass unsere autoregressiven/kausalen S-Edge-Modelle zwischen 8–141k Parametern erreichen und eine Testgenauigkeit von 90–95 % erzielen, im Vergleich zu einem kausalen S5-Modell mit 208k Parametern und 95,8 % Testgenauigkeit. Unter Verwendung unserer C++17-Header-only-Implementierung auf einem ARM Cortex-M4F benötigt das größte Modell 103 Sekunden Inferenzzeit bei 95,19 % Testgenauigkeit, während das kleinste Modell bei 88,01 % Testgenauigkeit nur 0,29 Sekunden benötigt. Unsere Lösungen decken somit einen Designraum ab, der sich über das 17-fache in der Modellgröße, das 358-fache in der Inferenzlatenz und 7,18 Prozentpunkte in der Genauigkeit erstreckt.

Der diskrete Vorwärtspfad unseres vorgeschlagenen S-Edge Models im Vergleich zum ursprünglichen S5 layer.

© Matthias Bittner, Daniel Schnöll

Der diskrete Vorwärtspfad unseres vorgeschlagenen S-Edge Models im Vergleich zum ursprünglichen S5 layer.