Alle News an der TU Wien

PIANO-SSM

Diagonal State Space Models for efficient MIDI-to-RAW Audio Synthesis at DAFx25

Piano SSM Grafik

1 von 2 Bildern oder Videos

Logo von Konferenz

1 von 2 Bildern oder Videos

Forschende des Christian-Doppler-Labors für Embedded Machine Learning am ICT stellen Piano-SSM vor, eine leichtgewichtige und interpretierbare neuronale Architektur zur Echtzeit-Audiosynthese von Klaviermusik aus MIDI-Eingaben, die diagonale Zustandsraummodelle nutzt, ohne domänenspezifische Vorkenntnisse zu erfordern.

Audio-Beispiele: https://domdal.github.io/piano-ssm-samples/, öffnet eine externe URL in einem neuen Fenster
Repository: https://github.com/domdal/piano-ssm/, öffnet eine externe URL in einem neuen Fenster
DAFx25: https://dafx25.dii.univpm.it, öffnet eine externe URL in einem neuen Fenster

Auf der bevorstehenden 28. Internationalen Konferenz für Digitale Audioeffekte (DAFx25) präsentieren Forschende des Christian-Doppler-Labors für Embedded Machine Learning an der TU Wien Piano-SSM, eine neuartige neuronale Architektur für effiziente und interpretierbare MIDI-zu-RAW-Audio-Synthese.
Piano-SSM baut auf aktuellen Fortschritten in tiefen diagonalen Zustandsraummodellen (SSMs) auf und schlägt eine durchgängig trainierbare Architektur vor, die hochwertige Klavier-Audiodaten direkt aus MIDI-Eingaben synthetisiert. Im Gegensatz zu früheren Ansätzen wie DDSP-Piano, die domänenspezifische Teilmodelle integrieren, verzichtet Piano-SSM vollständig auf handgefertigte akustische Vorkenntnisse. Stattdessen stützt es sich ausschließlich auf ein kompaktes SSM-basiertes Sequenzmodell mit nur 270 k Parametern im größten Modell und erreicht dennoch wettbewerbsfähige Ergebnisse auf etablierten Datensätzen.
Quantitative Auswertungen auf den Datensätzen MAESTRO v3.0.0 und MAPS zeigen, dass Piano-SSM in Bezug auf den Multi-Scale Spectral Loss (MSSL) bestehende Methoden übertrifft oder ihnen nahekommt, während es gleichzeitig Echtzeit-Autoregressive-Inferenz auf herkömmlichen CPUs ermöglicht. Eine C++17-Header-only-Implementierung zeigt, dass selbst die größte Modellvariante eine Sekunde 44,1 kHz-Audio in 0,44 Sekunden mit minimaler Latenz (10,1 µs I/O-Verzögerung) synthetisieren kann – ein Nachweis für die Anwendbarkeit in eingebetteten und latenzkritischen Systemen.
Ein zentraler Beitrag ist die Samplingraten-Flexibilität des Modells: Piano-SSM kann mit einer hohen Rate trainiert und mit einer niedrigeren Rate synthetisiert werden, ohne dass ein erneutes Training erforderlich ist. Die Analyse von Diskretisierungseffekten zeigt eine starke Korrelation zwischen Leistungsabfall und Eigenwert-Aliasing und liefert so Erkenntnisse über die Abwägung zwischen Genauigkeit und Rechenaufwand.