SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai

arXiv:2603.07865v111.5

Predicted impact top 34% in SD · last 90 daysOriginality Incremental advance

AI Analysis

This work significantly reduces the inference latency for text-to-audio diffusion models, benefiting users and services requiring faster audio generation.

This paper addresses the high latency of text-to-audio diffusion models, which require many function evaluations (NFEs). SoundWeaver, a training-free serving system, reduces latency by 1.8-3.0x by warm-starting from semantically similar cached audio, using only about 1K cache entries, while maintaining or improving perceptual quality.

Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0$ \times $ latency reduction with a cache of only ${\sim}$1K entries while preserving or improving perceptual quality.

View on arXiv PDF

Similar