VorTEX: Various overlap ratio for Target speech EXtraction

arXiv:2603.1480339.5h-index: 2

Predicted impact top 68% in SD · last 90 daysOriginality Incremental advance

AI Analysis

This addresses a limitation in target speech extraction for realistic audio processing by focusing on variable overlap ratios, representing an incremental improvement over existing methods.

The paper tackles the problem of target speech extraction in realistic scenarios with varying overlap ratios, introducing VorTEX which achieves the highest separation fidelity across 20-100% overlap, with specific gains like 5.50 dB at 20% and 2.04 dB at 100% overlap.

Target speech extraction (TSE) aims to recover a target speaker's voice from a mixture. While recent text-prompted approaches have shown promise, most approaches assume fully overlapped mixtures, limiting insight into behavior across realistic overlap ratios. We introduce VorTEX (Various overlap ratio for Target speech EXtraction), a text-prompted TSE architecture with a Decoupled Adaptive Multi-branch (DAM) Fusion block that separates primary extraction from auxiliary regularization pathways. To enable controlled analysis, we construct PORTE, a two-speaker dataset spanning overlap ratios from 0% to 100%. We further propose Suppression Ratio on Energy (SuRE), a diagnostic metric that detects suppression behavior not captured by conventional measures. Experiments show that existing models exhibit suppression or residual interference under overlap, whereas VorTEX achieves the highest separation fidelity across 20-100% overlap (e.g., 5.50 dB at 20% and 2.04 dB at 100%) while maintaining zero SuRE, indicating robust extraction without suppression-driven artifacts.

View on arXiv PDF

Similar