SD AI CL ASMar 10

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee

arXiv:2603.09714v115.31 citationsh-index: 14

Predicted impact top 5% in SD · last 90 daysOriginality Incremental advance

AI Analysis

This addresses a critical bottleneck in auditory AI for applications requiring complex audio comprehension, though it is incremental in improving existing models.

The paper tackled the underexplored problem of multi-audio understanding in large audio-language models by introducing MUGEN, a benchmark that revealed performance degradation with more audio inputs, and proposed training-free strategies like Audio-Permutational Self-Consistency, achieving up to 6.74% accuracy gains.

While multi-audio understanding is critical for large audio-language models (LALMs), it remains underexplored. We introduce MUGEN, a comprehensive benchmark evaluating this capability across speech, general audio, and music. Our experiments reveal consistent weaknesses in multi-audio settings, and performance degrades sharply as the number of concurrent audio inputs increases, identifying input scaling as a fundamental bottleneck. We further investigate training-free strategies and observe that Audio-Permutational Self-Consistency, which diversifies the order of audio candidates, helps models form more robust aggregated predictions, yielding up to 6.28% accuracy gains. Combining this permutation strategy with Chain-of-Thought further improves performance to 6.74%. These results expose blind spots in current LALMs and provide a foundation for evaluating complex auditory comprehension.

View on arXiv PDF

Similar