SDMMFeb 26, 2016

Extension spectrale d'un signal de parole de la bande téléphonique à la bande AM

arXiv:1602.08185v1
Originality Incremental advance
AI Analysis

This work addresses speech quality enhancement for telephony applications, but it is incremental as it builds on existing models with hybrid techniques.

The paper tackles the problem of bandwidth extension from narrowband to wideband speech signals by independently extending high and low frequencies using excitation-filter and sinusoidal models with multi-layer perceptrons, resulting in improved sound quality compared to narrowband speech, though with significant listener variation.

This document proposes a bandwidth extension system producing a wideband signal from a narrowband speech signal. The extension is performed independently for high and low frequencies. High-frequency extension uses the excitation-filter model. Extension of the excitation is performed in the time domain using a non-linear function, while the spectral envelope is extended in the cepstral domain using a multi-layer perceptron. Low-band extension is based on the sinusoidal model. The amplitude of sinusoids is also estimated using a multi-layer perceptron. The results show that the sound quality after extension is higher than that of narrowband speech, with a significant variation across listeners. Some of the techniques, including excitation extension, are of interest in the field of speech coding. ----- Le présent mémoire propose un système d'extension de la bande permettant de produire un signal en bande AM à partir d'un signal de parole en bande téléphonique. L'extension est effectuée de façon indépendante pour les hautes fréquences et les basses fréquences. L'extension des hautes fréquences utilise le modèle filtre-excitation. L'extension de l'excitation est réalisée dans le domaine temporel par une fonction non linéaire, alors que l'extension de l'enveloppe spectrale s'effectue dans le domaine cepstral par un perceptron multi-couches. L'extension de la bande basse utilise le modèle sinusoïdal. L'amplitude des sinusoïdes est aussi estimée par un perceptron multi-couches. Les résultats obtenus montrent que la qualité sonore après extension est supérieure à celle de la bande téléphonique, avec une importante différence entre les auditeurs. Certaines techniques développées, dont l'extension de l'excitation, présentent un certain intérêt pour le domaine du codage de la parole.

Foundations

The foundational work for this paper's niche, ranked by how specifically the neighbourhood builds on it — not by global fame.

Your Notes