AI HC LGNov 18, 2025

Uncertainty-Resilient Multimodal Learning via Consistency-Guided Cross-Modal Transfer

arXiv:2511.15741v13.3

Originality Incremental advance

AI Analysis

It addresses uncertainty-resilient learning for multimodal systems like brain-computer interfaces, but appears incremental as it builds on existing cross-modal transfer ideas.

This thesis tackled uncertainty in multimodal learning due to noisy data and heterogeneous modalities by using consistency-guided cross-modal transfer, resulting in improved model stability, discriminative ability, and robustness to noisy supervision on affect-recognition benchmarks.

Multimodal learning systems often face substantial uncertainty due to noisy data, low-quality labels, and heterogeneous modality characteristics. These issues become especially critical in human-computer interaction settings, where data quality, semantic reliability, and annotation consistency vary across users and recording conditions. This thesis tackles these challenges by exploring uncertainty-resilient multimodal learning through consistency-guided cross-modal transfer. The central idea is to use cross-modal semantic consistency as a basis for robust representation learning. By projecting heterogeneous modalities into a shared latent space, the proposed framework mitigates modality gaps and uncovers structural relations that support uncertainty estimation and stable feature learning. Building on this foundation, the thesis investigates strategies to enhance semantic robustness, improve data efficiency, and reduce the impact of noise and imperfect supervision without relying on large, high-quality annotations. Experiments on multimodal affect-recognition benchmarks demonstrate that consistency-guided cross-modal transfer significantly improves model stability, discriminative ability, and robustness to noisy or incomplete supervision. Latent space analyses further show that the framework captures reliable cross-modal structure even under challenging conditions. Overall, this thesis offers a unified perspective on resilient multimodal learning by integrating uncertainty modeling, semantic alignment, and data-efficient supervision, providing practical insights for developing reliable and adaptive brain-computer interface systems.

View on arXiv PDF

Similar