AIFeb 12

MAPLE: Modality-Aware Post-training and Learning Ecosystem

Nikhil Verma, Minjung Kim, JooYoung Yoo, Kyung-Min Jin, Manasa Bharadwaj, Kevin Ferreira, Ko Keun Kim, Youngjoon Kim

arXiv:2602.11596v12.4h-index: 5

Originality Incremental advance

AI Analysis

This addresses the challenge of inefficient and unstable training for multimodal RL systems, particularly in real-world scenarios with varying signal access, though it appears incremental as it builds on existing RL post-training pipelines.

The paper tackled the problem of modality-blind training in multimodal language models, which inflates policy-gradient variance and degrades robustness, by introducing MAPLE, a modality-aware post-training ecosystem that narrows uni/multi-modal accuracy gaps by 30.24% and converges 3.18x faster.

Multimodal language models now integrate text, audio, and video for unified reasoning. Yet existing RL post-training pipelines treat all input signals as equally relevant, ignoring which modalities each task actually requires. This modality-blind training inflates policy-gradient variance, slows convergence, and degrades robustness to real-world distribution shifts where signals may be missing, added, or reweighted. We introduce MAPLE, a complete modality-aware post-training and learning ecosystem comprising: (1) MAPLE-bench, the first benchmark explicitly annotating minimal signal combinations required per task; (2) MAPO, a modality-aware policy optimization framework that stratifies batches by modality requirement to reduce gradient variance from heterogeneous group advantages; (3) Adaptive weighting and curriculum scheduling that balances and prioritizes harder signal combinations. Systematic analysis across loss aggregation, clipping, sampling, and curriculum design establishes MAPO's optimal training strategy. Adaptive weighting and curriculum focused learning further boost performance across signal combinations. MAPLE narrows uni/multi-modal accuracy gaps by 30.24%, converges 3.18x faster, and maintains stability across all modality combinations under realistic reduced signal access. MAPLE constitutes a complete recipe for deployment-ready multimodal RL post-training.

View on arXiv PDF

Similar