RO LGOct 28, 2025

Language-Conditioned Representations and Mixture-of-Experts Policy for Robust Multi-Task Robotic Manipulation

Xiucheng Zhang, Yang Jiang, Hongwei Qing, Jiashuo Bai

arXiv:2510.24055v11 citationsh-index: 1

Originality Incremental advance

AI Analysis

This addresses robust multi-task robotic manipulation for robotics applications, showing incremental improvements through semantic grounding and expert specialization.

The paper tackles perceptual ambiguity and task conflict in multi-task robotic manipulation via imitation learning by proposing a framework that combines language-conditioned visual representations and a mixture-of-experts policy. It reports a 79% average success rate on real-robot benchmarks, outperforming an advanced baseline by 21%.

Perceptual ambiguity and task conflict limit multitask robotic manipulation via imitation learning. We propose a framework combining a Language-Conditioned Visual Representation (LCVR) module and a Language-conditioned Mixture-ofExperts Density Policy (LMoE-DP). LCVR resolves perceptual ambiguities by grounding visual features with language instructions, enabling differentiation between visually similar tasks. To mitigate task conflict, LMoE-DP uses a sparse expert architecture to specialize in distinct, multimodal action distributions, stabilized by gradient modulation. On real-robot benchmarks, LCVR boosts Action Chunking with Transformers (ACT) and Diffusion Policy (DP) success rates by 33.75% and 25%, respectively. The full framework achieves a 79% average success, outperforming the advanced baseline by 21%. Our work shows that combining semantic grounding and expert specialization enables robust, efficient multi-task manipulation

View on arXiv PDF

Similar