LG AINov 28, 2025

Bandit Guided Submodular Curriculum for Adaptive Subset Selection

Prateek Chanda, Prayas Agrawal, Saral Sureka, Lokesh Reddy Polu, Atharv Kshirsagar, Ganesh Ramakrishnan

arXiv:2511.22944v14.1

Originality Incremental advance

AI Analysis

This work addresses curriculum learning challenges for machine learning practitioners by providing a principled, validation-driven approach, though it is incremental as it builds on prior submodular methods.

The paper tackled the problem of defining difficulty in curriculum learning by reformulating adaptive subset selection as a multi-armed bandit problem, resulting in ONLINESUBMOD, which outperforms traditional and bi-level optimization methods in accuracy-efficiency tradeoffs on vision and language datasets.

Traditional curriculum learning proceeds from easy to hard samples, yet defining a reliable notion of difficulty remains elusive. Prior work has used submodular functions to induce difficulty scores in curriculum learning. We reinterpret adaptive subset selection and formulate it as a multi-armed bandit problem, where each arm corresponds to a submodular function guiding sample selection. We introduce ONLINESUBMOD, a novel online greedy policy that optimizes a utility-driven reward and provably achieves no-regret performance under various sampling regimes. Empirically, ONLINESUBMOD outperforms both traditional curriculum learning and bi-level optimization approaches across vision and language datasets, showing superior accuracy-efficiency tradeoffs. More broadly, we show that validationdriven reward metrics offer a principled way to guide the curriculum schedule.

View on arXiv PDF

Similar