LG MAMar 6, 2023

MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement Learning

Mikayel Samvelyan, Akbir Khan, Michael Dennis, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Roberta Raileanu, Tim Rocktäschel

BerkeleyDeepMindOxford

arXiv:2303.03376v121.737 citationsh-index: 53

Originality Incremental advance

AI Analysis

This addresses the challenge of open-ended learning in multi-agent settings, offering a novel approach for more robust agent training, though it is incremental as it extends existing UED methods.

The paper tackles the problem of generating curricula for multi-agent reinforcement learning by jointly adapting environments and co-player policies, achieving minimax-regret guarantees and outperforming baselines in competitive two-player games.

Open-ended learning methods that automatically generate a curriculum of increasingly challenging tasks serve as a promising avenue toward generally capable reinforcement learning agents. Existing methods adapt curricula independently over either environment parameters (in single-agent settings) or co-player policies (in multi-agent settings). However, the strengths and weaknesses of co-players can manifest themselves differently depending on environmental features. It is thus crucial to consider the dependency between the environment and co-player when shaping a curriculum in multi-agent domains. In this work, we use this insight and extend Unsupervised Environment Design (UED) to multi-agent environments. We then introduce Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO), the first multi-agent UED approach for two-player zero-sum settings. MAESTRO efficiently produces adversarial, joint curricula over both environments and co-players and attains minimax-regret guarantees at Nash equilibrium. Our experiments show that MAESTRO outperforms a number of strong baselines on competitive two-player games, spanning discrete and continuous control settings.

View on arXiv PDF

Similar