AI CLJan 19

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Eric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal

arXiv:2601.13262v17.56 citations

Originality Incremental advance

AI Analysis

This work addresses the challenge of deploying LLMs in multilingual healthcare settings, representing an incremental improvement with specific gains in language consistency and logical correctness.

The authors tackled the problem of unreliable multilingual medical reasoning in large language models by introducing a new dataset and a curriculum-informed reinforcement learning framework, achieving up to 94.96% language consistency and 70.04% logical correctness at 32B parameters.

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

View on arXiv PDF

Similar