CL AIJul 28, 2025

MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation

arXiv:2507.20917v13 citationsh-index: 6Sci Data

Originality Synthesis-oriented

AI Analysis

This addresses a gap in multilingual medical QA resources by providing a benchmark for French, though it is incremental as it adapts existing dataset concepts to a new language and domain.

The authors introduced MediQAl, a French medical QA dataset with 32,603 questions across 41 subjects, to evaluate language models on factual recall and reasoning, finding a significant performance gap between these tasks in tests with 14 models.

This work introduces MediQAl, a French medical question answering dataset designed to evaluate the capabilities of language models in factual medical recall and reasoning over real-world clinical scenarios. MediQAl contains 32,603 questions sourced from French medical examinations across 41 medical subjects. The dataset includes three tasks: (i) Multiple-Choice Question with Unique answer, (ii) Multiple-Choice Question with Multiple answer, and (iii) Open-Ended Question with Short-Answer. Each question is labeled as Understanding or Reasoning, enabling a detailed analysis of models' cognitive capabilities. We validate the MediQAl dataset through extensive evaluation with 14 large language models, including recent reasoning-augmented models, and observe a significant performance gap between factual recall and reasoning tasks. Our evaluation provides a comprehensive benchmark for assessing language models' performance on French medical question answering, addressing a crucial gap in multilingual resources for the medical domain.

View on arXiv PDF

Similar