CLAug 18, 2023

NaijaRC: A Multi-choice Reading Comprehension Dataset for Nigerian Languages

Anuoluwapo Aremu, Jesujoba O. Alabi, Daud Abolade, Nkechinyere F. Aguobi, Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani

arXiv:2308.09768v32.96 citationsh-index: 32Has Code

Originality Synthesis-oriented

AI Analysis

This work addresses the lack of resources for evaluating reading comprehension in Nigerian languages, which is an incremental contribution to NLP for low-resource languages.

The authors introduced NaijaRC, a new multi-choice reading comprehension dataset for three Nigerian languages based on high-school exams, and provided baseline results using cross-lingual transfer from English datasets and prompting large language models like GPT-4.

In this paper, we create NaijaRC: a new multi-choice Reading Comprehension dataset for three native Nigeria languages that is based on high-school reading comprehension examination. We provide baseline results by performing cross-lingual transfer using existing English RACE and Belebele training dataset based on a pre-trained encoder-only model. Additionally, we provide results by prompting large language models (LLMs) like GPT-4.

View on arXiv PDF Code

Similar