CL AI IRNov 25, 2025

SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Discontinuous NER Models

Wen-Fang Su, Hsiao-Wei Chou, Wen-Yang Lin

arXiv:2511.20143v2

Originality Incremental advance

AI Analysis

This work addresses segmentation and omission issues in discontinuous NER, a domain-specific problem in natural language processing, with incremental improvements over existing methods.

The paper tackles the challenge of recognizing discontinuous named entities in text by integrating image data augmentation techniques into grid-based NER models, resulting in F1 score gains of 1-2.5% overall and 3.7-8.4% for discontinuous entities on benchmark datasets.

Named Entity Recognition (NER) is a critical task in natural language processing, yet it remains particularly challenging for discontinuous entities. The primary difficulty lies in text segmentation, as traditional methods often missegment or entirely miss cross-sentence discontinuous entities, significantly affecting recognition accuracy. Therefore, we aim to address the segmentation and omission issues associated with such entities. Recent studies have shown that grid-tagging methods are effective for information extraction due to their flexible tagging schemes and robust architectures. Building on this, we integrate image data augmentation techniques, such as cropping, scaling, and padding, into grid-based models to enhance their ability to recognize discontinuous entities and handle segmentation challenges. Experimental results demonstrate that traditional segmentation methods often fail to capture cross-sentence discontinuous entities, leading to decreased performance. In contrast, our augmented grid models achieve notable improvements. Evaluations on the CADEC, ShARe13, and ShARe14 datasets show F1 score gains of 1-2.5% overall and 3.7-8.4% for discontinuous entities, confirming the effectiveness of our approach.

View on arXiv PDF

Similar