LG CL IRJul 1, 2013

WebSets: Extracting Sets of Entities from the Web Using Unsupervised Information Extraction

Bhavana Dalvi, William W. Cohen, Jamie Callan

arXiv:1307.0261v193 citations

Originality Synthesis-oriented

AI Analysis

This addresses the need for scalable entity set extraction from web data, but it is incremental as it builds on existing clustering and pattern-based techniques.

The paper tackles the problem of extracting concept-instance pairs from HTML tables using an unsupervised information extraction method, achieving accurate results on multiple datasets.

We describe a open-domain information extraction method for extracting concept-instance pairs from an HTML corpus. Most earlier approaches to this problem rely on combining clusters of distributionally similar terms and concept-instance pairs obtained with Hearst patterns. In contrast, our method relies on a novel approach for clustering terms found in HTML tables, and then assigning concept names to these clusters using Hearst patterns. The method can be efficiently applied to a large corpus, and experimental results on several datasets show that our method can accurately extract large numbers of concept-instance pairs.

View on arXiv PDF

Similar