IR CL CRAug 6, 2015

Privacy-Preserving Multi-Document Summarization

Luís Marujo, José Portêlo, Wang Ling, David Martins de Matos, João P. Neto, Anatole Gershman, Jaime Carbonell, Isabel Trancoso, Bhiksha Raj

arXiv:1508.01420v17.72 citations

Originality Incremental advance

AI Analysis

This addresses privacy concerns for users of multi-document summarization systems, though it is incremental as it adapts existing methods for privacy.

The paper tackles the problem of privacy risks in multi-document summarization by proposing a privacy-preserving approach that uses Secure Binary Embeddings to convert documents into bit strings, enabling summaries without revealing original content, and experiments show it yields similar results to non-private systems on standard datasets.

State-of-the-art extractive multi-document summarization systems are usually designed without any concern about privacy issues, meaning that all documents are open to third parties. In this paper we propose a privacy-preserving approach to multi-document summarization. Our approach enables other parties to obtain summaries without learning anything else about the original documents' content. We use a hashing scheme known as Secure Binary Embeddings to convert documents representation containing key phrases and bag-of-words into bit strings, allowing the computation of approximate distances, instead of exact ones. Our experiments indicate that our system yields similar results to its non-private counterpart on standard multi-document evaluation datasets.

View on arXiv PDF

Similar