CLJul 15, 2021

Self-Supervised Contrastive Learning with Adversarial Perturbations for Defending Word Substitution-based Attacks

Zhao Meng, Yihan Dong, Mrinmaya Sachan, Roger Wattenhofer

arXiv:2107.07610v330.2629 citationsHas Code

Originality Incremental advance

AI Analysis

This addresses the problem of adversarial vulnerability in language models for NLP applications, offering an incremental improvement by leveraging unlabeled data.

The paper tackles the problem of improving BERT language model robustness against word substitution-based adversarial attacks by using adversarial perturbations for self-supervised contrastive learning without labeled data, resulting in enhanced robustness against four attacks and higher robustness when combined with adversarial training.

In this paper, we present an approach to improve the robustness of BERT language models against word substitution-based adversarial attacks by leveraging adversarial perturbations for self-supervised contrastive learning. We create a word-level adversarial attack generating hard positives on-the-fly as adversarial examples during contrastive learning. In contrast to previous works, our method improves model robustness without using any labeled data. Experimental results show that our method improves robustness of BERT against four different word substitution-based adversarial attacks, and combining our method with adversarial training gives higher robustness than adversarial training alone. As our method improves the robustness of BERT purely with unlabeled data, it opens up the possibility of using large text datasets to train robust language models against word substitution-based adversarial attacks.

View on arXiv PDF Code

Similar