CV LGNov 4, 2024

Grouped Discrete Representation for Object-Centric Learning

Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen

arXiv:2411.02299v37.65 citationsh-index: 45Has CodeECML/PKDD

Originality Incremental advance

AI Analysis

This work addresses object discovery in images/videos for computer vision applications, representing an incremental improvement over existing discrete representation approaches.

The paper tackles the problem of object-centric learning by addressing limitations in existing discrete representation methods that treat features as indivisible units and lose attribute-level similarities. The proposed Grouped Discrete Representation (GDR) method improves object separability and interpretability, consistently enhancing both mainstream and state-of-the-art methods across various datasets.

Object-Centric Learning (OCL) aims to discover objects in images or videos by reconstructing the input. Representative methods achieve this by reconstructing the input as its Variational Autoencoder (VAE) discrete representations, which suppress (super-)pixel noise and enhance object separability. However, these methods treat features as indivisible units, overlooking their compositional attributes, and discretize features via scalar code indexes, losing attribute-level similarities and differences. We propose Grouped Discrete Representation (GDR) for OCL. For better generalization, features are decomposed into combinatorial attributes by organized channel grouping. For better convergence, features are quantized into discrete representations via tuple code indexes. Experiments demonstrate that GDR consistently improves both mainstream and state-of-the-art OCL methods across various datasets. Visualizations further highlight GDR's superior object separability and interpretability. The source code is available on https://github.com/Genera1Z/GroupedDiscreteRepresentation.

View on arXiv PDF Code

Similar