CVJan 23, 2019

Exploring Uncertainty in Conditional Multi-Modal Retrieval Systems

Ahmed Taha, Yi-Ting Chen, Xitong Yang, Teruhisa Misu, Larry Davis

arXiv:1901.07702v16.09 citations

Originality Incremental advance

AI Analysis

This work addresses uncertainty estimation in multi-modal retrieval systems for applications like person re-identification and autonomous driving, representing an incremental advancement.

The paper tackles visual retrieval by reformulating triplet loss as a regression problem to enable epistemic uncertainty estimation using dropout and Monte Carlo sampling, achieving comparable state-of-the-art results on person re-identification datasets and a 6% improvement in uncertain environments for autonomous driving.

We cast visual retrieval as a regression problem by posing triplet loss as a regression loss. This enables epistemic uncertainty estimation using dropout as a Bayesian approximation framework in retrieval. Accordingly, Monte Carlo (MC) sampling is leveraged to boost retrieval performance. Our approach is evaluated on two applications: person re-identification and autonomous car driving. Comparable state-of-the-art results are achieved on multiple datasets for the former application. We leverage the Honda driving dataset (HDD) for autonomous car driving application. It provides multiple modalities and similarity notions for ego-motion action understanding. Hence, we present a multi-modal conditional retrieval network. It disentangles embeddings into separate representations to encode different similarities. This form of joint learning eliminates the need to train multiple independent networks without any performance degradation. Quantitative evaluation highlights our approach competence, achieving 6% improvement in a highly uncertain environment.

View on arXiv PDF

Similar