LG AIMay 24

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

Hongkai Li, Shifeng Xie, Lefei Shen, Zhuo Li, Mouxiang Chen, Xiaobin Zhang, Han Fu, Jianling Sun, Xiaoxue Ren, Chenghao Liu

arXiv:2605.2616197.3

AI Analysis

For practitioners and researchers using TSFMs, this provides a necessary tool to detect data contamination, addressing a critical gap in evaluation reliability.

This work introduces the first method for auditing pretraining contamination in time series foundation models (TSFMs). TSFMAudit detects contamination by measuring unusually efficient adaptation during fine-tuning, achieving superior performance over 10 baselines on 6 TSFMs and 187 datasets.

Time series foundation models (TSFMs) are increasingly pretrained on large corpora, raising concerns that evaluation datasets may have been exposed during pretraining and thus yield overly optimistic performance estimates. Auditing such contamination is challenging in time series because signals are continuous and heterogeneous, and often lack corpus documentation. To the best of our knowledge, this is the first work to study pretraining contamination auditing for TSFMs. We formalize the problem of pretraining contamination auditing for TSFMs and propose TSFMAudit, a method based on probe adaptation dynamics. Our key intuition is that contamination manifests as unusually efficient adaptation: after a fine tuning probe, contaminated datasets tend to exhibit faster loss reduction with smaller backbone movement. We evaluate TSFMAudit on 6 TSFMs and 187 datasets using documented training source evidence as supervision, and compare against 10 competitive baselines adapted from the LLM literature.

View on arXiv PDF

Similar