LG AIFeb 21, 2025

Mitigating Data Scarcity in Time Series Analysis: A Foundation Model with Series-Symbol Data Generation

Wenxuan Wang, Kai Wu, Yujian Betterest Li, Dan Wang, Xiaoyu Zhang, Jing Liu

arXiv:2502.15466v12 citationsh-index: 2

Originality Incremental advance

AI Analysis

This addresses data scarcity and imbalance for researchers and practitioners in time series analysis, offering a novel synthetic data approach that is incremental in building on symbolic modeling concepts.

The paper tackles data scarcity in time series analysis by introducing a series-symbol dual-modality data generation mechanism, which creates synthetic time series data paired with symbolic representations, and uses this to develop SymTime, a pre-trained foundation model that achieves competitive performance across five major tasks, rivaling models trained on real-world datasets.

Foundation models for time series analysis (TSA) have attracted significant attention. However, challenges such as data scarcity and data imbalance continue to hinder their development. To address this, we consider modeling complex systems through symbolic expressions that serve as semantic descriptors of time series. Building on this concept, we introduce a series-symbol (S2) dual-modulity data generation mechanism, enabling the unrestricted creation of high-quality time series data paired with corresponding symbolic representations. Leveraging the S2 dataset, we develop SymTime, a pre-trained foundation model for TSA. SymTime demonstrates competitive performance across five major TSA tasks when fine-tuned with downstream task, rivaling foundation models pre-trained on real-world datasets. This approach underscores the potential of dual-modality data generation and pretraining mechanisms in overcoming data scarcity and enhancing task performance.

View on arXiv PDF

Similar