LGDec 9, 2025

Transformers for Multimodal Brain State Decoding: Integrating Functional Magnetic Resonance Imaging Data and Medical Metadata

Danial Jafarzadeh Jazi, Maryam Hajiesmaeili

arXiv:2512.08462v14.1

Originality Incremental advance

AI Analysis

This work addresses the challenge of underutilizing contextual metadata in brain state decoding for neuroscience and clinical applications, representing an incremental improvement over existing methods.

The paper tackles the problem of decoding brain states from fMRI data by integrating DICOM metadata with transformer-based architectures, resulting in enhanced model accuracy, interpretability, and robustness for applications in clinical diagnostics and neuroscience.

Decoding brain states from functional magnetic resonance imaging (fMRI) data is vital for advancing neuroscience and clinical applications. While traditional machine learning and deep learning approaches have made strides in leveraging the high-dimensional and complex nature of fMRI data, they often fail to utilize the contextual richness provided by Digital Imaging and Communications in Medicine (DICOM) metadata. This paper presents a novel framework integrating transformer-based architectures with multimodal inputs, including fMRI data and DICOM metadata. By employing attention mechanisms, the proposed method captures intricate spatial-temporal patterns and contextual relationships, enhancing model accuracy, interpretability, and robustness. The potential of this framework spans applications in clinical diagnostics, cognitive neuroscience, and personalized medicine. Limitations, such as metadata variability and computational demands, are addressed, and future directions for optimizing scalability and generalizability are discussed.

View on arXiv PDF

Similar