Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims

arXiv:2605.0801217.7

AI Analysis

For researchers in mechanistic interpretability, the paper highlights a critical methodological gap where causal claims are made without proper identification assumptions, risking invalid conclusions.

The paper audits 10 mechanistic interpretability papers and finds that none include dedicated identification assumptions for causal claims, instead substituting validation metrics like faithfulness or completeness as causal evidence. It proposes a disclosure norm requiring explicit identification strategies and assumption enumeration.

Mechanistic interpretability papers increasingly use causal vocabulary: circuits, mediators, causal abstraction, monosemanticity. Such claims require explicit identification assumptions. A purposive audit of 10 papers across four methodological strands finds no dedicated identification-assumptions section and a recurring pattern: validation metrics such as faithfulness, completeness, monosemanticity, alignment, or ablation effects are reported as causal support without stating the assumptions that make them identifying. A two-human-coder audit on $n=30$ reproduces the direction of the main finding: dedicated identification sections are absent, and validation-metric substitution is common, though exact Dim B/D counts are coding-rule sensitive. The paper proposes a disclosure norm: state whether the claim is causal, name the identification strategy, enumerate assumptions, stress at least one, and explain how conclusions shift if assumptions fail. Validation is not identification.

View on arXiv PDF

Similar