Do Fair Models Reason Fairly? Counterfactual Explanation Consistency for Procedural Fairness in Credit Decisions

arXiv:2605.1270138.9

Predicted impact top 64% in LG · last 90 daysOriginality Highly original

AI Analysis

For practitioners in high-stakes domains like credit decisions, this work reveals a critical blind spot in existing fairness metrics and provides a method to ensure models reason fairly across groups.

The paper identifies a hidden procedural bias in outcome-fair models, where they use different reasoning for different groups despite equalizing outcomes. The proposed Counterfactual Explanation Consistency (CEC) framework detects and mitigates this bias, reducing it substantially with modest utility cost across multiple datasets.

Machine learning algorithms in socially sensitive domains (e.g., credit decisions) often focus on equalizing predictive outcomes. However, satisfying these metrics does not guarantee that models use the same reasoning for different groups. We show that existing outcome-fair models can still apply fundamentally different reasoning to individuals, a ``hidden procedural bias'' missed by standard fairness metrics and algorithms. We propose Counterfactual Explanation Consistency (CEC), a framework that detects and mitigates this bias by aligning feature attributions between individuals and their counterfactual counterparts. Key contributions include a nearest-neighbor counterfactual generation method, a modified baseline for integrated gradient comparisons, an individual-level procedural fairness metric, and a corresponding training loss. We introduce a taxonomy identifying ``Regime B'' (same outcome, different reasoning) as a critical blind spot. Experiments on synthetic data, German Credit, Adult Income, and HMDA mortgage data demonstrate that outcome-fair baselines exhibit substantial hidden bias, while CEC substantially reduces it with modest utility cost.

View on arXiv PDF

Similar