Mechanistic Interpretability - a Purusharth Collection

Purusharth 's Collections

Mechanistic Interpretability

Mechanistic Interpretability

updated Apr 14, 2025

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Paper • 2504.08192 • Published Apr 11, 2025 • 3