arXiv (ML)AI
スパース自己符号化器を用いたEEG基盤モデルの機械的解釈可能性
Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
EEG基盤モデルは臨床的なパフォーマンスにおいて最先端の成果を上げている一方で、その予測を駆動する内部計算プロセスは不透明なままであり、臨床での信頼構築の障壁となっています。この研究では、TopK Sparse Autoencoders(SAE)をSleepFM、REVE、LaBraMという3つの異なるアーキテクチャを持つEEGトランスフォーマーに適用し、これらの埋め込み表現から疎な特徴辞書を抽出しています。抽出された特徴を異常性、年齢、性別、服用薬剤といった臨床分類体系に基づいて解釈することで、アーキテクチャ全体にわたって単一意味性とエンタングルメント(特徴の絡み合い)をベンチマーク評価しています。
本研究の重要な特徴は、内在的な辞書健全性監査に基づいた単一のハイパーパラメータ調整手法により、3つのアーキテクチャすべてに対して堅牢に転移可能な方法論を確立した点です。概念操向技術を用いて「目標概念対非目標概念」プローブ領域指標を導入することで、操向の選択性を定量化し、選択的に操向可能、エンコードされているが絡み合っている、非エンコードされているという3つの動作体制を明らかにしています。
さらに、この枠組みは深刻な表現上の失敗を露呈させます。モデル全体のパフォーマンスを崩壊させる「破壊球」的介入や、臨床的エンタングルメント(年齢と病態の混同など、一方の概念を抑制すると他方が破損するような状況)です。最終的に、スペクトラルデコーダこれらの介入を振幅スペクトラムにマッピングバックすることで、潜在空間での操作を病理的な徐波抑制やα帯域の回復といった生理学的に解釈可能な周波数シグネチャへと翻訳し、モデルの解釈可能性を飛躍的に向上させています。