arXiv (CV)AI
少数のチャネルが全体像を描く:拡散トランスフォーマーにおける大規模活性化の解明
Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
テキストから画像を生成する拡散トランスフォーマー(DiT)は現在、最も強力な画像生成モデルの一つとなっていますが、プロンプトがどのようにして画像のセマンティクスを形作るかについて、その内部メカニズムはほとんど理解されていません。本研究では「大規模活性化」と呼ばれる現象に着目しています。これは隠れ状態チャネルの小さなサブセットであり、その応答が他の部分よりも一貫して大きいという特徴を持っています。
研究チームは、この大規模活性化の疎性にもかかわらず、実質的に画像全体を描き出していることを三つの相補的な観点から実証しました。まず機能的に重要であることを確認しました。大規模チャネルを無効にする制御された破壊プローブテストでは、生成品質が急激に低下する一方で、同じサイズの低統計チャネルの破壊はほぼ無視できる影響しかありません。次に、空間的に組織化されていることを発見しました。画像ストリームのトークンを大規模チャネルに限定してクラスタリングすると、主要な被写体と顕著な領域と密接に一致する首尾一貫したパーティションが得られ、見かけ上は外れ値のようなサブスペースに隠された構造化された空間コードが明らかになります。
さらに転移可能であることが示されました。あるプロンプト条件下の軌跡から別の軌跡へ大規模活性化を転送すると、最終的な画像がソースプロンプトへシフトしながら、ターゲットからの実質的なコンテンツが保持され、非構造化ピクセルブレンディングではなく局所化されたセマンティック補間が実現されます。この性質を活用して、テキスト条件付きおよび画像条件付きセマンティック転送という二つのユースケースが実装されており、追加学習なしでプロンプト補間と被写体駆動型生成が可能になります。これらの結果は、大規模活性化を単なる活性化異常ではなく、現代的なDiTモデルにおいてセマンティック情報を組織化し制御する疎なプロンプト条件付きキャリアサブスペースとして再解釈しています。