arXiv (Computational Finance)Finance
現代的ホップフィールドエネルギー上のランジュバン動力学による確率的注意機構
Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
注意機構(Attention)は、与えられたクエリに基づいて保存された値の重み付き平均を返す計算として機能しています。最新の研究では、この計算プロセスが現代的ホップフィールドエネルギーに対する勾配降下法の1ステップであること、そして対応するボルツマン分布からのランジュバンサンプリングが確率的注意を生み出すことが示されました。この手法は単一の温度パラメータで制御される訓練不要なサンプラーとして機能し、温度を低下させると正確な情報検索が得られ、上昇させるとオープンエンドな生成が可能になります。
この方法の特筆すべき点は、エネルギー勾配が注意マップと等しいため、スコアネットワーク、訓練ループ、または学習済みモデルが不要であることです。これにより、訓練データが限定的な低データ領域での応用に特に適しており、従来の学習ベースの生成モデルが十分な訓練信号を得られない場面での活用が期待されます。研究チームはエントロピー変曲点条件を導出し、任意のメモリ幾何に対する検索から生成への遷移温度を特定し、次元で2桁異なる5つのドメインでサンプラーを検証しました。
トランスフォーマーで使用される因果マスクと同一のブール値マスクを注意ソフトマックスに適用することで(ただし配列軸ではなくメモリ軸に沿って適用)、サンプラーはOlivettiフェイスデータセット上でゼロショット条件付きクラス生成器として機能します。MNISTの手書き数字画像では、確率的注意は最良の学習ベースラインよりも著しく新規性と多様性に優れたサンプルを生成しました。小さなPfamファミリーのタンパク質配列では、生成レジームはアミノ酸組成を変分オートエンコーダよりも忠実に保持し、訓練不要なスコア関数が学習モデルが失うファミリーレベルの忠実性を保持していることが示されました。