arXiv (CV)AI
Fre-Res:効率的なビデオMLLMのための周波数残差ビデオトークン圧縮
Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ビデオを理解するAIモデル(Video MLLM)は、空間的な細部の保存と時間的なカバレッジのバランスという根本的なジレンマに直面しています。細かい視覚的な詳細を保持するには多くの空間トークンが必要となる一方で、短時間のイベントを捉えるには密集した時間的サンプリングが求められるため、両立が困難でした。新たに提案された「Fre-Res」は、この課題に対する革新的なアプローチを提供する、予算に適応したデュアルトラック型ビデオトークン圧縮フレームワークです。このフレームワークは、空間的情報と時間的情報を分離して処理することで、それぞれの側面を最適化します。
Fre-Resの核となるメカニズムは、まばらな高忠実度の空間アンカーを保存しつつ、密集した時間的変化をコンパクトな残差周波数トークンで表現するという二層構造にあります。具体的には、ビジョン潜在空間内のフレーム間残差軌跡に対して時間軸1D-DCT(離散コサイン変換)を適用します。この処理により、周波数領域に強い低周波数集中が観察されることが実験的に確認されています。周波数領域のダイナミクスをネイティブな視覚埋め込みに整列させるため、Fre-Resは「Spatial-Guided Absorber」と呼ばれる新しいモジュールを導入し、時間残差情報を空間的に対応するアンカートークンに注入します。
細粒度の短編動画および長編動画の推論ベンチマーク全体において、Fre-Resは精度と効率の優れたトレードオフを実現しています。視覚トークン長を大幅に削減しながら、完全トークンパフォーマンスに匹敵するか、それに近い精度を達成しました。さらに詳細な検証実験により、時間周波数残差は因果的な遷移線索を保存する一方で、空間アンカーは細粒度の物体および配置推論に不可欠であることが明らかになっています。