arXiv (CV)AI
マルチモーダル言語モデルは何個のビジュアルトークンが必要か?F³Aによるビジュアルトークンプルーニングのスケーリング
How Many Visual Tokens Do Multimodal Language Models Need? Scaling Visual Token Pruning with F^3A
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ビジョン言語モデルの推論効率化に関する新たな研究が発表されました。これまで、マルチモーダルモデルの性能向上のために、画像データを表現する長いビジュアルトークン列を言語モデルに入力することが一般的でしたが、これに伴う推論コストの増加が課題となっていました。モデルが大規模化するにつれて、実際には限られた数のビジュアルトークンで十分である可能性が指摘されており、固定されたビジュアルトークン予算の下でこれらをどのように配分するかが重要な問題となっていたのです。
既存のプルーニング手法は、デコーダの注意度、ビジュアル相似度、条件付き多様性といったワンショット型のプロキシを用いて解決を試みてきました。しかし本研究では、ビジュアルトークンプルーニングをより適切に「タスク条件付きの証拠探索」として捉えるべきだと主張しています。特に激進的な圧縮とモデルスケール全体において、この観点が有効であるとしています。
研究チームが提案するF³Aは、言語モデルが画像トークンを処理する前に動作する学習不要のルーターです。F³Aは質問に条件付けされた軽量な手がかりを構築し、それらを凍結されたスパースセンシング層を通じてビジュアルグリッドトークンにマッチングします。その後、粗い証拠定位、局所的な洗練、カバレッジ保存競争、及び未カバー領域の回復といった複数のステップを経由して、固定されたビジョントークン予算を配分します。このアプローチは追加の学習やLLMの前向き計算を必要とせず、元のマルチモーダルプロンプティングとデコードパイプラインを保持したまま実装可能です。