arXiv (CV)AI
StrLoRA:マルチモーダル大規模言語モデルのストリーミング連続視覚指示チューニングに向けて
StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル大規模言語モデル(MLLM)が新しい能力を段階的に習得する連続視覚指示チューニング(CVIT)は、AIの実用化において重要な研究領域です。しかし既存のCVIT手法は、各訓練段階が単一の事前定義されたタスクに対応する制限的な環境を前提としており、現実世界の状況を反映していません。実際には、データは複数のタスクが動的に変化する連続的なストリームとして到着します。
この課題に対処するため、研究者らはストリーミングCVIT(StrCVIT)という、より現実的な設定を提案しました。StrCVITでは、モデルはタスクの動的混合を含むデータチャンクのストリームから学習する必要があります。同時に新しい能力を習得し、既存能力を強化しながら、過去の知識の忘却を防ぐ必要があります。既存手法はこの環境で失敗するため、研究チームはStrLoRAという正則化された2段階エキスパートルーティングフレームワークを開発しました。
StrLoRAは、テキスト指示を用いたタスク認識型エキスパート選択を第1段階で実行し、関連するエキスパートの疎な部分集合を活性化させることで、タスク間の干渉を削減します。第2段階では、局所的な視覚トークンとグローバル指示表現間のクロスモーダル注意を通じて計算される貢献度重みを用いて、トークン単位のエキスパート重み付けを適用します。非定常なストリームを通じた安定性を保つため、ルーティング安定性正則化が現在のルーティング分布を過去の指数移動平均参照と整列させます。
新たに開発されたStrCVITベンチマークでの広範な実験により、StrLoRAは既存手法を大きく上回り、連続的に進化するデータストリームからモデルの能力を効果的に向上させることが実証されました。この研究は、より動的で適応的なマルチモーダルモデルの開発に向けた重要な一歩となります。