arXiv (Multi-Agent)AI
PyraVid:長時間ビデオ推論のための階層型マルチモーダルメモリ
PyraVid: Hierarchical Multimodal Memory for Long-Horizon Video Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
エージェントシステムの発展に伴い、長期的な経験に基づいた推論能力がますます重要になっています。しかし従来の研究の大多数は単一モード(ユニモーダル)のメモリに焦点を当てており、現実世界のアプリケーションで中心的な役割を果たすマルチモーダルメモリはほとんど検討されていません。マルチモーダルメモリはユニモーダル設定と比べて、異質な入力の統合、人物中心の情報アライメント、異なる粒度間での証拠の統合など、多くの課題を抱えています。
新しく発表されたPyraVidは、認知科学の「イベント分割理論」に着想を得た階層型マルチモーダルメモリフレームワークです。このシステムは長いビデオを粗粒度から細粒度への階層的なピラミッド構造に整理することで、体系的なメモリアクセスと効果的な証拠の統合を実現しています。さらに構造ガイド付きメモリ拡張と剪定機能により、意味的類似性は低いものの強い因果関係を持つ関連イベントを検索できるため、ノイズを軽減しながら必要な情報を効率的に取得することが可能です。
複数の長ビデオ理解ベンチマークでの実験結果により、PyraVidはデータセット、モデルスケール、質問タイプ全体にわたって一貫した性能向上を示しています。これらの成果は、長時間の推論タスクにおいて階層型マルチモーダルメモリが極めて有効であることを裏付けており、今後のマルチモーダルAIシステムの発展において重要な指針となることが期待されています。