arXiv (CV)AI
対比的マルチモーダルハイパーグラフ推論による3D群衆メッシュ復元
Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
複数人の3次元再構成は現実世界の相互作用分析に不可欠ですが、深刻なオクルージョン(遮蔽)と深度の曖昧性により依然として課題が残されています。従来のアプローチは単一モーダル入力に依存する傾向にあり、幾何学的なガイダンスが本来的に不足していました。さらにこれらの手法は対象者を個別に再構成することが多く、混雑したシーンにおける曖昧性を解決するために不可欠な集団全体のコンテキストを無視していました。
こうした制限を克服するため、研究チームは対比的マルチモーダルハイパーグラフ推論という新しいアプローチを提案しました。これはセマンティック、幾何学的、姿勢の手がかりを統合して群衆の再構成を行うものです。初期段階では、RGB特徴量、幾何学的先験知識、オクルージョン認識不完全姿勢を組み合わせることで堅牢なノード表現を初期化します。さらに、骨盤深度指標をグローバル空間アンカーとして導入し、視覚特徴をメトリックスケール非依存的な深度順序に整列させます。
その後、ペアワイズ制約を超えて高次の群衆ダイナミクスをモデル化する共有トポロジハイパーグラフを構築します。特徴融合を改善するため、ハイパーグラフベースの対比学習スキームを設計し、これはモーダル内判別可能性を強化し、クロスモーダル直交性を同時に実施します。このメカニズムにより、ネットワークはグローバルコンテキストを効果的に伝播できるようになり、深刻なオクルージョン下でも欠落情報を推論することが可能になります。PanopticおよびGigaCrowdベンチマークでの広範な実験により、提案手法が最先端の性能を達成していることが確認されました。コードと学習済みモデルはGitHubで公開されています。