arXiv (Robotics)AI
ロボットナビゲーションのための安全制約強化学習と学習後の到達可能性検証
Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
モバイルロボットの安全なナビゲーションは、複雑な環境における知覚の不確実性という高リスク要因の下で、信頼性を保つポリシーの開発を必要とします。しかし既存の安全強化学習(RL)手法の多くは、累積コストの平均値によって安全性を評価しており、この指標では危険なテール・リスク行動が見落とされる可能性があります。本研究は、この問題に対処するため、条件付きバリュー・アット・リスク(CVaR)制約最適化を用いたリスク感応的なポリシーの訓練と、ニューラルネットワーク到達可能性検証による学習後の安全性評価を組み合わせたフレームワークを提案しています。
訓練段階では、オフポリシーのTD3アルゴリズムをバックボーンとし、CVaR制約の下で累積コストを最適化することで、平均的な行動だけでなく高コスト結果に対する感応性を高めるポリシーを育成します。学習完了後、観測不確実性の範囲内でテイラーモデル分析を用いて行動到達可能集合を計算し、安全マージン内に留まるポリシー評価状態の比率を定量化する安全率メトリックを導出します。重要な知見として、CVaR制約で訓練されたポリシーは、評価対象の全状態において障害物からより大きな安全マージンを維持し、形式的な到達可能性検証の対象として大幅に適合性が向上することが分かりました。
10のナビゲーションシナリオと6つのベースライン手法による実験では、提案手法が98.3%の成功率を達成し、全比較手法中で最高の安全性検証率を記録しています。興味深いことに、平均コストによるランキングと到達可能性ベースの安全性ランキングが異なることが示され、到達可能性検証が経験的コスト指標では検出されないリスクを捉えていることが明らかになりました。さらに、実際のClearpathジャッカルロボット上での検証を行い、シミュレーションから実ロボットへの転移学習の成功を実証しています。