arXiv (AI)AI
AgentWall:ローカルAIエージェント向けランタイム安全層
AgentWall: A Runtime Safety Layer for Local AI Agents
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自律的なAIエージェントの安全性が重要な課題として認識される中、新たなセーフティフレームワークが登場した。これまでのAIエージェントは単なるテキスト生成ツールでしたが、シェルコマンド実行、ファイル修正、API呼び出し、ウェブブラウジングなど、実際のマシン上で直接的なアクション能力を持つようになった。こうした変化に伴い、不適切な動作や悪意のある操作による被害が即座に顕在化する危険性が高まっています。
従来のAI安全研究はモデルのアラインメントと入力フィルタリングに集中してきましたが、これらのアプローチではエージェントの意図が実際のマシン上で現実の行動に転換される瞬間を制御できません。特にローカル環境で、開発者が自らのファイルシステム、認証情報、インフラストラクチャに対してエージェントを実行する場合に、ランタイム制御が不足しているという課題があります。
arXiv:2605.16265v1で発表されたAgentWallは、ローカルAIエージェント向けのランタイム安全性と可観測性を提供するレイヤーです。エージェントの提案する全アクションをホスト環境に到達する前に遮断し、明示的な宣言的ポリシーに照らして評価し、機密性の高い操作について人間の承認を必須とし、監査とリプレイのための完全な実行トレイルを記録します。MCP(Model Context Protocol)プロキシとしてのポリシー強制型実装およびネイティブOpenClawプラグインとして展開され、Claude Desktop、Cursor、Windsurf、Claude Code、OpenClawで単一のインストールコマンドで動作します。
設計、アーキテクチャ、脅威モデル、ポリシーモデルが詳細に示され、14のベンチマークテストで92.9%のポリシー強制精度を実現し、オーバーヘッドはサブミリ秒という優れた性能を達成しています。AgentWallはオープンソースとして公開されており、GitHub上でアクセス可能です。