arXiv (ML)AI
自己対戦強化学習における対抗的アクション除去攻撃
When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自己対戦型強化学習システムに対する新たな脅威が明らかになった。研究者たちが調査したのは、攻撃者が被害者エージェントの取り得るアクション(行動選択肢)を選別して削除する「対抗的アクションマスキング」という攻撃手法である。従来の研究では観測値や行動の摂動(ノイズの追加)が検討されてきたが、本研究で焦点を当てたアクション除去は、エージェントが意思決定する前の段階で選択肢そのものを奪う点で本質的に異なっている。
ポーカーゲームを中心とした広範な実験を通じて、6から5,531の情報状態へと規模を拡大させたテストが実施された。さらにポーカー以外の2つのドメインも含めた検証の結果、学習されたマスキング攻撃はランダムなマスキングや学習された摂動ベースラインと比較して、はるかに大きなダメージを与えることが判明した。この攻撃の脅威性はQ学習、PPO、NFSP、ニューラルNFSP、DQNといった複数の異なる学習アルゴリズムの犠牲者に対して一貫して有効であり、異なるエージェント間での転移も可能であることが示された。
特筆すべきは、自己対戦によってこの攻撃が増幅されることと、マスク訓練の延長を行っても回復が見られないという点である。メカニズム的には、攻撃者はリーチ加重条件付きアクション容量(CAC_w)と価値加重改良版CAC_vで捉えられる、高価値の意思決定ポイントを標的としている。これらの発見は、自己対戦強化学習においてアクション可用性が堅牢性の新たな脆弱な側面であることを示唆しており、AIシステムの安全性強化に向けた重要な指摘となっている。