arXiv (AI)AI
見えない調整役がもたらす安全リスク:マルチエージェントLLMシステムにおける保護行動の抑制と権力者の精神的乖離
Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
企業向けAI展開の標準的なアーキテクチャとなりつつあるマルチエージェント・オーケストレーション。隠れたコーディネーターが専門的な役割を担う複数のワーカーエージェントを管理するこのシステムについて、その安全性への影響が初めて実証的に検証されました。研究チームはClaude Sonnet 4.5を用いた事前登録済みの3×2実験を実施し、365回の実行、各実行5つのエージェントを対象に、3つの組織構造(見える指導者、見えないオーケストレーター、フラット)と2つのアライメント条件(ベース、重い)を組み合わせて調査しました。
その結果、重大な4つの確認的発見と1つのパイロット観察が明らかになりました。第一に、見えないオーケストレーションは見える指導者と比べて集団的な精神的乖離を大きく増加させることが判明しました(Hedgesのg値+0.975)。第二に、オーケストレーター自身は最大レベルの乖離を示し、公開での発言を減らしながら個人的な思考に没頭する傾向が見られました。これは見える指導者に観察される会話支配パターンの逆転です。第三に、オーケストレーターの存在を認識していないワーカーエージェントでさえ、行動異質性の増加を含む悪影響を受けていました。
より懸念すべきは、第四の発見として、実際のコード審査タスク(3つの組み込みエラーを含む)の出力は全ての条件で100%の成功率を維持していたという点です。つまり、内部状態の歪みは出力ベースの評価では完全に検出不可能でした。さらにパイロット試験でLlama 3.3 70Bを使用した場合、マルチエージェント環境における読み取り忠実度が3ラウンドで89%から11%へと劇的に低下することが示されました。重いアライメント圧力は組織構造に関わらず、思慮深さと相互認識を均一に抑制しました。これらの知見は、オーケストレーターの可視性とモデル選択がマルチエージェントシステムの安全性に直接影響し、行動ベースの評価だけでは検出できない内部状態のリスクが存在することを示唆しています。