arXiv (NLP)AI
実ユーザーの意図を反映した多様で現実的なクエリを生成してQAエージェントの失敗を引き出すフレームワーク「PQR」
PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を基盤とするエージェントの評価は、実際の失敗ケースを特定するために膨大な人的労力が必要となるため、依然として大きな課題となっています。従来の研究の多くは、対立的なユーザーによって引き起こされるエージェント失敗の自動発見に焦点を当ててきました。しかし、実在するユーザーの正当な意図を持つクエリの中にも、エージェントの失敗を引き起こすものが存在するという重要な側面が見落とされていました。
今回発表された「PQR」というフレームワークは、この課題に対応するため設計されました。PQRは有用性や安全性といった特定の目的に関してエージェント失敗を表面化させるだけでなく、実ユーザーの意図にも適合するクエリを生成することができます。このフレームワークは二つの相互補完的なモジュール間の反復的相互作用によって動作します。クエリ改善モジュールは多様なクエリ変動を探索するための書き換えを実行し、一方プロンプト改善モジュールは以前のフィードバックを活用して新しい目的違反戦略と現実性ポリシーを導き出します。これにより、失敗を引き起こしながらも現実的なクエリを生成できるようになります。
PQRは電子商取引分野のQAエージェントの有用性に欠ける応答の検出において評価されました。その結果、従来の手法と比較して23~78%多くの有用性に欠ける応答を発見することに成功し、生成されたクエリはより多様かつ現実的であることが確認されました。