arXiv (ML)AI
反事実推論パスを用いたクレジット割当分散の削減
Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を用いた強化学習で多段階推論を行う際、従来は終端のみで報酬が得られるスパース報酬に依存していました。このアプローチでは、最終的なフィードバックがすべての中間的な決定に均等に伝播されるため、信用割当が不十分になり、勾配の分散が大きくなり、訓練が不安定になるという課題がありました。また、多くの無効な更新が発生し、モデルの性能向上が阻害されていたのです。
今回提案されるのは、反事実比較ベースのクレジット割当フレームワークです。このフレームワークは同一の入力に対して複数の推論軌跡をサンプリングし、それらの差異を別の決定の暗黙的な近似として扱うことで、プロセスレベルの優位性推定器を構築します。これにより、スパース報酬を段階に敏感な学習シグナルへと変換することが可能になります。
この基盤の上に構築されたのが、Implicit Behavior Policy Optimization(IBPO)と呼ばれる手法です。IBPOは訓練の安定性を大幅に改善し、数学的推論やコード推論ベンチマークにおいて性能の上限を引き上げることに成功しています。本研究は、LLMの性能ポテンシャルを引き出すための有望な方向性を示唆するものとなっており、強化学習を用いた推論タスクの発展に貢献する成果として注目されています。