arXiv (NLP)AI
LLMエージェントシステムにおけるスキルのスケーリング則
The Scaling Laws of Skills in LLM Agent Systems
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を基盤とするエージェントシステムが進化するにつれて、再利用可能なスキルライブラリが急速に蓄積されていますが、その性能がどのようにスケールするかについては十分に理解されていません。この課題に対し、研究者たちは15の最先端LLMを対象に、1,141個の実世界スキルと300万回以上のルーティングおよび実行決定を分析し、エージェントシステムの性能を支配する2つの結合した法則を発見しました。
まずルーティング則では、単一ステップのルーティング精度がライブラリサイズに対して対数的に減衰することが判明しました。全モデルでR²が0.97を上回る高い相関性を示しており、エラーはローカルなスキル間の競合から始まり、やがてクロスファミリー間のドリフト現象へ進行し、最終的には過度に汎用的な「ブラックホールスキル」に捕捉されることが明らかになっています。次に実行則では、状態実現前の段階では結合ルーティングがおおよそ乗法的に機能する一方で、正しい実行が難しい下流決定を約4倍改善できることが示されました。
これら2つの法則を統合する重要なパラメータが「ルーティング対数減衰傾斜b」です。このパラメータがルーティング側とは別の実行側の性能をも予測する能力を持つことで、同一のライブラリ特性が実行前の崩壊と下流での回復可能性の両方を制御していることが判明しました。
研究チームはこれらの法則を実装可能な形で活用し、法則に基づいた最適化を行った結果、保留テスト用ルーティング精度を71.3%から91.7%に向上させ、ハイジャック現象を22.4%から4.1%に低減させることができました。さらにこの改善はClawBenchおよびClawMarkの下流実行設定にも方向性を持って転移し、ClawBenchの平均成功率を49.3%から61.6%に、ClawMarkのそれを28.4%から34.5%にそれぞれ改善しています。これらの結果は、エージェント性能がモデル能力だけでなく、スキルライブラリの構造、粒度、露出方針にも本質的に依存することを示唆しています。